我有一个 fastq 文件,其中前 8 行如下所示:
@SRR21388627.2845086/1
GCTGCAGTTGCTGCTGTTGCTGCTGCTGGGGCAGCACACCAGGATGGCCGGCGCCCCCG
+
FFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFF:FF
@SRR21388627.2707233/1
GCTGCAGTTGCTGCTGTTGCTGCTGCTGGGGCAGCACACCAGGATGGCCGGCGCCCCCG
+
FFFF:FF,:FFFF,FF,F:FFFFF:,F,,:,FF:,:,FFF:::F:,,FFF:::,FF:::
我想获取DNA序列并将每个序列保存为一个新文件,该文件以序列之前的行命名,例如“SRR21388627.2845086.1.fq”,其中删除了@
,并/
替换为.
到目前为止,我想出了一个参考这篇文章的命令,但它还不起作用,因为我不确定如何删除@
和/
替换awk
cat deltaQ_1_region_1.fq | paste - - - - | cut -f1,2 |
awk -F'\t' '$1!=prev{close(out); out=$1".fq"; prev=$1} {sub(/[^\t]+\t/,""); print > out}' file
谢谢你!
每个“记录”有 4 行,因此您可以使用模 4 来区分其中的“字段”
awk
(而不是在paste
调用 awk 之前将它们与 a 连接起来):假设组成“DNA 序列”的行数可能会有所不同:
结果:
从 ChatGPT 得到答案...