我有一个包含特定蛋白质的多个序列(氨基酸序列)的 fasta 文件。序列的最后一个字符表示为“*”,它实际上代表终止密码子。我正在尝试使用 MUSCLE 进行多序列比对,但该工具拒绝所有最后带有“*”的序列。
如何删除“*”?
例如我的输入文件是:
>seq1
MSDGFHS*
>Seq2
MSDRFH*
我需要的是:
>seq1
MSDGFHS
>Seq2
MSDRFH
我有一个包含特定蛋白质的多个序列(氨基酸序列)的 fasta 文件。序列的最后一个字符表示为“*”,它实际上代表终止密码子。我正在尝试使用 MUSCLE 进行多序列比对,但该工具拒绝所有最后带有“*”的序列。
如何删除“*”?
例如我的输入文件是:
>seq1
MSDGFHS*
>Seq2
MSDRFH*
我需要的是:
>seq1
MSDGFHS
>Seq2
MSDRFH