grep 从 $START 到 $END 的一组行并且在 $MIDDLE 中包含匹配项

Question

Darker Walker

Asked: 2021-12-14 23:59:23 +0800 CST2021-12-14 23:59:23 +0800 CST 2021-12-14 23:59:23 +0800 CST

如何删除fasta文件中每个蛋白质序列末尾的*

772

我有一个包含特定蛋白质的多个序列（氨基酸序列）的 fasta 文件。序列的最后一个字符表示为“*”，它实际上代表终止密码子。我正在尝试使用 MUSCLE 进行多序列比对，但该工具拒绝所有最后带有“*”的序列。

如何删除“*”？

例如我的输入文件是：

>seq1
MSDGFHS*
>Seq2
MSDRFH*

我需要的是：

>seq1
MSDGFHS
>Seq2
MSDRFH

4 个回答

Voted

cas · Answer 1 · 2021-12-15T00:41:51+08:00

Best Answer

cas

2021-12-15T00:41:51+08:002021-12-15T00:41:51+08:00

与sed. 例如：

$ printf ">seq1\nMSDGFHS*\n>Seq2\nMSDRFH*\n" | sed -e 's/\*$//'
>seq1
MSDGFHS
>Seq2
MSDRFH

这将删除行尾的任何文字星号字符 ( *)。

您可以使用 sed 的-i选项来编辑原始文件。或者只是将sed的输出重定向到一个新的 fasta 文件并将其用作 MUSCLE 的输入，如果您还需要将原始文件与其他程序一起使用，这将是一个更好的选择（通常最好不要永久删除信息 - 一旦您删除数据，不能保证你能把它找回来。备份总是好的，因为使用临时修改版本的文件用于特殊目的）。

3

Ed Morton · Answer 2 · 2021-12-15T05:33:23+08:00

Ed Morton

2021-12-15T05:33:23+08:002021-12-15T05:33:23+08:00

如果您的数据不包含*您想要保留的其他位置的 s，那么这是一项tr存在要做的工作：

$ tr -d '*' < file
>seq1
MSDGFHS
>Seq2
MSDRFH

2

Jim L. · Answer 3 · 2021-12-15T00:59:29+08:00

Jim L.

2021-12-15T00:59:29+08:002021-12-15T00:59:29+08:00

vi作品：

vi file.txt
:1,$s/\*$//
ZZ

这告诉vi解决文件中的所有行 ( 1,$)，并且每当*在行尾 () 找到文字（因为它是正则表达式元字符而被转义$）时，它会被替换为空，即被删除。

正如@roaima现在已删除的评论中所指出的，搜索和替换命令可以更方便地编写为：

:%s/\*//

1

jubilatious1 · Answer 4 · 2021-12-30T03:24:04+08:00

使用Raku（以前称为 Perl_6）

raku -pe 's/ \* $ //;'

样本输入：

>seq1
MSDGFHS*
>Seq2
MSDRFH*

样本输出：

>seq1
MSDGFHS
>Seq2
MSDRFH

到这个时候，您应该熟悉s///“ triple-solidus ”成语了。以上是在 Perl 编程语言家族的成员 Raku 中执行的习语。该-e标志告诉 Raku 期待一个“单线”程序（而不是，例如，脚本文件的名称），strict默认情况下启用。该-p标志运行代码逐行自动打印$_每行末尾的主题变量。

在两个左斜线字符之间，正则表达式搜索\*（反斜杠转义的）文字星号，然后是$字符串结尾的零宽度断言。两个右斜线字符之间没有任何内容，因此任何行尾星号都被替换为无内容（即删除）。

在一个有趣的转折中，您可以切换到 Raku 的-ne非自动打印逐行标志，并且s///习语将逐行返回您选择的要修改/删除的内容（假设您已附加了类似的打印语句say）：

raku -ne 's/ \* $ //.say;'  test.fasta
Nil
｢*｣
Nil
｢*｣

最后，如果您对生物信息学工具包没有强烈的偏好，您可以考虑BioPerl或BioPerl6。

https://raku.org

如何删除fasta文件中每个蛋白质序列末尾的*

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

如何删除fasta文件中每个蛋白质序列末尾的*

4 个回答

相关问题