grep 从 $START 到 $END 的一组行并且在 $MIDDLE 中包含匹配项

Question

Callahan McGovern

Asked: 2022-04-06 06:01:55 +0800 CST2022-04-06 06:01:55 +0800 CST 2022-04-06 06:01:55 +0800 CST

如何删除文件中每次出现的“>”和“细菌”一词之间的部分？

772

我想删除文件中每次出现的the>和 word之间的部分。Bacteria

这是输入的示例：

>AADV02000003.105686.107093 Bacteria;Cyanobacteria;Cyanobacteriia;Cyanobacteriales;

结果应如下所示：

>Bacteria;Cyanobacteria;Cyanobacteriia;Cyanobacteriales;

这是一个 FASTA 文件（仿生信息学中的一种常见文件格式），因此>始终是该行中的第一个非空白字符，并且该行中只有一个这样的字符。

我正在考虑使用sed，但我不确定如何设置命令。感谢您的帮助。

6 个回答

Voted

terdon · Answer 1 · 2022-04-06T06:23:14+08:00

Best Answer

terdon

2022-04-06T06:23:14+08:002022-04-06T06:23:14+08:00

假设这是一个 fasta 文件，具有多个标题和序列行，其中标题以 a 开头，>并且>只能作为行的第一个非空白字符出现，您可以执行以下操作：

sed 's/^ *>[^ ]* />/' file.fa

这将查找以 0 个或多个空格开头然后是 a>的行，并将从行的开头、到>和直到第一个空格的所有内容替换为>，有效地删除第一个空格之前的所有内容。

要编辑原始文件而不是将其打印到标准输出，请使用：

sed -i.bak 's/^ *>[^ ]* />/' file.fa

这将创建一个名为的文件，该文件file.fa.bak将是原始文件的副本。

3

HatLess · Answer 2 · 2022-04-06T06:13:24+08:00

HatLess

2022-04-06T06:13:24+08:002022-04-06T06:13:24+08:00

使用sed

$ sed 's/[A-Z][^ ]* //' input_file
>Bacteria;Cyanobacteria;Cyanobacteriia;Cyanobacteriales;

1

jubilatious1 · Answer 3 · 2022-06-18T18:32:49+08:00

jubilatious1

2022-06-18T18:32:49+08:002022-06-18T18:32:49+08:00

使用Raku（以前称为 Perl_6）

raku -pe 's/^ \> <(.+?)> Bacteria\; //;'

简而言之，使用了 Raku 的-pe自动打印逐行标志，以及熟悉的s///替换运算符。运算符的左半部分搜索 4 个正则表达式原子，零宽度^的字符串原子开头，反斜杠转义\>，一次或多次非贪婪的.+?任意字符，后跟单词Bacteria\;。

非贪婪.+?原子被包裹在<(...)>中，这是 Raku 的捕获标记。搜索所有四个原子（元素），但仅在<(.+?)>替换运算符的右半部分捕获替换。

最后，替换运算符的右半部分不包含任何字符，这告诉 Raku 进行捕获并将其删除（'substitute-with-nothing'）。

样本输入：

>AADV02000003.105686.107093 Bacteria;Cyanobacteria;Cyanobacteriia;Cyanobacteriales;

样本输出：

>Bacteria;Cyanobacteria;Cyanobacteriia;Cyanobacteriales;

https://docs.raku.org/language/regexes
https://raku.org/

0

guest_7 · Answer 4 · 2022-04-06T08:21:48+08:00

guest_7

2022-04-06T08:21:48+08:002022-04-06T08:21:48+08:00

Gnu sed：

$ sed -E 's/>\S+/>/' file

-1

chuckj · Answer 5 · 2022-04-06T08:40:54+08:00

chuckj

2022-04-06T08:40:54+08:002022-04-06T08:40:54+08:00

我会改用grep。如果你只想要细菌线，

grep -o 'Bact.*$' file.fa

如果所需的内容可能是第一个空格之后的任何内容，您可以使用（尽管它会包括前导空格）：

grep -o ' .*$' file.fa

如果您只想要以“>”开头的行并匹配任何尾随内容，则需要两个步骤：

grep '^>.*$' file.fa | grep -o ' .*$'

-1

Praveen Kumar BS · Answer 6 · 2022-04-06T21:13:33+08:00

Praveen Kumar BS

2022-04-06T21:13:33+08:002022-04-06T21:13:33+08:00

命令：

sed "s/^>.* />/g" filename

输出

>Bacteria;Cyanobacteria;Cyanobacteriia;Cyanobacteriales;

命令

awk '{print substr($1,1,1)$2}' filename

输出

>Bacteria;Cyanobacteria;Cyanobacteriia;Cyanobacteriales;

-1

如何删除文件中每次出现的“>”和“细菌”一词之间的部分？

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

如何删除文件中每次出现的“>”和“细菌”一词之间的部分？

6 个回答

相关问题