Linux grep文件1中的内容在文件2中[重复]

Question

Paulo Sergio Schlogl

Asked: 2021-10-22 03:38:34 +0800 CST2021-10-22 03:38:34 +0800 CST 2021-10-22 03:38:34 +0800 CST

sed 命令的解释

772

我发现了这个有趣的命令：

grep -v '^>' test.fasta | tr -d '\n' | sed -e 's/\(.\)/\1\n/g' | sort | uniq -c | sort -rn

我对它的含义有所了解（它计算文本文件中的字母），但我的问题是关于这个：

sed -e 's/\(.\)/\1\n/g'

我知道它由三个替代命令组成。一种是替换换行符（\n），一个匹配除换行符（\(.\)）之外的任何字符，但我迷路了/\1\？

3 个回答

Voted

they · Answer 1 · 2021-10-22T04:18:58+08:00

命令

sed -e 's/\(.\)/\1\n/g'

是一个单一的 GNUsed替换命令，用它自己替换每个字符，后跟一个换行符。这样做的效果是将输入折叠成单个字符的单列。

$ echo hello | sed -e 's/\(.\)/\1\n/g'
h
e
l
l
o

这\(.\)是一个“捕获组”，捕获单个字符。这\1是对第一个捕获组的“反向引用”。在替换文本中使用\1将插入第一个括号捕获的任何内容。

它也可以写成没有那么多反斜杠

sed 's/./&\n/g'

其中&仅表示“表达式匹配的任何内容”。

该sed命令要求 GNUsed作为标准sed不能插入换行符\n。

要使用标准工具更有效地做到这一点，请使用

fold -w 1

反而。这更有效，因为输入中的每个字符都不需要正则表达式匹配。

使用fold，您的管道可以写成

grep -v '^>' file | tr -d '\n' | fold -w 1 | sort | uniq -c | sort -rn

或者，使用awk摆脱该管道的几个步骤，

awk '!/^>/ { for (i = 1; i <= length; ++i) count[substr($0,i,1)]++ }
    END { for (ch in count) print count[ch], ch }' file |
sort -rn

该awk代码计算每个字符被看到的次数。它通过增加与count输入流中每个字符对应的数组中的值来实现这一点。在输入结束时，输出计数和计数的字符的摘要。

schrodingerscatcuriosity · Answer 2 · 2021-10-22T03:51:57+08:00

我希望这能让它更清楚。

“我知道它是由三个替代命令组成的”

它只是一个替代命令（如果您指的是sed命令）s/<pattern to search>/<replacement>/：，它将执行以下命令：

对于每一行搜索<pattern>并将其替换为<replacement>.
该g标志表示全局执行，因为默认情况下仅sed替换第一次出现的<pattern>.

“但我迷路了/\1\”

您可以通过使用转义括号将其包围来捕获模式\(<pattern>\)，或者使用-E选项仅使用括号来捕获模式(<pattern>)。

在该<replacement>部分中，此捕获的模式由反斜杠和数字引用，\<number>. 该数字是指捕获的位置，因为您可以有几个：

sed -E '/(<first capture>)(<second capture>)/\1\2/'

所以命令的sed -e 's/\(.\)/\1\n/g'意思是：

捕获每个字符\(.\)并用它自己和一个新行替换它\1\n。
使用g，全局执行，不要在第一次出现时停止。

例如：

$ echo foo | sed -E 's/(.)/\1\n/g'
f
o
o

-e此处不需要这些选项，除非您连接多个sed命令：sed -e '...' -e '...'等。

您可以在反向引用和子表达式中找到更多信息。

jubilatious1 · Answer 3 · 2021-10-22T22:56:30+08:00

使用 Raku（以前称为 Perl_6）

raku -e 'for lines.grep({ !/ ^ \> / }).join { .say for .comb.Bag.sort(*.values).reverse};'

样本输入：

>sp|P01308|INS_HUMAN Insulin OS=Homo sapiens OX=9606 GN=INS PE=1 SV=1
MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRREAED
LQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN

样本输出：

L => 20
G => 12
A => 10
E => 8
Q => 7
P => 6
C => 6
V => 6
R => 5
S => 5
Y => 4
F => 3
T => 3
N => 3
M => 2
D => 2
K => 2
I => 2
W => 2
H => 2

您提供的代码可以用多种语言编写（不仅如此sed），其中任何一种都可能引起您的共鸣。例如，上面的代码已经用 Perl 语言家族的成员 Raku 重新编写。

大多数 Raku 代码应该是相当不言自明的：lines被读入，并且grep-ped 因为!没有^行首>“大于”角度，并且join-ed。连接的行是comb-ed （分成单个字符），Bag-ged （每个字符都变成 akey并且出现次数被计算/记录为values），sort-ed inreverse以首先放置最高的出现次数，然后用打印say。

https://raku.org

sed 命令的解释

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

sed 命令的解释

3 个回答

相关问题