来自 `service | 的意外结果 grep`

Question

R-MASHup

Asked: 2018-03-26 03:14:32 +0800 CST2018-03-26 03:14:32 +0800 CST 2018-03-26 03:14:32 +0800 CST

从 txt 文件中计算矩阵，grep -c 用于制表符分隔的文件？[关闭]

772

我有一个文本文件，下面head是它：

1   TACCCTGTAGAACCGAATTTGT  miRNA   mmu-mir-10b PM
2   GCATTGGTGGTTCAGTGGTAGAATTCTCGCCT    tRNA    Mus_musculus_tRNA-Gly-GCC-4-1   PM
3   TACCCTGTAGATCCGAATTTGT  miRNA   mmu-mir-10a PM
4   GCATTGTGGTTCAGTGGTAGAATTCTCGCCT tRNA    Mus_musculus_tRNA-Gly-GCC-2-2   IM
5   ACCCTGTAGAACCGAATTTGT   other   other   NA
6   TACCCTGTAGAACCGAATTTG   other   other   NA
7   GCATTGGTTCAGTGGTAGAATTCTCGCCT   tRNA    Mus_musculus_tRNA-Gly-GCC-2-7   IM
8   GCATTTGTGGTTCAGTGGTAGAATTCTCGCCT    tRNA    Mus_musculus_tRNA-Gly-GCC-4-1   IM
9   TACCCTGTAGAACCGAATTTGTG miRNA   mmu-mir-10b PM
10  GGTGAATATAGTTTACAAAAAACATTAGACTGTGAATC  tRNA    tRNA-His    IM

我想要一个基于每行中第 4 个值的计数矩阵，这样我就有类似的东西

mmu-mir-10b 2

1 个回答

Voted

αғsнιη · Answer 1 · 2018-03-26T04:22:53+08:00

Best Answer

αғsнιη

2018-03-26T04:22:53+08:002018-03-26T04:22:53+08:00

您可以使用awk, 以防您想要在位置 #4 中获取所有重复项（假设数据由空格分隔）：

$ awk '{seen[$4]++} END{for(x in seen) print x, seen[x]}' infile
other 2
Mus_musculus_tRNA-Gly-GCC-2-2 1
Mus_musculus_tRNA-Gly-GCC-2-7 1
mmu-mir-10a 1
mmu-mir-10b 2
tRNA-His 1
Mus_musculus_tRNA-Gly-GCC-4-1 2

第一个字段是数据，第二个字段是相应的副本。

2

从 txt 文件中计算矩阵，grep -c 用于制表符分隔的文件？[关闭]

如何将 GPG 私钥和公钥导出到文件

ssh 无法协商：“找不到匹配的密码”，正在拒绝 cbc

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

如何卸载内核模块“nvidia-drm”？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

从 txt 文件中计算矩阵，grep -c 用于制表符分隔的文件？[关闭]

1 个回答

相关问题