根据第一个逗号之前的匹配删除重复行数

Question

DN1

Asked: 2020-02-01 02:57:56 +0800 CST2020-02-01 02:57:56 +0800 CST 2020-02-01 02:57:56 +0800 CST

如何查找和计算两个文件中 ID 列的匹配数据？

772

我有两个具有匹配染色体位置 ID 的遗传数据集。我想计算文件 1 的染色体位置 ID 出现在文件 2 中的次数。

例如，我的数据如下所示：

文件 1（染色体位置实际上是我的第 125 列，由暗示...）：

Gene  pval    ... Chromosome position ID
ACE   0.002   ... 01:3290834_CT_C_1
NOS   0.01    ... 03:3304593_GA_G_1
BRCA  0.004 . ... 06:6265733_GA_G_1
CYP3  0.34    ... 09:9433933_GA_G_1

文件 2（染色体位置是我的第一列）：

Chromosome position ID  Gene  pval
01:1243933_GA_G_1       ACE   0.002
03:3304593_GA_G_1       NOS   0.01
06:6265733_GA_G_1       BRCA  0.004
09:9433933_GA_G_1       CYP3  0.34

我发现很多问题都给出了匹配行的提取，并根据这些问题应用了代码，但我只想获得两个文件之间匹配染色体位置的计数。

目前我正在使用：

awk -F'|' 'NR==FNR{c[$125]++;next};c[$125]' file2.csv file1.txt > file3.txt

wc -l file1.txt
wc -l file3.txt

文件 1 和 3 的行数与我期望的不完全匹配（我希望所有文件 1 都在文件 2 中）并且为了确定发生了什么我需要找到一种方法来执行匹配计数染色体位置列中的行。如果我能找到一种方法来编码“文件 1 的所有染色体位置是否都匹配/出现在文件 3 中？” 这将是理想的，但即使只是计数现在也有效。

所以输出将是一个数字，计算文件 1 中染色体位置列 $125 与文件 2 染色体位置列 $1 匹配的次数。

我正在使用 Linux。

2 个回答

Voted

Paulo Tomé · Answer 1 · 2020-02-01T03:27:22+08:00

Best Answer

Paulo Tomé

2020-02-01T03:27:22+08:002020-02-01T03:27:22+08:00

具有awk、tail、sort和join的解wc。

join <(awk -F '\t' '{print $125}' file1 | tail -n +2 | sort) <(awk -F '\t' '{print $1}' file2 | tail -n +2 | sort ) | wc -l
3

解释。

此解决方案假定列是制表符分隔的。awk收集file1的第125列和file2的第一列。tail -n +2删除收集结果的第一行。sort是强制性的，因为join需要有序文件。结果相交集被提供给wc它返回它的行数。

2

RudiC · Answer 2 · 2020-02-01T03:21:05+08:00

RudiC

2020-02-01T03:21:05+08:002020-02-01T03:21:05+08:00

你很近。尝试

awk 'FNR == 1 {next}; FNR==NR {P[$125]; next} $1 in P {P[$1]++} END {for (p in P) print p, P[p]+0}' file[12]
03:3304593_GA_G_1 1
01:3290834_CT_C_1 0
09:9433933_GA_G_1 1
06:6265733_GA_G_1 1

显然，并不是file1中的所有位置都在file2中找到。

1

如何查找和计算两个文件中 ID 列的匹配数据？

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

如何查找和计算两个文件中 ID 列的匹配数据？

2 个回答

相关问题