重新排列字母并比较两个单词

Question

Josh

Asked: 2018-08-03 13:19:34 +0800 CST2018-08-03 13:19:34 +0800 CST 2018-08-03 13:19:34 +0800 CST

使用 awk 比较文件并合并两个文件的输出？

772

我正在尝试使用比较两个文件，awk并且我想将两个文件中的数据打印为输出。我比较的文件如下。

文件1：

gene             feature id            fc         
a                gene                 MSTRG.1.1           
b                gene                 MSTRG.1.2   
c                gene                 MSTRG.2.1 
d                gene                 MSTRG.3.1

文件2：

MSTRG.1.1       ALLMI        
MSTRG.3.1       COTJA   
MSTRG.4.1       SORCY

我一直在使用以下命令：

$ awk -F '\t' 'BEGIN{OFS=FS} NR==FNR {a[$1]=$1; next} $3 in a {print $1}' File2 File1

我希望输出为：

a ALLMI
c COTJA
d SORCY,

但是，目前我只得到以下输出：

a    
c    
d

这两个文件都是制表符分隔的，所以我不确定为什么我的命令不起作用？

3 个回答

Voted

steve · Answer 1 · 2018-08-03T13:44:08+08:00

Best Answer

steve

2018-08-03T13:44:08+08:002018-08-03T13:44:08+08:00

awk 解决方案

这个怎么样。没有给出您提供的确切输出，但我不确定为什么d SORCY, 会按原样打印d，MSTRG3.1即COTJA.

不管怎样，就到这里吧。十人制首发。在 GNU Awk v4.0.2 上运行良好。

$ awk 'NR==FNR{a[$1]=$2}NR!=FNR&&FNR>1&&a[$3]{print $1,a[$3]}' file2 file1
a ALLMI
d COTJA
$

如果 NR 与 FNR 相同，则我们在第一个文件上，因此填充数组。

如果 NR 与 FNR 不同，我们在第二个文件，所以一旦我们超过了这个文件的第一条记录（标题），并且如果字段 3 存在于数组中，则打印它。

“打高尔夫球” awk 解决方案

可读性较差，但代码较短。

awk 'NR==FNR{a[$1]=$2}a[$3]{print$1,a[$3]}' file{2,1}

加入解决方案

或者，如果您不特别需要使用实现它awk，只需使用join.

$ join -1 3 -2 1 -o "1.1 2.2" file1 file2
a ALLMI
d COTJA
$

使用文件 1 ( -1 3) 中的字段 3 和文件 2 ( ) 中的字段 1连接文件-2 1。然后从file1打印field 1，从file2打印field2。答对了。

9

Siva · Answer 2 · 2018-08-03T13:47:44+08:00

Siva

2018-08-03T13:47:44+08:002018-08-03T13:47:44+08:00

尝试这个，

 awk  'BEGIN{OFS=FS} NR==FNR {a[$1]=$1; next} $3 in a {print $1"\t"$3}'  file2 file1

我们不需要\t作为分隔符。
我们需要根据您的要求打印第一个和第三个字段。

3

Kusalananda · Answer 3 · 2018-08-03T22:54:54+08:00

Kusalananda

2018-08-03T22:54:54+08:002018-08-03T22:54:54+08:00

你的代码，

awk -F '\t' 'BEGIN{OFS=FS} NR==FNR {a[$1]=$1; next} $3 in a {print $1}' File2 File1

永远不能输出两列，因为print最后只输出第一列File1。

不过你快到了。您需要做一个微小的调整，即实际输出缺失的字段：

awk -F '\t' 'BEGIN{OFS=FS} NR==FNR {a[$1]=$1; next} $3 in a {print $3, $1}' File2 File1
                                                                   ^^^
                                                                 add this

在您的数据上运行它应该会产生

MSTRG.1.1 a
MSTRG.3.1 d

对于大型数据集，请参阅steve 的内存效率更高的解决方案。

3

使用 awk 比较文件并合并两个文件的输出？

如何将 GPG 私钥和公钥导出到文件

ssh 无法协商：“找不到匹配的密码”，正在拒绝 cbc

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

如何卸载内核模块“nvidia-drm”？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

使用 awk 比较文件并合并两个文件的输出？

3 个回答

相关问题