我有文件 1,它只包含一列是基因列表,文件 2 有更长的基因列表和基因的统计数据。我正在尝试查找与文件 1 中的基因匹配的统计数据并将其放入新文件 3 中。在特定文件 2 中有 33 列,我想要的唯一统计数据在第 29 列中,但是我目前一直在写为每一列查找文件 1 基因信息的代码,因为我仍然坚持这一点。
例如,我的数据如下所示:
文件 1:
Gene
ACE
BRCA
HER.2
NOS
P53
PTGIS
文件 2:
gene_id Gene pval beta maf ... qval ...
12345 ACE 0.01 300 100 0.0008
67890 UMOD.1 0.002 400 45 0.047
00008 HER.2 0.02 123 98 0.56
34587 CICP3 0.05 55 12 0.77
67859 HER 0.003 600 33 0.234
我想要的第 29 列是qval
,并且我曾经在第 29...
列之前和之后暗示更多列,但是我对 stackexchange 没有经验,如果有办法让我完整地提供更大的数据以获得更好的示例,请告诉我,我会立即去做。
使用这些示例数据集,输出文件 3 将如下所示:
Gene qval
ACE 0.0008
HER.2 0.56
我已经尝试过我认为会给我这两个匹配基因的所有列的代码,它目前给我一个空的输出文件:
awk 'BEGIN{FS=OFS="\t"} {sub(/\.[0-9]+$/,"",$2)} FNR==NR{$30="";sub(/[[:space:]]+$/,"");a[$2]=$0;next} $1 in a{print a[$2],$NF}' file2.txt file1.txt > file3.txt
我还尝试了另一种方法,更具体地说是获取第 29 列,该列运行但输出匹配只给出我的一些匹配基因数据,而其他应该有匹配数据的则留下“NA”:
awk '{printf("%s\t%s\n", $2, $29)}' originalfile2.txt > file2.txt
awk '{
split($1,k,".")
}
NR==FNR {
a[k[1]]=$1
next
}
k[1] in a {
print $0 "\t" a[k[1]]
}' file1.txt file2.txt > file3.txt
awk '{$3=""; print $0}' file3.txt | column -t > file3.txt
sed -e '1i\Gene \ qval' file3.txt | column -t > file3.txt
你的基因名称列表是一个 DOS 文本文件,不是吗?这意味着在每个基因名称的末尾都有一个额外的回车字符。这意味着文件之间没有名称匹配。这意味着您的输出为空。
使用 . 将基因列表转换为 Unix 文本文件
dos2unix
。然后使用muru 在注释中给出的代码(假设第二个文件是制表符分隔的):或者,
awk
从每行的末尾去掉回车: