AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / unix / 问题 / 564514
Accepted
DN1
DN1
Asked: 2020-01-29 01:58:02 +0800 CST2020-01-29 01:58:02 +0800 CST 2020-01-29 01:58:02 +0800 CST

如何使用 awk 选择和提取匹配数据?

  • 772

我有文件 1,它只包含一列是基因列表,文件 2 有更长的基因列表和基因的统计数据。我正在尝试查找与文件 1 中的基因匹配的统计数据并将其放入新文件 3 中。在特定文件 2 中有 33 列,我想要的唯一统计数据在第 29 列中,但是我目前一直在写为每一列查找文件 1 基因信息的代码,因为我仍然坚持这一点。

例如,我的数据如下所示:

文件 1:

Gene
ACE
BRCA
HER.2
NOS
P53
PTGIS

文件 2:

gene_id   Gene    pval    beta    maf    ...     qval   ...
12345     ACE     0.01    300     100            0.0008
67890     UMOD.1  0.002   400     45             0.047
00008     HER.2   0.02    123     98             0.56
34587     CICP3   0.05    55      12             0.77
67859     HER     0.003   600     33             0.234

我想要的第 29 列是qval,并且我曾经在第 29...列之前和之后暗示更多列,但是我对 stackexchange 没有经验,如果有办法让我完整地提供更大的数据以获得更好的示例,请告诉我,我会立即去做。

使用这些示例数据集,输出文件 3 将如下所示:

Gene   qval
ACE    0.0008
HER.2  0.56

我已经尝试过我认为会给我这两个匹配基因的所有列的代码,它目前给我一个空的输出文件:

awk 'BEGIN{FS=OFS="\t"} {sub(/\.[0-9]+$/,"",$2)} FNR==NR{$30="";sub(/[[:space:]]+$/,"");a[$2]=$0;next} $1 in a{print a[$2],$NF}' file2.txt   file1.txt > file3.txt

我还尝试了另一种方法,更具体地说是获取第 29 列,该列运行但输出匹配只给出我的一些匹配基因数据,而其他应该有匹配数据的则留下“NA”:

awk '{printf("%s\t%s\n", $2, $29)}' originalfile2.txt > file2.txt

awk '{
    split($1,k,".")         
}
NR==FNR {
    a[k[1]]=$1              
    next
}
k[1] in a {                 
    print $0 "\t" a[k[1]]   
}'  file1.txt file2.txt  > file3.txt

awk '{$3=""; print $0}' file3.txt | column -t > file3.txt 
sed -e '1i\Gene \ qval' file3.txt | column -t > file3.txt
linux awk
  • 1 1 个回答
  • 399 Views

1 个回答

  • Voted
  1. Best Answer
    Kusalananda
    2020-01-29T02:17:38+08:002020-01-29T02:17:38+08:00

    你的基因名称列表是一个 DOS 文本文件,不是吗?这意味着在每个基因名称的末尾都有一个额外的回车字符。这意味着文件之间没有名称匹配。这意味着您的输出为空。

    使用 . 将基因列表转换为 Unix 文本文件dos2unix。然后使用muru 在注释中给出的代码(假设第二个文件是制表符分隔的):

    awk -v OFS='\t' 'FNR == NR {a[$0]++; next}; $2 in a {print $2, $29}' file1 file2 >file3
    

    或者,awk从每行的末尾去掉回车:

    awk -v OFS='\t' '{ sub("\r$", "") } FNR == NR {a[$0]++; next}; $2 in a {print $2, $29}' file1 file2 >file3
    
    • 7

相关问题

  • 需要一些系统调用

  • 重新排列字母并比较两个单词

  • 多行文件洗牌

  • astyle 不会更改源文件格式

  • 通过标签将根文件系统传递给linux内核

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    模块 i915 可能缺少固件 /lib/firmware/i915/*

    • 3 个回答
  • Marko Smith

    无法获取 jessie backports 存储库

    • 4 个回答
  • Marko Smith

    如何将 GPG 私钥和公钥导出到文件

    • 4 个回答
  • Marko Smith

    我们如何运行存储在变量中的命令?

    • 5 个回答
  • Marko Smith

    如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域?

    • 3 个回答
  • Marko Smith

    dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

    • 2 个回答
  • Marko Smith

    如何从 systemctl 服务日志中查看最新的 x 行

    • 5 个回答
  • Marko Smith

    Nano - 跳转到文件末尾

    • 8 个回答
  • Marko Smith

    grub 错误:你需要先加载内核

    • 4 个回答
  • Marko Smith

    如何下载软件包而不是使用 apt-get 命令安装它?

    • 7 个回答
  • Martin Hope
    user12345 无法获取 jessie backports 存储库 2019-03-27 04:39:28 +0800 CST
  • Martin Hope
    Carl 为什么大多数 systemd 示例都包含 WantedBy=multi-user.target? 2019-03-15 11:49:25 +0800 CST
  • Martin Hope
    rocky 如何将 GPG 私钥和公钥导出到文件 2018-11-16 05:36:15 +0800 CST
  • Martin Hope
    Evan Carroll systemctl 状态显示:“状态:降级” 2018-06-03 18:48:17 +0800 CST
  • Martin Hope
    Tim 我们如何运行存储在变量中的命令? 2018-05-21 04:46:29 +0800 CST
  • Martin Hope
    Ankur S 为什么 /dev/null 是一个文件?为什么它的功能不作为一个简单的程序来实现? 2018-04-17 07:28:04 +0800 CST
  • Martin Hope
    user3191334 如何从 systemctl 服务日志中查看最新的 x 行 2018-02-07 00:14:16 +0800 CST
  • Martin Hope
    Marko Pacak Nano - 跳转到文件末尾 2018-02-01 01:53:03 +0800 CST
  • Martin Hope
    Kidburla 为什么真假这么大? 2018-01-26 12:14:47 +0800 CST
  • Martin Hope
    Christos Baziotis 在一个巨大的(70GB)、一行、文本文件中替换字符串 2017-12-30 06:58:33 +0800 CST

热门标签

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve