AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / unix / 问题 / 566102
Accepted
DN1
DN1
Asked: 2020-02-07 03:37:56 +0800 CST2020-02-07 03:37:56 +0800 CST 2020-02-07 03:37:56 +0800 CST

如何根据另一个文件的多个条件选择文件行?

  • 772

我有 2 个基因数据集。我根据 file2 中的列过滤 file1。但是,我还需要考虑 file2 中的第二列,我不知道该怎么做。

文件 1 行提取的条件是仅选择染色体位置比文件 2 中位于同一染色体上的行中的任何给定染色体位置大于 5000 或小于 5000 的行。我在下面的代码中运行了其中的一部分,但这并不仅仅考虑相同染色体编号内的过滤行。

例如,我的数据如下所示:

文件 1:

Variant   Chromsome   Chromosome Position  
Variant1      2             14000     
Variant2      1             9000              
Variant3      8             37000          
Variant4      1             21000     

文件 2:

Variant  Chromosome  Chromosome Position  
Variant1     1                 10000                   
Variant2     1                 20000                   
Variant3     8                 30000                   

预期输出(与同一染色体上文件 2 的任何行相比,位置距离大于 +/-5000 的变体):

Variant   Chromosome Position     Chromosome
Variant1    14000                  2
Variant3    37000                  8

#Variant1 at 14000, whilst within 5000 + of Variant1 at 10000 in file2 is on a different chromosome and therefore not compared and is kept.
#Variant3 is on the same chromosome as Variant4 in file1 but larger than 5000+ distance and is kept.

我使用上一个问题(如何根据另一个文件的条件从文件中选择行?)的答案进行编码,询问如何在不考虑染色体的情况下进行过滤:

awk '
NR == FNR       {RGMIN[++IX] = $2 - 5000                        
                 RGMAX[IX]   = $2 + 5000                        
                 next
                }
FNR == 1        {print                                         
                 next
                }
                {PR = 1                                         

                 for (i=2; i<=IX; i++)  PR = PR * ($3 < RGMIN[i] || $3 > RGMAX[i])                                                                                          
                }
PR                                                             
' file2 file1 > newfile.txt

我一直在尝试更好地理解语法,以便在附加行中添加一条 if 语句,用于“如果 file1 的行具有与 file2 匹配的染色体编号,则仅在该染色体编号内执行 5000 +/- 过滤”,但我如果有另一种方法,我不知道如何将它融入我所拥有的东西中。

编辑:

现在尝试添加 CHROM:

awk '
NR == FNR       {RGMIN[++IX] = $2 - 500000                        
                 RGMAX[IX]   = $2 + 500000  
                 CHROM[IX] = $2              
                 next
                }
FNR == 1        {print                                         
                 next
                }
                {PR = 1                                         
                 for (i=2; i<=IX; i++) if ($2 == CHROM[i]) PR = PR * ($2 < RGMIN[i] || $2 > RGMAX[i])                                              
                }
PR          
' file2 file1 > newfile.txt               
linux awk
  • 2 2 个回答
  • 299 Views

2 个回答

  • Voted
  1. Best Answer
    RudiC
    2020-02-08T16:35:07+08:002020-02-08T16:35:07+08:00

    正如评论中提出的:

    awk '
    NR == FNR       {RGMIN[++IX] = $3 - 5000                        
                     RGMAX[IX]   = $3 + 5000  
                     CHROM[IX]   = $2              
                     next
                    }
    FNR == 1        {print                                         
                     next
                    }
                    {PR = 1                                         
                     for (i=2; i<=IX; i++) if ($2 == CHROM[i]) PR = PR * ($3 < RGMIN[i] || $3 > RGMAX[i])                                              
                    }
    PR          
    ' file2 file1 
    Variant   Chromsome   Chromosome Position  
    Variant1      2             14000     
    Variant3      8             37000          
    
    • 2
  2. bu5hman
    2020-02-09T02:36:57+08:002020-02-09T02:36:57+08:00

    根据 file2 相对于 file1 的重量,您还可以映射 file2,然后测试 file1 中的位置是否尚未映射.....

     awk 'FNR==NR{for (i=$3-5000; i<=$3+5000; i++){v[$2"."i]=1}}
          FNR!=NR{if (! v[$2"."$3]) print $0}
          ' file2 file1 
    

    这个数据集比@RudiC 慢,但如果 file2 中有大量的多个重叠范围,它可能会变得更有价值。

    • 1

相关问题

  • 需要一些系统调用

  • 重新排列字母并比较两个单词

  • 多行文件洗牌

  • astyle 不会更改源文件格式

  • 通过标签将根文件系统传递给linux内核

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    模块 i915 可能缺少固件 /lib/firmware/i915/*

    • 3 个回答
  • Marko Smith

    无法获取 jessie backports 存储库

    • 4 个回答
  • Marko Smith

    如何将 GPG 私钥和公钥导出到文件

    • 4 个回答
  • Marko Smith

    我们如何运行存储在变量中的命令?

    • 5 个回答
  • Marko Smith

    如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域?

    • 3 个回答
  • Marko Smith

    dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

    • 2 个回答
  • Marko Smith

    如何从 systemctl 服务日志中查看最新的 x 行

    • 5 个回答
  • Marko Smith

    Nano - 跳转到文件末尾

    • 8 个回答
  • Marko Smith

    grub 错误:你需要先加载内核

    • 4 个回答
  • Marko Smith

    如何下载软件包而不是使用 apt-get 命令安装它?

    • 7 个回答
  • Martin Hope
    user12345 无法获取 jessie backports 存储库 2019-03-27 04:39:28 +0800 CST
  • Martin Hope
    Carl 为什么大多数 systemd 示例都包含 WantedBy=multi-user.target? 2019-03-15 11:49:25 +0800 CST
  • Martin Hope
    rocky 如何将 GPG 私钥和公钥导出到文件 2018-11-16 05:36:15 +0800 CST
  • Martin Hope
    Evan Carroll systemctl 状态显示:“状态:降级” 2018-06-03 18:48:17 +0800 CST
  • Martin Hope
    Tim 我们如何运行存储在变量中的命令? 2018-05-21 04:46:29 +0800 CST
  • Martin Hope
    Ankur S 为什么 /dev/null 是一个文件?为什么它的功能不作为一个简单的程序来实现? 2018-04-17 07:28:04 +0800 CST
  • Martin Hope
    user3191334 如何从 systemctl 服务日志中查看最新的 x 行 2018-02-07 00:14:16 +0800 CST
  • Martin Hope
    Marko Pacak Nano - 跳转到文件末尾 2018-02-01 01:53:03 +0800 CST
  • Martin Hope
    Kidburla 为什么真假这么大? 2018-01-26 12:14:47 +0800 CST
  • Martin Hope
    Christos Baziotis 在一个巨大的(70GB)、一行、文本文件中替换字符串 2017-12-30 06:58:33 +0800 CST

热门标签

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve