AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / unix / 问题 / 698728
Accepted
austin7923
austin7923
Asked: 2022-04-12 00:11:35 +0800 CST2022-04-12 00:11:35 +0800 CST 2022-04-12 00:11:35 +0800 CST

根据定义的距离将 SNP 分组为基因座

  • 772

我有一个排序的 ID 和数字(位置)文件。我需要将第二列中的位置分组为 500 个间隔,然后拆分为不同的文件。

输入

snp00001    200
snp00002    300
snp00003    400
snp00004    500
snp00005    600
snp00006    900
snp00007    1500
snp00008    1800
snp00009    3000
snp00010    3500
snp00011    4000
snp00012    5000

期望的输出

snp00001    200 Group1
snp00002    300 Group1
snp00003    400 Group1
snp00004    500 Group1
snp00005    600 Group1
snp00006    900 Group2
snp00007    1500    Group3
snp00008    1800    Group3
snp00009    3000    Group4
snp00010    3500    Group4
snp00011    4000    Group5
snp00012    5000    Group6

然后将这些组保存到不同的文件中,分别重命名为Group1、和。Group2Group3Group4

我已经尝试bedtools了一些其他命令,但问题无法解决。

任何帮助将不胜感激。

谢谢!

text-processing bioinformatics
  • 2 2 个回答
  • 90 Views

2 个回答

  • Voted
  1. Best Answer
    terdon
    2022-04-12T01:44:20+08:002022-04-12T01:44:20+08:00

    这是一个完美的工作awk:

    $ awk -v step=500 -v OFS='\t' \
    '{ 
        if(NR==1 || $2>limit){
            limit=$2+step
            group++
        } 
        file="Group"group; print $0,file 
    }' input_file 
    snp00001    200 Group1
    snp00002    300 Group1
    snp00003    400 Group1
    snp00004    500 Group1
    snp00005    600 Group1
    snp00006    900 Group2
    snp00007    1500    Group3
    snp00008    1800    Group3
    snp00009    3000    Group4
    snp00010    3500    Group4
    snp00011    4000    Group5
    snp00012    5000    Group6
    

    要打印到单独的文件中,请执行以下操作:

    awk -v step=500 -v OFS='\t' \
    '{ 
        if(NR==1 || $2>limit){
            limit=$2+step
            group++
        } 
        file="Group"group; print $0,file > file
    }' input_file 
    

    这将Group1通过Group5您的示例数据生成文件,格式如下:

    $ cat Group1 
    snp00001    200 Group1
    snp00002    300 Group1
    snp00003    400 Group1
    snp00004    500 Group1
    snp00005    600 Group1
    
    $ cat Group6
    snp00012    5000    Group6
    
    • 0
  2. guest_7
    2022-04-16T02:26:08+08:002022-04-16T02:26:08+08:00

    使用 Perl + csplit。范围运算符或触发器运算符“...”

    perl \
      -lMconstant='LIM,500' \
      -sane \
    '
      my $e = do{$a=$F[1];1;} ... $F[1]-$a>LIM;
    
      print(qq($_\tGroup$k)),next
        if $e !~ /E0/ || $eof;
    
      print(q());$k++;
    
      redo if !eof || !$eof++;
    
    ' -- -k=1 file |
    csplit --suppress-matched \
      -sz -f 'Group' - '/^$/' '{*}'
    

    • 0

相关问题

  • grep 从 $START 到 $END 的一组行并且在 $MIDDLE 中包含匹配项

  • 重新排列字母并比较两个单词

  • 在awk中的两行之间减去相同的列

  • 多行文件洗牌

  • 如何更改字符大小写(从小到大,反之亦然)?同时[重复]

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    模块 i915 可能缺少固件 /lib/firmware/i915/*

    • 3 个回答
  • Marko Smith

    无法获取 jessie backports 存储库

    • 4 个回答
  • Marko Smith

    如何将 GPG 私钥和公钥导出到文件

    • 4 个回答
  • Marko Smith

    我们如何运行存储在变量中的命令?

    • 5 个回答
  • Marko Smith

    如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域?

    • 3 个回答
  • Marko Smith

    dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

    • 2 个回答
  • Marko Smith

    如何从 systemctl 服务日志中查看最新的 x 行

    • 5 个回答
  • Marko Smith

    Nano - 跳转到文件末尾

    • 8 个回答
  • Marko Smith

    grub 错误:你需要先加载内核

    • 4 个回答
  • Marko Smith

    如何下载软件包而不是使用 apt-get 命令安装它?

    • 7 个回答
  • Martin Hope
    user12345 无法获取 jessie backports 存储库 2019-03-27 04:39:28 +0800 CST
  • Martin Hope
    Carl 为什么大多数 systemd 示例都包含 WantedBy=multi-user.target? 2019-03-15 11:49:25 +0800 CST
  • Martin Hope
    rocky 如何将 GPG 私钥和公钥导出到文件 2018-11-16 05:36:15 +0800 CST
  • Martin Hope
    Evan Carroll systemctl 状态显示:“状态:降级” 2018-06-03 18:48:17 +0800 CST
  • Martin Hope
    Tim 我们如何运行存储在变量中的命令? 2018-05-21 04:46:29 +0800 CST
  • Martin Hope
    Ankur S 为什么 /dev/null 是一个文件?为什么它的功能不作为一个简单的程序来实现? 2018-04-17 07:28:04 +0800 CST
  • Martin Hope
    user3191334 如何从 systemctl 服务日志中查看最新的 x 行 2018-02-07 00:14:16 +0800 CST
  • Martin Hope
    Marko Pacak Nano - 跳转到文件末尾 2018-02-01 01:53:03 +0800 CST
  • Martin Hope
    Kidburla 为什么真假这么大? 2018-01-26 12:14:47 +0800 CST
  • Martin Hope
    Christos Baziotis 在一个巨大的(70GB)、一行、文本文件中替换字符串 2017-12-30 06:58:33 +0800 CST

热门标签

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve