AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / unix / 问题 / 699630
Accepted
austin7923
austin7923
Asked: 2022-04-20 17:02:38 +0800 CST2022-04-20 17:02:38 +0800 CST 2022-04-20 17:02:38 +0800 CST

具有定义范围的组 ID

  • 772

我有一个排序的 ID 和数字(位置)文件。我需要将第二列中的位置分组为一组 500 的间隔。

如果该行的值与上一行相比小于500,则将它们分组到同一组中;而如果该行的值超过 500,则将它们分组到不同的组中。

输入文件:

snp00001    200
snp00002    300
snp00003    400
snp00004    500
snp00005    600
snp00006    900
snp00007    1500
snp00008    1800
snp00009    3000
snp00010    3500
snp00011    4000
snp00012    5000

期望的输出

snp00001 200 Group1
snp00002 300 Group1
snp00003 400 Group1
snp00004 500 Group1
snp00005 600 Group1
snp00006 900 Group1
snp00007 1500 Group2
snp00008 1800 Group2
snp00009 3000 Group3
snp00010 3500 Group3
snp00011 4000 Group4
snp00012 5000 Group5

额外说明:snp00001 到 snp00006 将被归入同一组,因为它们之间的范围 (snp00002 - snp00001) 或 (snp00003 - snp00002) 或 (snp00004 - snp00003) ... 小于 500。

snp00006 和 snp00007 被分到下一组,因为它们之间的范围(snp00007 - snp00006)超过 500。

我试过用awk,但没有成功。

awk -v step=500 -v OFS='\t' '{if(NR==1 || $2+limit){group++} file="Group"group; print file,$0}' input_file
text-processing bioinformatics
  • 2 2 个回答
  • 81 Views

2 个回答

  • Voted
  1. Best Answer
    Stephen Harris
    2022-04-20T17:35:55+08:002022-04-20T17:35:55+08:00

    您需要跟踪以前的值并将当前值与保存的值进行比较。如果差值超过 500,则增加组数。

    例如

    awk -v group=1 '{if ($2-prev>500) { group++ }} {prev=$2; $3="group" group; print}'
    snp00001 200 group1
    snp00002 300 group1
    snp00003 400 group1
    snp00004 500 group1
    snp00005 600 group1
    snp00006 900 group1
    snp00007 1500 group2
    snp00008 1800 group2
    snp00009 3000 group3
    snp00010 3500 group3
    snp00011 4000 group3
    snp00012 5000 group4
    
    

    (FWIW,您的 9/10/11 输出不一致;9->10 是 500 但不增加组,但 10->11 也是 500 但确实增加组)。

    • 2
  2. jubilatious1
    2022-06-18T04:04:15+08:002022-06-18T04:04:15+08:00

    使用Raku(以前称为 Perl_6)

    这是一个有些不同的分组方案,可能证明是有用的。它使用 Raku 的~~smartmatch 运算符快速判断一个位置是否在一个范围内(或不在):

    ~$ raku -e 'my $i = 1; my $r = 1..500; for lines() {my $a = .words;  \
                if ($a.[1].Int ~~ $r) {say "$a Group", $i, " ", $r} else {  \
                repeat { $r+=500 } until ($a.[1].Int ~~ $r);  \
                say "$a Group", ++$i, " ", $r };}' file
    

    样本输入:

    snp00001    200
    snp00002    300
    snp00003    400
    snp00004    500
    snp00005    600
    snp00006    900
    snp00007    1500
    snp00008    1800
    snp00009    3000
    snp00010    3500
    snp00011    4000
    snp00012    5000
    

    样本输出(从核苷酸 1 开始,每 500 个核苷酸对 SNP 进行分组):

    snp00001 200 Group1 1..500
    snp00002 300 Group1 1..500
    snp00003 400 Group1 1..500
    snp00004 500 Group1 1..500
    snp00005 600 Group2 501..1000
    snp00006 900 Group2 501..1000
    snp00007 1500 Group3 1001..1500
    snp00008 1800 Group4 1501..2000
    snp00009 3000 Group5 2501..3000
    snp00010 3500 Group6 3001..3500
    snp00011 4000 Group7 3501..4000
    snp00012 5000 Group8 4501..5000
    

    上面的 Raku 代码声明了一个 Group# 迭代器和$i一个. 输入被视为,并且每一行被分成 (whitespace-delimited) 。运行 if/else 条件:第二列smartmatches 在范围、行、Group# 和范围内,取范围并edly 递增,而不是(即)智能匹配成功。然后打印与之前相同的信息,但这次使用正确递增的 Group# ( )。$r1..500lineswordsif~~$rsayelse$rrepeat500until~~++$i

    上述分组方案的优点是生成的组都具有相等的间隔长度,在这种情况下约为 500 个核苷酸。该方案防止组间隔长度的“膨胀”,这可能发生在多个 SNP 在某种程度上位于一起时(间隔“膨胀”可能会产生“聚类”的错误印象)。

    为了使其成为更通用的“分组”工具,您可以将 Range 的右侧抽象为变量 ( $m),以便快速分组:

    ~$ raku -e 'my $i=1; my $m=1000; my $r = 1..$m; for lines() {my $a = .words;   if ($a.[1].Int ~~ $r) {say "$a\tGroup$i\t", $r} else { repeat { $r+=$m } until ($a.[1].Int ~~ $r); say "$a\tGroup{++$i}\t", $r };}' file
    snp00001 200    Group1  1..1000
    snp00002 300    Group1  1..1000
    snp00003 400    Group1  1..1000
    snp00004 500    Group1  1..1000
    snp00005 600    Group1  1..1000
    snp00006 900    Group1  1..1000
    snp00007 1500   Group2  1001..2000
    snp00008 1800   Group2  1001..2000
    snp00009 3000   Group3  2001..3000
    snp00010 3500   Group4  3001..4000
    snp00011 4000   Group4  3001..4000
    snp00012 5000   Group5  4001..5000
    

    https://docs.raku.org/type/Range
    https://raku.org

    • 0

相关问题

  • grep 从 $START 到 $END 的一组行并且在 $MIDDLE 中包含匹配项

  • 重新排列字母并比较两个单词

  • 在awk中的两行之间减去相同的列

  • 多行文件洗牌

  • 如何更改字符大小写(从小到大,反之亦然)?同时[重复]

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    模块 i915 可能缺少固件 /lib/firmware/i915/*

    • 3 个回答
  • Marko Smith

    无法获取 jessie backports 存储库

    • 4 个回答
  • Marko Smith

    如何将 GPG 私钥和公钥导出到文件

    • 4 个回答
  • Marko Smith

    我们如何运行存储在变量中的命令?

    • 5 个回答
  • Marko Smith

    如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域?

    • 3 个回答
  • Marko Smith

    dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

    • 2 个回答
  • Marko Smith

    如何从 systemctl 服务日志中查看最新的 x 行

    • 5 个回答
  • Marko Smith

    Nano - 跳转到文件末尾

    • 8 个回答
  • Marko Smith

    grub 错误:你需要先加载内核

    • 4 个回答
  • Marko Smith

    如何下载软件包而不是使用 apt-get 命令安装它?

    • 7 个回答
  • Martin Hope
    user12345 无法获取 jessie backports 存储库 2019-03-27 04:39:28 +0800 CST
  • Martin Hope
    Carl 为什么大多数 systemd 示例都包含 WantedBy=multi-user.target? 2019-03-15 11:49:25 +0800 CST
  • Martin Hope
    rocky 如何将 GPG 私钥和公钥导出到文件 2018-11-16 05:36:15 +0800 CST
  • Martin Hope
    Evan Carroll systemctl 状态显示:“状态:降级” 2018-06-03 18:48:17 +0800 CST
  • Martin Hope
    Tim 我们如何运行存储在变量中的命令? 2018-05-21 04:46:29 +0800 CST
  • Martin Hope
    Ankur S 为什么 /dev/null 是一个文件?为什么它的功能不作为一个简单的程序来实现? 2018-04-17 07:28:04 +0800 CST
  • Martin Hope
    user3191334 如何从 systemctl 服务日志中查看最新的 x 行 2018-02-07 00:14:16 +0800 CST
  • Martin Hope
    Marko Pacak Nano - 跳转到文件末尾 2018-02-01 01:53:03 +0800 CST
  • Martin Hope
    Kidburla 为什么真假这么大? 2018-01-26 12:14:47 +0800 CST
  • Martin Hope
    Christos Baziotis 在一个巨大的(70GB)、一行、文本文件中替换字符串 2017-12-30 06:58:33 +0800 CST

热门标签

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve