AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / unix / 问题 / 553456
Accepted
Age87
Age87
Asked: 2019-11-22 12:57:30 +0800 CST2019-11-22 12:57:30 +0800 CST 2019-11-22 12:57:30 +0800 CST

添加两个带字母的字段,在字段 4 和 5 中编码为冒号分隔的数字

  • 772

我想创建一个第 8 和第 9 字段/列,并在第 4 列和第 5 列中将适当的字母编码为数字。六个冒号分隔的数字对应于A:T:C:G:N:del

注意:第 6 列和第 7 列中的某些行是空的,我通过插入 NA 来修复:

awk -F'[[:space:]]' '$5 && !$6{ $6="NA" }1' 
awk -F'[[:space:]]' '$6 && !$7{ $7="NA" }1'

然后再次使用制表符分隔文件sed -e 's/ /\t/g'

文件.tsv

    NW_006532398.1  302035  C   0:0:32:0:0:0    42:0:0:0:0:0    KCND2   intergenic_region
    NW_006532656.1  289636  C   0:0:28:0:0:0    0:28:0:0:0:0    CNTN1   intron_variant
    NW_006532762.1  6396    C   0:54:0:0:0:0    0:0:53:0:0:0    NA  intergenic_region
    NW_006532762.1  25741   C   0:0:62:0:0:0    0:43:0:0:0:0    NA  intergenic_region
    NW_006532762.1  32304   T   0:60:0:0:0:0    0:0:49:0:0:0    NA  intergenic_region
    NW_006532762.1  179065  G   0:0:0:45:0:0    59:0:0:0:0:0    DOCK4   intron_variant

output.tsv 示例

NW_006532398.1  302035  C   0:0:32:0:0:0    42:0:0:0:0:0    KCND2   intergenic_region   C   A
NW_006532656.1  289636  C   0:0:28:0:0:0    0:28:0:0:0:0    CNTN1   intron_variant  C   T
NW_006532762.1  6396    C   0:54:0:0:0:0    0:0:53:0:0:0     NA   intergenic_region T   C
NW_006532762.1  25741   C   0:0:62:0:0:0    0:43:0:0:0:0     NA   intergenic_region C   T
NW_006532762.1  32304   T   0:60:0:0:0:0    0:0:49:0:0:0     NA   intergenic_region T   C 
NW_006532762.1  179065  G   0:0:0:45:0:0    59:0:0:0:0:0    DOCK4   intron_variant  G   A

任何帮助是极大的赞赏!!

awk sed
  • 3 3 个回答
  • 106 Views

3 个回答

  • Voted
  1. Ed Morton
    2019-11-22T15:33:18+08:002019-11-22T15:33:18+08:00
    $ cat tst.awk
    BEGIN {
        FS=OFS="\t"
        split("A:T:C:G:N:del",map,/:/)
    }
    { print $0, vals2id($4), vals2id($5) }
    function vals2id(vals,  arr, i, id) {
        split(vals,arr,/:/)
        for (i in arr) {
            if (arr[i] != 0) {
                id = map[i]
            }
        }
        return id
    }
    
    $ awk -f tst.awk file
    NW_006532398.1  302035  C       0:0:32:0:0:0    42:0:0:0:0:0    KCND2   intergenic_region       C       A
    NW_006532656.1  289636  C       0:0:28:0:0:0    0:28:0:0:0:0    CNTN1   intron_variant  C       T
    NW_006532762.1  6396    C       0:54:0:0:0:0    0:0:53:0:0:0    NA      intergenic_region       T       C
    NW_006532762.1  25741   C       0:0:62:0:0:0    0:43:0:0:0:0    NA      intergenic_region       C       T
    NW_006532762.1  32304   T       0:60:0:0:0:0    0:0:49:0:0:0    NA      intergenic_region       T       C
    NW_006532762.1  179065  G       0:0:0:45:0:0    59:0:0:0:0:0    DOCK4   intron_variant  G       A
    
    • 2
  2. seshoumara
    2019-11-22T16:07:26+08:002019-11-22T16:07:26+08:00

    我相信下面的 sed 脚本会做你想做的事情:

    s/\t[1-9][0-9]*:0:0:0:0:[^\t]*\t/&A\t/g
    s/\t0:[1-9][0-9]*:0:0:0:[^\t]*\t/&T\t/g
    s/\t0:0:[1-9][0-9]*:0:0:[^\t]*\t/&C\t/g
    s/\t0:0:0:[1-9][0-9]*:0:[^\t]*\t/&G\t/g
    s/\t0:0:0:0:[1-9][0-9]*:[^\t]*\t/&N\t/g
    s/\t0:0:0:0:0:[1-9][0-9]*\t/&del\t/g
    s/^\t(([^\t]*\t){4})([^\t]*)\t([^\t]*)(\t[^\t]*)(\t.*)/\1\4\6\t\3\5/
    

    运行:

    sed -rf script.sed file.tsv > output.tsv
    
    • 2
  3. Best Answer
    Rakesh Sharma
    2019-11-23T00:26:20+08:002019-11-23T00:26:20+08:00

    我们可以使用 Perl 和 sed 实用程序执行以下操作:

    perl -F'\t' -pale '$"="\t";
       /(?:^|:)(?=[1-9])/g, push(@F, qw[A T C G N del][+pos>>1]) for @F[3,4];
       $_="@F";
    ' file.tsv
    
    NW_006532398.1 302035   C  0:0:32:0:0:0   42:0:0:0:0:0   KCND2 intergenic_region C  A
    NW_006532398.1 302035   C  0:0:0:0:0:2 42:0:0:0:0:0   KCND2 intergenic_region del   A
    NW_006532656.1 289636   C  0:0:28:0:0:0   0:28:0:0:0:0   CNTN1 intron_variant C  T
    NW_006532762.1 6396  C  0:54:0:0:0:0   0:0:53:0:0:0   NA intergenic_region T  C
    NW_006532762.1 25741 C  0:0:62:0:0:0   0:43:0:0:0:0   NA intergenic_region C  T
    NW_006532762.1 32304 T  0:60:0:0:0:0   0:0:49:0:0:0   NA intergenic_region T  C
    NW_006532762.1 179065   G  0:0:0:45:0:0   59:0:0:0:0:0   DOCK4 intron_variant G  A
    
    sed -re '
       1{x;s/.*/A:T:C:G:N:del/;x;}
       s/\t/&\n/3;G;ba
       :b;s/\t/&\n/4;G
       :a;s/\n0:(.*)\n[^:]+:/0:\n\1\n/;ta
       s/\n//;s/\n([^:]+)/\t\1\n/;s/\n.*//;s/^//;tc
       :c;s/\t/&/8;t;bb
    ' file.tsv
    

    说明:

    • 在当前记录的第四个$F[3]和第五个字段(又名,行)我们$F[4]$_

      确定第一个非零数字的位置(在该字段内)。凭借事实

      0:占用 2 个位置,我们将找到的位置减半以获取该字段的匿名数组索引qw[A T C G N del]。

    • 现在只需将找到的 A/T/C/G/N 或 del 添加到 array 即可@F。

    • @F然后我们使用(tab)推断数组$",然后打印它。

    假设:

    1. 没有前导 TAB,这会破坏@F数组中字段的计数。
    2. 第四个和第五个字段被假定为one-hot,这意味着,总是有一个非零数字肯定存在。
    3. 第四个和第五个字段没有任何以 0 开头的非零数字。
    4. 第四个和第五个字段没有全为 00 的零。
    5. 第四个和第五个字段正好有六个数字,由单个冒号分隔,没有尾随/前导冒号。
    • 1

相关问题

  • 如何改进这个字符转换脚本?

  • 如何删除两行之间的单行

  • 重新排列字母并比较两个单词

  • 多行文件洗牌

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    模块 i915 可能缺少固件 /lib/firmware/i915/*

    • 3 个回答
  • Marko Smith

    无法获取 jessie backports 存储库

    • 4 个回答
  • Marko Smith

    如何将 GPG 私钥和公钥导出到文件

    • 4 个回答
  • Marko Smith

    我们如何运行存储在变量中的命令?

    • 5 个回答
  • Marko Smith

    如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域?

    • 3 个回答
  • Marko Smith

    dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

    • 2 个回答
  • Marko Smith

    如何从 systemctl 服务日志中查看最新的 x 行

    • 5 个回答
  • Marko Smith

    Nano - 跳转到文件末尾

    • 8 个回答
  • Marko Smith

    grub 错误:你需要先加载内核

    • 4 个回答
  • Marko Smith

    如何下载软件包而不是使用 apt-get 命令安装它?

    • 7 个回答
  • Martin Hope
    user12345 无法获取 jessie backports 存储库 2019-03-27 04:39:28 +0800 CST
  • Martin Hope
    Carl 为什么大多数 systemd 示例都包含 WantedBy=multi-user.target? 2019-03-15 11:49:25 +0800 CST
  • Martin Hope
    rocky 如何将 GPG 私钥和公钥导出到文件 2018-11-16 05:36:15 +0800 CST
  • Martin Hope
    Evan Carroll systemctl 状态显示:“状态:降级” 2018-06-03 18:48:17 +0800 CST
  • Martin Hope
    Tim 我们如何运行存储在变量中的命令? 2018-05-21 04:46:29 +0800 CST
  • Martin Hope
    Ankur S 为什么 /dev/null 是一个文件?为什么它的功能不作为一个简单的程序来实现? 2018-04-17 07:28:04 +0800 CST
  • Martin Hope
    user3191334 如何从 systemctl 服务日志中查看最新的 x 行 2018-02-07 00:14:16 +0800 CST
  • Martin Hope
    Marko Pacak Nano - 跳转到文件末尾 2018-02-01 01:53:03 +0800 CST
  • Martin Hope
    Kidburla 为什么真假这么大? 2018-01-26 12:14:47 +0800 CST
  • Martin Hope
    Christos Baziotis 在一个巨大的(70GB)、一行、文本文件中替换字符串 2017-12-30 06:58:33 +0800 CST

热门标签

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve