如何改进这个字符转换脚本？

Question

Age87

Asked: 2019-11-22 12:57:30 +0800 CST2019-11-22 12:57:30 +0800 CST 2019-11-22 12:57:30 +0800 CST

添加两个带字母的字段，在字段 4 和 5 中编码为冒号分隔的数字

772

我想创建一个第 8 和第 9 字段/列，并在第 4 列和第 5 列中将适当的字母编码为数字。六个冒号分隔的数字对应于A:T:C:G:N:del

注意：第 6 列和第 7 列中的某些行是空的，我通过插入 NA 来修复：

awk -F'[[:space:]]' '$5 && !$6{ $6="NA" }1' 
awk -F'[[:space:]]' '$6 && !$7{ $7="NA" }1'

然后再次使用制表符分隔文件sed -e 's/ /\t/g'

文件.tsv

    NW_006532398.1  302035  C   0:0:32:0:0:0    42:0:0:0:0:0    KCND2   intergenic_region
    NW_006532656.1  289636  C   0:0:28:0:0:0    0:28:0:0:0:0    CNTN1   intron_variant
    NW_006532762.1  6396    C   0:54:0:0:0:0    0:0:53:0:0:0    NA  intergenic_region
    NW_006532762.1  25741   C   0:0:62:0:0:0    0:43:0:0:0:0    NA  intergenic_region
    NW_006532762.1  32304   T   0:60:0:0:0:0    0:0:49:0:0:0    NA  intergenic_region
    NW_006532762.1  179065  G   0:0:0:45:0:0    59:0:0:0:0:0    DOCK4   intron_variant

output.tsv 示例

NW_006532398.1  302035  C   0:0:32:0:0:0    42:0:0:0:0:0    KCND2   intergenic_region   C   A
NW_006532656.1  289636  C   0:0:28:0:0:0    0:28:0:0:0:0    CNTN1   intron_variant  C   T
NW_006532762.1  6396    C   0:54:0:0:0:0    0:0:53:0:0:0     NA   intergenic_region T   C
NW_006532762.1  25741   C   0:0:62:0:0:0    0:43:0:0:0:0     NA   intergenic_region C   T
NW_006532762.1  32304   T   0:60:0:0:0:0    0:0:49:0:0:0     NA   intergenic_region T   C 
NW_006532762.1  179065  G   0:0:0:45:0:0    59:0:0:0:0:0    DOCK4   intron_variant  G   A

任何帮助是极大的赞赏！！

3 个回答

Voted

Ed Morton · Answer 1 · 2019-11-22T15:33:18+08:00

Ed Morton

2019-11-22T15:33:18+08:002019-11-22T15:33:18+08:00

$ cat tst.awk
BEGIN {
    FS=OFS="\t"
    split("A:T:C:G:N:del",map,/:/)
}
{ print $0, vals2id($4), vals2id($5) }
function vals2id(vals,  arr, i, id) {
    split(vals,arr,/:/)
    for (i in arr) {
        if (arr[i] != 0) {
            id = map[i]
        }
    }
    return id
}

$ awk -f tst.awk file
NW_006532398.1  302035  C       0:0:32:0:0:0    42:0:0:0:0:0    KCND2   intergenic_region       C       A
NW_006532656.1  289636  C       0:0:28:0:0:0    0:28:0:0:0:0    CNTN1   intron_variant  C       T
NW_006532762.1  6396    C       0:54:0:0:0:0    0:0:53:0:0:0    NA      intergenic_region       T       C
NW_006532762.1  25741   C       0:0:62:0:0:0    0:43:0:0:0:0    NA      intergenic_region       C       T
NW_006532762.1  32304   T       0:60:0:0:0:0    0:0:49:0:0:0    NA      intergenic_region       T       C
NW_006532762.1  179065  G       0:0:0:45:0:0    59:0:0:0:0:0    DOCK4   intron_variant  G       A

2

seshoumara · Answer 2 · 2019-11-22T16:07:26+08:00

seshoumara

2019-11-22T16:07:26+08:002019-11-22T16:07:26+08:00

我相信下面的 sed 脚本会做你想做的事情：

s/\t[1-9][0-9]*:0:0:0:0:[^\t]*\t/&A\t/g
s/\t0:[1-9][0-9]*:0:0:0:[^\t]*\t/&T\t/g
s/\t0:0:[1-9][0-9]*:0:0:[^\t]*\t/&C\t/g
s/\t0:0:0:[1-9][0-9]*:0:[^\t]*\t/&G\t/g
s/\t0:0:0:0:[1-9][0-9]*:[^\t]*\t/&N\t/g
s/\t0:0:0:0:0:[1-9][0-9]*\t/&del\t/g
s/^\t(([^\t]*\t){4})([^\t]*)\t([^\t]*)(\t[^\t]*)(\t.*)/\1\4\6\t\3\5/

运行：

sed -rf script.sed file.tsv > output.tsv

2

Rakesh Sharma · Answer 3 · 2019-11-23T00:26:20+08:00

我们可以使用 Perl 和 sed 实用程序执行以下操作：

perl -F'\t' -pale '$"="\t";
   /(?:^|:)(?=[1-9])/g, push(@F, qw[A T C G N del][+pos>>1]) for @F[3,4];
   $_="@F";
' file.tsv

NW_006532398.1 302035   C  0:0:32:0:0:0   42:0:0:0:0:0   KCND2 intergenic_region C  A
NW_006532398.1 302035   C  0:0:0:0:0:2 42:0:0:0:0:0   KCND2 intergenic_region del   A
NW_006532656.1 289636   C  0:0:28:0:0:0   0:28:0:0:0:0   CNTN1 intron_variant C  T
NW_006532762.1 6396  C  0:54:0:0:0:0   0:0:53:0:0:0   NA intergenic_region T  C
NW_006532762.1 25741 C  0:0:62:0:0:0   0:43:0:0:0:0   NA intergenic_region C  T
NW_006532762.1 32304 T  0:60:0:0:0:0   0:0:49:0:0:0   NA intergenic_region T  C
NW_006532762.1 179065   G  0:0:0:45:0:0   59:0:0:0:0:0   DOCK4 intron_variant G  A

sed -re '
   1{x;s/.*/A:T:C:G:N:del/;x;}
   s/\t/&\n/3;G;ba
   :b;s/\t/&\n/4;G
   :a;s/\n0:(.*)\n[^:]+:/0:\n\1\n/;ta
   s/\n//;s/\n([^:]+)/\t\1\n/;s/\n.*//;s/^//;tc
   :c;s/\t/&/8;t;bb
' file.tsv

说明：

在当前记录的第四个$F[3]和第五个字段（又名，行）我们$F[4]$_

确定第一个非零数字的位置（在该字段内）。凭借事实

0:占用 2 个位置，我们将找到的位置减半以获取该字段的匿名数组索引qw[A T C G N del]。
现在只需将找到的 A/T/C/G/N 或 del 添加到 array 即可@F。
@F然后我们使用(tab)推断数组$"，然后打印它。

假设：

没有前导 TAB，这会破坏@F数组中字段的计数。
第四个和第五个字段被假定为one-hot，这意味着，总是有一个非零数字肯定存在。
第四个和第五个字段没有任何以 0 开头的非零数字。
第四个和第五个字段没有全为 00 的零。
第四个和第五个字段正好有六个数字，由单个冒号分隔，没有尾随/前导冒号。

添加两个带字母的字段，在字段 4 和 5 中编码为冒号分隔的数字

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

添加两个带字母的字段，在字段 4 和 5 中编码为冒号分隔的数字

3 个回答

相关问题