grep 从 $START 到 $END 的一组行并且在 $MIDDLE 中包含匹配项

Question

Alex

Asked: 2018-12-13 12:03:01 +0800 CST2018-12-13 12:03:01 +0800 CST 2018-12-13 12:03:01 +0800 CST

当这些列中存在特定字符时拆分特定列的内容

772

我有这个数据选项卡分隔：

ed00011   89    0.12   NA            NA                      No
ed0002s   28    0.11  c3(3.1e-1)     NA                      No
ed0001    22    0.37   NA            186_CR_NCR8_Ot(1.5e-6)  No
ed0002a   596   0.89  c301(9.5e-2)   17_CY7_Ot(0.03)         Yes

我想根据“（...）”拆分第 4 列和第 5 列。如果不存在，则只有 NA。例如：

ed00011   89   0.12  NA    NA       NA             NA          No
ed0002s   28   0.11  c3   3.1e-1    NA             NA          No
ed0001    22   0.37  NA    NA      186_CR_NCR8_Ot  1.5e-6      No
ed0002a   596  0.89 c301  9.5e-2   17_CY7_Ot       0.03        Yes

我尝试使用此处建议的命令：splitting a column using awk 但是，当我没有“(...)”时，我的列将被弄乱。有什么建议么？

3 个回答

Voted

Jeff Schaller · Answer 1 · 2018-12-13T12:47:41+08:00

Best Answer

Jeff Schaller

2018-12-13T12:47:41+08:002018-12-13T12:47:41+08:00

awk 'BEGIN { OFS="\t"; }
  {
        if (match($4, /\(.*\)/) > 0) {
                $4=substr($4, 1, RSTART - 1)"\t"substr($4, RSTART + 1, RLENGTH - 2)
        } else {
                $4=$4"\tNA"
        }

        if (match($5, /\(.*\)/) > 0) {
                $5=substr($5, 1, RSTART - 1)"\t"substr($5, RSTART + 1, RLENGTH - 2)
        } else {
                $5=$5"\tNA"
        }
        print
  }' input > output

这里的基本结构是在每一行检查字段 4 或字段 5 是否包含一对匹配的括号。如果是这样，则将该字段替换为两个制表符分隔值：括号前的部分和括号内的部分。RSTART 值是左括号所在的位置，而 RLENGTH 值包括右括号，所以这就是您看到一些长度调整的原因。如果这些字段不包含括号，则会附加 TAB 和“NA”。

重新计算列后，将打印新行。

2

Kusalananda · Answer 2 · 2018-12-13T13:06:14+08:00

BEGIN {
    OFS = FS = "\t"
}

{
    # Shift some fields to the right to make space for new fields after
    # field 4 and 5.
    $8 = $6
    $6 = $5

    # Try matching "(...)" in $4
    if (match($4, "[(][^)]+[)]")) {
        # Succeeded, make $5 the bit inside the parenthesis
        $5 = substr($4, RSTART+1, RLENGTH-2)
        # ... and $4 the bit before the parenthesis.
        $4 = substr($4, 1, RSTART-1)
    } else
        $5 = "NA"

    # Repeat for $6
    if (match($6, "[(][^)]+[)]")) {
        $7 = substr($6, RSTART+1, RLENGTH-2)
        $6 = substr($6, 1, RSTART-1)
    } else
        $7 = "NA"

    print
}

测试：

$ awk -f script.awk file
ed00011   89    0.12    NA      NA      NA      NA      No
ed0002s   28    0.11    c3      3.1e-1  NA      NA      No
ed0001    22    0.37    NA      NA      186_CR_NCR8_Ot  1.5e-6  No
ed0002a   596   0.89    c301    9.5e-2  17_CY7_Ot       0.03    Yes

这些字段在输出中以制表符分隔，但看起来有点不稳定。通过时更好column -t，但实际的选项卡丢失了：

$ awk -f script.awk file | column -t
ed00011  89   0.12  NA    NA      NA              NA      No
ed0002s  28   0.11  c3    3.1e-1  NA              NA      No
ed0001   22   0.37  NA    NA      186_CR_NCR8_Ot  1.5e-6  No
ed0002a  596  0.89  c301  9.5e-2  17_CY7_Ot       0.03    Yes

MiniMax · Answer 3 · 2018-12-13T13:17:14+08:00

可靠的方法

gawk '{
    for(i = 4; i < 6; i++) {
        if($i ~ /\(/) {
            split($i, arr, "[()]")
            $i = arr[1] "\t" arr[2]
        } else {
            $i = $i"\tNA"   
        }
    }
    print
}' OFS='\t' input.txt

不可靠，但正在处理您的样品、方法

sed 's/NA/&\tNA/g; s/(/\t/g; s/)//g' input.txt

此命令执行三个简单的步骤：

s/NA/&\tNA/g- 将所有替换为由制表符分隔的NA双倍。NA
s/(/\t/g- 将所有左括号替换为制表符。
s/)//g- 删除所有右括号。

它是不可靠的，因为它做了很多假设：括号只能出现在第 4 和 5 列，NA字符串只能出现在第 4 和 5 列，第 4 和 5 列的数字字符串总是具有c3(3.1e-1)相同的格式。所以，如果他们c3只有一个没有括号的部分，这个sed命令就不会起作用。

但是，如果您的数据与您的样本严格相同，则可以完成这项工作。

输出

ed00011 89  0.12    NA  NA  NA  NA  No
ed0002s 28  0.11    c3  3.1e-1  NA  NA  No
ed0001  22  0.37    NA  NA  186_CR_NCR8_Ot  1.5e-6  No
ed0002a 596 0.89    c301    9.5e-2  17_CY7_Ot   0.03    Yes

当这些列中存在特定字符时拆分特定列的内容

如何将 GPG 私钥和公钥导出到文件

ssh 无法协商：“找不到匹配的密码”，正在拒绝 cbc

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

如何卸载内核模块“nvidia-drm”？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

当这些列中存在特定字符时拆分特定列的内容

3 个回答

相关问题