sh脚本以多种语言运行多个文件

Question

Anna1364

Asked: 2017-12-09 11:05:49 +0800 CST2017-12-09 11:05:49 +0800 CST 2017-12-09 11:05:49 +0800 CST

如果总和小于特定值，则计算每 2 行的总和并用另一个值替换它们

772

我有一个基因型矩阵（带有表格空间），有 200 万行和 12 列。列是个体，行是 SNP。我每个人的每个 SNP 有 2 行，一个是参考等位基因的数量，另一个是替代等位基因的数量（每 2 行对应一个 SNP，这意味着第 1 行和第 2 行对应于 SNP 1，第 3 和第 4 行对应于SNP2，第 5 行和第 6 行对应于 SNP 3)。

这是一个示例，（2 个 SNP 和 8 个个体）：

head genotype
2   3   1   0   0   3   5   3       
18  15  19  18  16  15  13  17      
2   1   0   0   0   1   1   1           
18  19  18  16  20  17  17  23

对于每个 SNP，如果参考和替代等位基因的总和小于 20，我想用 0 替换两个等位基因，如果它们等于或大于 20，我想保留它们。这是我想要的输出

head (desired_output)
    2   0   1   0   0   0   0   3       
    18  0   19  0   0   0   0   17      
    2   1   0   0   0   0   0   1           
    18  19  0   0   20  0   0   23

知道如何准确地做到这一点吗？

1 个回答

Voted

glenn jackman · Answer 1 · 2017-12-09T11:31:42+08:00

Best Answer

glenn jackman

2017-12-09T11:31:42+08:002017-12-09T11:31:42+08:00

这个想法是将连续的行保存在 2 个数组中，然后通过相应的索引比较数组元素。

将此保存到文件中，例如“twenty.awk”

#/usr/bin/env awk

# ref https://www.gnu.org/software/gawk/manual/html_node/Join-Function.html
function join(array, start, end, sep,    result, i)
{
    if (sep == "")
        sep = " "
    else if (sep == SUBSEP) # magic value
        sep = ""
    result = array[start]
    for (i = start + 1; i <= end; i++)
        result = result sep array[i]
    return result
}

{
    split($0, a)
    getline

    for (i=1; i<=NF; i++)
        if (a[i] + $i < 20)
            a[i] = $i = 0

    print join(a, 1, NF)
    print
}

然后运行

awk -f twenty.awk data.file | column -t > data.file.twenty

1

如果总和小于特定值，则计算每 2 行的总和并用另一个值替换它们

JSON数组使用jq来bash变量

日期可以为 GMT 时区格式化当前时间吗？[复制]

bash + 通过 bash 脚本从文件中读取变量和值

如何复制目录并在同一命令中重命名它？

ssh 连接。X11 连接因身份验证错误而被拒绝

如何下载软件包而不是使用 apt-get 命令安装它？

systemctl 命令在 RHEL 6 中不起作用

rsync 端口 22 和 873 使用

以 100% 的利用率捕捉 /dev/loop -- 没有可用空间

jq 打印子对象中所有的键和值

如果总和小于特定值，则计算每 2 行的总和并用另一个值替换它们

1 个回答

相关问题