在 Linux 中从磁盘映像文件中提取输出值作为字符串[关闭]

Question

user14714429

Asked: 2023-08-24 19:38:11 +0800 CST2023-08-24 19:38:11 +0800 CST 2023-08-24 19:38:11 +0800 CST

计算与文件第一列相对应的第二列中的字符串出现次数[关闭]

772

我有这个输入文本文件：

CD196_RS15035       normal alleles
CD196_RS15035       normal alleles
CD196_RS15035       truncation in the allele
CD196_RS15035       truncation in the allele
CD196_RS15035       no stop for allele
CD196_RS15035       no stop for allele
CD196_RS16835       normal alleles
CD196_RS16835       truncation in the allele
CD196_RS16835       no stop for allele
CD196_RS16835       no stop for allele

我想计算每个字符串在与第一列相对应的第二列中出现的次数。

我想要这样的输出文本文件：

CD196_RS15035  normal alleles  2    truncation in the allele   2    no stop for allele  2
 
CD196_RS16835  normal alleles  1    truncation in the allele   1    no stop for allele  2

任何提示都会有帮助。谢谢。

3 个回答

Voted

RomanPerekhrest · Answer 1 · 2023-08-24T20:07:22+08:00

Best Answer

RomanPerekhrest

2023-08-24T20:07:22+08:002023-08-24T20:07:22+08:00

Withawk的多维数组：

awk -F'[ ]{2,}'
  '{ a[$1][$2]+=1 }
   END{ 
       for (i in a) { 
           printf("%s ", i);
           for (j in a[i]) printf("%s %d ", j, a[i][j]); 
           print "";  
       }
   }'
  test.txt

CD196_RS15035 normal alleles 2 no stop for allele 2 truncation in the allele 2 
CD196_RS16835 normal alleles 1 no stop for allele 2 truncation in the allele 1

1

jared_mamrot · Answer 2 · 2023-08-24T20:19:26+08:00

jared_mamrot

2023-08-24T20:19:26+08:002023-08-24T20:19:26+08:00

一个潜在的选择可能是通过循环变量来“构建”每一行，例如

awk 'BEGIN {
    FS = OFS = "\t"
}

{
    a[$1 FS $2]++
    b[$1]
    c[$2]
}

END {
    for (i in b) {
        output = i
        for (j in c) {
            output = output FS j FS a[i FS j]
        }
        print output
    }
}' file.txt
CD196_RS15035   normal alleles  2   no stop for allele  2   truncation in the allele    2
CD196_RS16835   normal alleles  1   no stop for allele  2   truncation in the allele    1

1

Thor · Answer 3 · 2023-08-24T20:44:48+08:00

Thor

2023-08-24T20:44:48+08:002023-08-24T20:44:48+08:00

假设列是制表符分隔的，您可以使用datamash：

datamash groupby 1,2 count 2  |

# Join 2nd column and its count
sed 's/\t/ /2'                |

# Collapse on the 1st column
datamash groupby 1 collapse 2

输出：

CD196_RS15035   normal alleles 2,truncation in the allele 2,no stop for allele 2
CD196_RS16835   normal alleles 1,truncation in the allele 1,no stop for allele 2

1

计算与文件第一列相对应的第二列中的字符串出现次数[关闭]

使用 <font color="#xxx"> 突出显示 html 中的代码

为什么在传递 {} 时重载解析更喜欢 std::nullptr_t 而不是类？

您可以使用花括号初始化列表作为（默认）模板参数吗？

为什么列表推导式在内部创建一个函数？

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

java.lang.NoSuchMethodError: 'void org.openqa.selenium.remote.http.ClientConfig.<init>(java.net.URI, java.time.Duration, java.time.Duratio

为什么 'char -> int' 是提升，而 'char -> Short' 是转换（但不是提升）？

为什么库中不调用全局变量的构造函数？

std::common_reference_with 在元组上的行为不一致。哪个是对的？

C++17 中 std::byte 只能按位运算？

计算与文件第一列相对应的第二列中的字符串出现次数[关闭]

3 个回答

相关问题