重新排列字母并比较两个单词

Question

Giles

Asked: 2019-07-19 05:11:33 +0800 CST2019-07-19 05:11:33 +0800 CST 2019-07-19 05:11:33 +0800 CST

基于列内字符串匹配数的列删除

772

我需要一个命令来删除文本文件中的任何列，如果它们在列中具有 =>${MaxAllowedNumberOfFs} 'F's（行数不同的列）。

我有一些接近的伪代码，但我不知道如何设置匹配数限制器。

假设限制器设置为 3，示例输入文件为：

F G F H H
G F F F A
F G F F F
F F F T F

那么所需的输出将是：

G H H
F F A
G F F
F T F

接近的伪代码（限制器可以并且将根据文件而改变）：

MaxAllowedNumberOfFs="1012"

Count_of_columns=`awk '{print NF}' filename | sort -nr | sed -n '$p'` 

for((i=1;i<=$Count_of_columns;i++)); do awk -v i="$i" -v x="$MaxAllowedNumberOfFs" '$i == F =>x number of times {$i="";print $0}' filename; done

显然，我可以使用 grep 遍历所有列，计算列中出现的次数，然后删除不符合条件的列。但这真的很慢。真的想要一个漂亮的 awk 命令，但我没有 awk 技能

3 个回答

Voted

icarus · Answer 1 · 2019-07-19T07:13:35+08:00

一种方法是读取文件两次。第一次计算 F，第二次输出线。所以像

#!/bin/sh

awk -v n=3 '
        NR==FNR { for (i=1;i<=NF;i++) { if ($i == "F") { c[i]++ }} ;next }                                                                            
        { for (i=1;i<=NF;i++) { if (c[i] < n) { printf("%s ", $i) } } ;printf("\n") }                                                                 

' filename filename

这NR==FNR是查看这是我们第一次还是第二次读取文件的技巧。假设文件中有任何行，那么只有在第一次读取文件时才成立。该数组c是该列中 F 个字符的计数。next表示第一次读取文件时该行的所有处理都已完成。第二行在第二次读取文件时执行。

steeldriver · Answer 2 · 2019-07-19T05:33:19+08:00

这是转置 - 线路滤波器 - 转置方法的说明。它可能不适合您的（大文件）案例，但可能对其他人有价值：

$ cat file
F G F H H
G F F F A
F G F F F
F F F T F

然后

$ rs -T < file | perl -alne 'print unless (grep { $_ eq "F" } @F) > 3' | rs -T
F  G  H  H
G  F  F  A
F  G  F  F
F  F  T  F

Praveen Kumar BS · Answer 3 · 2019-07-22T10:26:17+08:00

尝试使用下面的脚本，它工作正常

for ((i=1;i<=5;i++)); do c=`awk -v i="$i" '{print $i}' o.txt|awk '$1=="F" {print $0}'| sed -n '/F/{;=;p}'| sed "N;s/\n/ /g"| sort -k1 -rn|sed -n '1p'| awk '{print $1}'`; if [[ $c -lt 3 ]]; then awk -v i="$i" '{print $i}' o.txt >file_$i; fi; done

paste  file_*

输出

G H H
F F A
G F F
F T F

基于列内字符串匹配数的列删除

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

基于列内字符串匹配数的列删除

3 个回答

相关问题