根据第一个逗号之前的匹配删除重复行数

Question

nat

Asked: 2018-01-15 09:37:22 +0800 CST2018-01-15 09:37:22 +0800 CST 2018-01-15 09:37:22 +0800 CST

匹配 CSV 文件中的可逆对

772

我有一个 .csv 文件，如下所示：

A,B,1999
C,D,1990
B,A,1989
D,A,1990
A,B,1999
...

我想重新排列它大致如下所示：

A,B,1989,0,B,A,1
A,B,1999,2,B,A,0
C,D,1990,1,D,C,0
D,A,1990,1,A,D,0

换句话说，我想知道A,B第三列中记录的每个值的对出现的次数，B,A以及相同值出现的次数。

我大部分时间都在努力将说的行与说的行A,B匹配B,A。

非常感谢您对此的任何帮助。

2 个回答

Voted

RomanPerekhrest · Answer 1 · 2018-01-15T11:15:05+08:00

Best Answer

RomanPerekhrest

2018-01-15T11:15:05+08:002018-01-15T11:15:05+08:00

GNUawk解决方案：

awk -F',' '{ k=$1 FS $2 }{ a[k][$3]++; rev[k]=$2 FS $1 }
           END{ 
               for(i in a) 
                   for(j in a[i]) { 
                       print i, j, a[i][j], rev[i], a[rev[i]][j]+0; 
                       delete a[rev[i]][j] 
                   }
           }' OFS=',' file

输出：

C,D,1990,1,D,C,0
A,B,1999,2,B,A,0
D,A,1990,1,A,D,0
B,A,1989,1,A,B,0

1

user147505 · Answer 2 · 2018-01-16T01:21:05+08:00

Perl 中的这个似乎正在工作。

perl -F, -alne '
    next if /^\s*$/;
    $hs{$F[2]}{"$F[0],$F[1]"}++;
    END{
        while (my ($nr, $lhs) = each %hs) {
            while (my ($lts, $cnt) = each %{$lhs}) {
                my $rvs = scalar reverse $lts;
                my $rvsn = $hs{$nr}{$rvs} // 0;
                print "$lts,$nr,$cnt,$rvs,$rvsn";
                delete $hs{$nr}{$rvs};
            }
        }
    }
' data

逐行解释：

, 使用f或分隔符运行 Perl ，将字段读入一个数组，处理行尾，为每一行运行，然后执行：
```
perl -F, -alne '
```
跳过输入中的空行：
```
next if /^\s*$/;
```
增加每条记录的哈希计数器：
```
$hs{$F[2]}{"$F[0],$F[1]"}++;
```
开始最后一个块：
```
END{
```

读取哈希：

while (my ($nr, $lhs) = each %hs) {
    while (my ($lts, $cnt) = each %{$lhs}) {

准备打印数据：

my $rvs = scalar reverse $lts;
my $rvsn = $hs{$nr}{$rvs} // 0;
print "$lts,$nr,$cnt,$rvs,$rvsn";

摆脱哈希中的双条目：
```
delete $hs{$nr}{$rvs};
```
data是输入文件。

因此，对于这个输入数据：

A,B,1999
C,D,1990
B,A,1989
D,A,1990
A,B,1999
B,A,1999

你应该得到这个输出：

D,A,1990,1,A,D,0
C,D,1990,1,D,C,0
B,A,1989,1,A,B,0
A,B,1999,2,B,A,1

匹配 CSV 文件中的可逆对

如何将 GPG 私钥和公钥导出到文件

ssh 无法协商：“找不到匹配的密码”，正在拒绝 cbc

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

如何卸载内核模块“nvidia-drm”？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

匹配 CSV 文件中的可逆对

2 个回答

相关问题