remova o número de linhas duplicadas com base na correspondência antes da primeira vírgula

Question

nat

Asked: 2018-01-15 09:37:22 +0800 CST2018-01-15 09:37:22 +0800 CST 2018-01-15 09:37:22 +0800 CST

Correspondência de pares reversíveis em um arquivo CSV

772

Eu tenho um arquivo .csv que se parece com isso:

A,B,1999
C,D,1990
B,A,1989
D,A,1990
A,B,1999
...

Eu quero reorganizá-lo para ficar mais ou menos assim:

A,B,1989,0,B,A,1
A,B,1999,2,B,A,0
C,D,1990,1,D,C,0
D,A,1990,1,A,D,0

Ou seja, gostaria de ter o número de vezes que o par A,Bocorre para cada um dos valores registrados na terceira coluna, e também o número de vezes B,Aque ocorre para o mesmo valor.

Estou lutando principalmente para combinar as linhas que dizem A,Bcom as que dizem B,A.

Agradeceria muito qualquer ajuda com isso.

2 respostas

Voted

RomanPerekhrest · Answer 1 · 2018-01-15T11:15:05+08:00

Best Answer

RomanPerekhrest

2018-01-15T11:15:05+08:002018-01-15T11:15:05+08:00

Solução GNU awk:

awk -F',' '{ k=$1 FS $2 }{ a[k][$3]++; rev[k]=$2 FS $1 }
           END{ 
               for(i in a) 
                   for(j in a[i]) { 
                       print i, j, a[i][j], rev[i], a[rev[i]][j]+0; 
                       delete a[rev[i]][j] 
                   }
           }' OFS=',' file

A saída:

C,D,1990,1,D,C,0
A,B,1999,2,B,A,0
D,A,1990,1,A,D,0
B,A,1989,1,A,B,0

1

user147505 · Answer 2 · 2018-01-16T01:21:05+08:00

Este em Perl parece estar funcionando.

perl -F, -alne '
    next if /^\s*$/;
    $hs{$F[2]}{"$F[0],$F[1]"}++;
    END{
        while (my ($nr, $lhs) = each %hs) {
            while (my ($lts, $cnt) = each %{$lhs}) {
                my $rvs = scalar reverse $lts;
                my $rvsn = $hs{$nr}{$rvs} // 0;
                print "$lts,$nr,$cnt,$rvs,$rvsn";
                delete $hs{$nr}{$rvs};
            }
        }
    }
' data

Explicando linha por linha:

Execute Perl com , f ou delimitador, leia os campos em uma matriz , cuide dos finais de linha, execute para cada linha e execute :
```
perl -F, -alne '
```
Pule as linhas em branco na entrada:
```
next if /^\s*$/;
```
Aumente o contador de hash para cada registro:
```
$hs{$F[2]}{"$F[0],$F[1]"}++;
```
Inicie o bloco final:
```
END{
```

Leia o hash:

while (my ($nr, $lhs) = each %hs) {
    while (my ($lts, $cnt) = each %{$lhs}) {

Preparar dados para impressão:

my $rvs = scalar reverse $lts;
my $rvsn = $hs{$nr}{$rvs} // 0;
print "$lts,$nr,$cnt,$rvs,$rvsn";

Livre-se da entrada gêmea no hash:
```
delete $hs{$nr}{$rvs};
```
dataé o arquivo de entrada.

Como resultado, para esses dados de entrada:

A,B,1999
C,D,1990
B,A,1989
D,A,1990
A,B,1999
B,A,1999

você deve obter esta saída:

D,A,1990,1,A,D,0
C,D,1990,1,D,C,0
B,A,1989,1,A,B,0
A,B,1999,2,B,A,1

Correspondência de pares reversíveis em um arquivo CSV

Como exportar uma chave privada GPG e uma chave pública para um arquivo

ssh Não é possível negociar: "nenhuma cifra correspondente encontrada", está rejeitando o cbc

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

Como descarregar o módulo do kernel 'nvidia-drm'?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

Correspondência de pares reversíveis em um arquivo CSV

2 respostas

relate perguntas