remova o número de linhas duplicadas com base na correspondência antes da primeira vírgula

Question

GypsyCosmonaut

Asked: 2022-05-28 03:17:06 +0800 CST2022-05-28 03:17:06 +0800 CST 2022-05-28 03:17:06 +0800 CST

O AWK divide o CSV de entrada em vários arquivos de saída com base no conteúdo de 1 coluna

772

Um arquivo data.csvtem os seguintes dados

1,avocado,mexican green fruit
1,kiwi,green fruit
1,banana,yellow fruit
1,mango,yellow fruit

Para organizar os dados em categorias de frutas, fiz

awk -F ',' '{print >> ($3 ".csv")}' data.csv

que cria 3 arquivos, mexican green fruit.csv, green fruit.csv,yellow fruit.csv

Eu quero que os espaços nos nomes desses arquivos sejam substituídos por sublinhados_

Assim, os nomes dos arquivos devem ser mexican_green_fruit.csv, green_fruit.csv,yellow_fruit.csv

Precisa de ajuda neste awkforro para fazer isso

Procurando por uma awkúnica resposta

3 respostas

Voted

Ed Morton · Answer 1 · 2022-05-28T05:55:38+08:00

Uma resposta somente awk (como o OP solicitou) para GNU awk seria:

awk -F',' '{print > gensub(/[[:space:]]+/,"_","g",$3) ".csv"}' data.csv

Uma resposta somente awk para qualquer awk POSIX se sua entrada for pequena o suficiente para que você não possa exceder o limite de "muitos arquivos abertos" seria:

awk -F',' '{out=$3 ".csv"; gsub(/[[:space:]]+/,"_",out); print > out}' data.csv

Uma resposta somente awk para qualquer awk POSIX se você exceder o limite de "muitos arquivos abertos" seria:

awk -F',' '{out=$3 ".csv"; gsub(/[[:space:]]+/,"_",out); if (!seen[$3]++) printf "" > out; print >> out; close(out)}' data.csv

mas esse último seria lento, pois está fechando e reabrindo o arquivo de saída para cada gravação e assume que você pode armazenar todos os $3valores na memória. Você pode torná-lo um pouco mais eficiente fechando apenas o arquivo de saída se/quando ele mudar:

awk -F',' '$3 != prev {close(out); out=$3 ".csv"; gsub(/[[:space:]]+/,"_",out); if (!seen[$3]++) printf "" > out; prev=$3} {print >> out}' data.csv

Se você estiver de acordo com uma resposta que não seja apenas awk, então usando o idioma DSU (Decorate/Sort/Undecorate) usando qualquer awk POSIX, sort e cut, o seguinte funcionará de forma eficiente e robusta para qualquer tamanho de arquivo de entrada que sortpode manipular (e foi projetado para usar paginação por demanda, etc. para lidar com arquivos extremamente grandes) e para qualquer número de arquivos de saída:

$ cat tst.sh
#!/usr/bin/env bash

awk '
    BEGIN{ FS=OFS="," }
    { print $3,NR,$0 }
' "${@:-}" |
sort -t',' -k1,1 -k2,2n |
cut -d',' -f3- |
awk '
    BEGIN{ FS=OFS="," }
    $3 != prev {
        close(out)
        out = $3 ".csv"
        gsub(/[[:space:]]+/,"_",out)
        prev = $3
    }
    { print > out }
'

$ ./tst.sh data.csv

$ head *.csv
==> data.csv <==
1,avocado,mexican green fruit
1,kiwi,green fruit
1,banana,yellow fruit
1,mango,yellow fruit

==> green_fruit.csv <==
1,kiwi,green fruit

==> mexican_green_fruit.csv <==
1,avocado,mexican green fruit

==> yellow_fruit.csv <==
1,banana,yellow fruit
1,mango,yellow fruit

Para obter mais informações sobre o DSU, consulte https://stackoverflow.com/questions/71691113/how-to-sort-data-based-on-the-value-of-a-column-for-part-multiple-lines-of- af/71694367#71694367 .

Stéphane Chazelas · Answer 2 · 2022-05-28T03:34:00+08:00

Stéphane Chazelas

2022-05-28T03:34:00+08:002022-05-28T03:34:00+08:00

Poderia ser feito com uma função por exemplo:

awk -F, '
  function csvfile(name) {
    gsub(/[[:space:]]+/, "_", name)
    return name".csv"
  }
  {print >> csvfile($3)}'

Aqui, substituindo cada sequência de um ou mais caracteres de espaço em branco (incluindo espaço, tabulação, cr...) por _.

5

JJoao · Answer 3 · 2022-05-28T05:43:44+08:00

JJoao

2022-05-28T05:43:44+08:002022-05-28T05:43:44+08:00

(com gnu awk ou similar) Você pode executar algo ao longo das linhas de

awk -F, '{print > gensub(/ /,"_","g",$3)".csv"}' ex.csv

gensubé um funcional sub-- ligeiramente fácil de compor.
>é provavelmente melhor do que a >>menos que você tenha algum csv criado antes que este comando seja executado.
podemos ter problemas se tivermos milhões de valores diferentes de $3.

Edit: para lidar com novos requisitos (na verdade, uma nova pergunta)

awk -F, '
  NF == 0     {next}
  !seen[$3]++ {print "Quantity, f..., c..." > gensub(/ /,"_","g",$3)".csv"}
              {print                        > gensub(/ /,"_","g",$3)".csv"}  
' ex.csv

1

O AWK divide o CSV de entrada em vários arquivos de saída com base no conteúdo de 1 coluna

Possível firmware ausente /lib/firmware/i915/* para o módulo i915

Falha ao buscar o repositório de backports jessie

Como exportar uma chave privada GPG e uma chave pública para um arquivo

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

O AWK divide o CSV de entrada em vários arquivos de saída com base no conteúdo de 1 coluna

3 respostas

relate perguntas