AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / unix / Perguntas / 747421
Accepted
Mévatlavé Kraspek
Mévatlavé Kraspek
Asked: 2023-05-29 09:34:17 +0800 CST2023-05-29 09:34:17 +0800 CST 2023-05-29 09:34:17 +0800 CST

Deduplicar linhas CSV com base em uma coluna específica, com um analisador CSV

  • 772

Pesquisei por esta tarefa e encontrei as seguintes perguntas mais antigas:

  • Removendo duplicatas de um CSV com base em colunas especificadas
  • Identifique registros exclusivos no CSV com base em colunas específicas

Mas não posso usar awkporque meus dados são um arquivo CSV complexo com várias aspas duplas aninhadas.

Digamos que eu queira desduplicar o seguinte (caso simplificado):

Ref,xxx,zzz
ref1,"foo, bar, base",qux
ref1,"foo, bar, base",bar
ref2,aaa,bbb

Na saída eu preciso da seguinte forma:

Ref,xxx,zzz
ref1,"foo, bar, base",qux
ref2,aaa,bbb

Nenhuma awksolução, por favor, apenas com qualquer analisador CSV.

Eu tentei o seguinte:

mlr --csv uniq -a -g Ref file.csv

Mas é um erro.

linux
  • 2 2 respostas
  • 320 Views

2 respostas

  • Voted
  1. Kusalananda
    2023-05-29T13:40:36+08:002023-05-29T13:40:36+08:00

    uniqO subcomando de Miller retorna registros exclusivos com os campos com os quais a exclusividade foi determinada. Quaisquer outros campos são descartados. Você está recebendo um erro porque as opções do subcomando -a(usar todos os campos) e -g(usar campos específicos) são incompatíveis.

    Uma boa solução usando apenas Miller já foi dada . Usar o headsubcomando com -n 1enquanto agrupa no Refcampo é provavelmente a solução mais conveniente.

    Você também pode fazer Miller usar o mesmo tipo de operação que é comumente usado em awk( !seen[$1]++), mas como Miller não possui um operador pós-incremento, será um pouco mais longo:

    mlr --csv filter '@seen[$Ref] += 1; @seen[$Ref] == 1' file.csv
    

    Você também pode usar o Miller para converter os dados em JSON, depois usar jqpara executar uma unique_by()operação e fazer com que o Miller converta os dados de volta em CSV:

    mlr --c2j cat file.csv | jq 'unique_by(.Ref)' | mlr --j2c cat
    
    • 5
  2. Best Answer
    aborruso
    2023-05-29T13:27:17+08:002023-05-29T13:27:17+08:00

    você poderia correr

    mlr --csv head -n 1 -g Ref input.csv
    

    para obter a primeira linha agrupada porRef

    • 4

relate perguntas

  • Existe uma maneira de fazer ls mostrar arquivos ocultos apenas para determinados diretórios?

  • Inicie/pare o serviço systemd usando o atalho de teclado [fechado]

  • Necessidade de algumas chamadas de sistema

  • astyle não altera a formatação do arquivo de origem

  • Passe o sistema de arquivos raiz por rótulo para o kernel do Linux

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Possível firmware ausente /lib/firmware/i915/* para o módulo i915

    • 3 respostas
  • Marko Smith

    Falha ao buscar o repositório de backports jessie

    • 4 respostas
  • Marko Smith

    Como exportar uma chave privada GPG e uma chave pública para um arquivo

    • 4 respostas
  • Marko Smith

    Como podemos executar um comando armazenado em uma variável?

    • 5 respostas
  • Marko Smith

    Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

    • 3 respostas
  • Marko Smith

    apt-get update error no Kali Linux após a atualização do dist [duplicado]

    • 2 respostas
  • Marko Smith

    Como ver as últimas linhas x do log de serviço systemctl

    • 5 respostas
  • Marko Smith

    Nano - pule para o final do arquivo

    • 8 respostas
  • Marko Smith

    erro grub: você precisa carregar o kernel primeiro

    • 4 respostas
  • Marko Smith

    Como baixar o pacote não instalá-lo com o comando apt-get?

    • 7 respostas
  • Martin Hope
    user12345 Falha ao buscar o repositório de backports jessie 2019-03-27 04:39:28 +0800 CST
  • Martin Hope
    Carl Por que a maioria dos exemplos do systemd contém WantedBy=multi-user.target? 2019-03-15 11:49:25 +0800 CST
  • Martin Hope
    rocky Como exportar uma chave privada GPG e uma chave pública para um arquivo 2018-11-16 05:36:15 +0800 CST
  • Martin Hope
    Evan Carroll status systemctl mostra: "Estado: degradado" 2018-06-03 18:48:17 +0800 CST
  • Martin Hope
    Tim Como podemos executar um comando armazenado em uma variável? 2018-05-21 04:46:29 +0800 CST
  • Martin Hope
    Ankur S Por que /dev/null é um arquivo? Por que sua função não é implementada como um programa simples? 2018-04-17 07:28:04 +0800 CST
  • Martin Hope
    user3191334 Como ver as últimas linhas x do log de serviço systemctl 2018-02-07 00:14:16 +0800 CST
  • Martin Hope
    Marko Pacak Nano - pule para o final do arquivo 2018-02-01 01:53:03 +0800 CST
  • Martin Hope
    Kidburla Por que verdadeiro e falso são tão grandes? 2018-01-26 12:14:47 +0800 CST
  • Martin Hope
    Christos Baziotis Substitua a string em um arquivo de texto enorme (70 GB), uma linha 2017-12-30 06:58:33 +0800 CST

Hot tag

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve