AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / computer / Perguntas / 1616856
Accepted
Brian
Brian
Asked: 2021-01-12 22:39:33 +0800 CST2021-01-12 22:39:33 +0800 CST 2021-01-12 22:39:33 +0800 CST

Contagem com base em um subconjunto exclusivo de campos

  • 772

Eu tenho um arquivo de texto que está estruturado da seguinte forma:

P,ABC,DEF
P,GHI,JKL
B,ABC,DEF
B,MNO,PQR

Eu quero obter uma contagem de quantas vezes uma linha aparece onde os campos 2 e 3 são os mesmos, preservando o campo 1. Então, a saída seria algo assim:

2,P,ABC,DEF
1,P,GHI,JKL
2,B,ABC,DEF
1,B,MNO,PQR

uniq -cnão funcionará (até onde eu sei) porque não pode separar por campo. sort -u -t, -k2,2 -k3,3também não funcionará, pois não pode contar (até onde eu sei) e o comando conforme escrito simplesmente destruirá a terceira linha como uma duplicata, deixando a primeira.

No final das contas, o que preciso retornar são as linhas 2 e 4, pois os campos 2 e 3 combinados são únicos. Mas, preciso preservar o campo 1, pois se refere a qual conjunto de dados (no mundo real) os campos 2 e 3 se originam. Então, uma solução que retorne as linhas 2 e 4 é realmente o que eu preciso.

Assim, uma solução da seguinte forma também funciona:

P,GHI,JKL
B,MNO,PQR
unix sorting
  • 1 1 respostas
  • 26 Views

1 respostas

  • Voted
  1. Best Answer
    Kamil Maciorowski
    2021-01-13T00:32:35+08:002021-01-13T00:32:35+08:00

    Tomando seu sortcomando, posso delegar -upara uniq -u, o que me permite usar a -fopção de uniq. Esta opção ignora o número determinado de campos à esquerda. Você quer ignorar o primeiro campo, então -f1. Para que isso funcione, preciso traduzir cada ,um para um espaço em branco e voltar:

    <data sort -t, -k2,2 -k3,3 | tr , ' ' | uniq -u -f1 | tr ' ' ,
    

    Embora isso funcione com seu conjunto de dados de exemplo, ele falha quando há espaços em branco. Isso ocorre porque uniq -freconhece um campo como [[:blank:]]*[^[:blank:]]*. Se houver espaços em branco em seus dados reais, eles uniqreconhecerão mais campos do que você deseja.

    Para superar isso, você precisa traduzir espaços em branco reais para não espaços em branco, executar uniqe traduzir de volta. Na localidade POSIX [:blank:]inclui apenas o espaço e o caractere de tabulação; em outras localidades, pode incluir mais.

    O comando a seguir converte temporariamente espaços em caracteres DC1 (controle de dispositivo 1, octal 021) e tabulações em DC2 (controle de dispositivo 2, octal 022):

    <data sort -t, -k2,2 -k3,3 | tr ' \t,' '\021\022 ' | uniq -u -f1 | tr '\021\022 ' ' \t,'
    

    Deve funcionar, se apenas os dados não contiverem DC1 nem DC2.

    Mesmo que você trnão suporte caracteres multibyte , a tradução não interferirá nos caracteres multibyte de UTF-8 porque o bit mais significativo em cada byte em um caractere multibyte em UTF-8 é sempre 1, enquanto para DC1 ou DC2 é 0.

    • 1

relate perguntas

  • Como posso desabilitar a barra de status de Zathura por padrão?

  • Padrão do Outlook Classificar cópia do tipo em todas as pastas

  • Por que um utilitário projetado para gerenciamento de arquivos funcionaria fora da ordem alfabética?

  • Se o Windows 7 não oferece suporte a WSL, o que é "Subsistema para aplicativos baseados em UNIX"?

  • Como remover a extensão do nome do caminho passado como {} em `find -exec`?

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Como posso reduzir o consumo do processo `vmmem`?

    • 11 respostas
  • Marko Smith

    Baixar vídeo do Microsoft Stream

    • 4 respostas
  • Marko Smith

    O Google Chrome DevTools falhou ao analisar o SourceMap: chrome-extension

    • 6 respostas
  • Marko Smith

    O visualizador de fotos do Windows não pode ser executado porque não há memória suficiente?

    • 5 respostas
  • Marko Smith

    Como faço para ativar o WindowsXP agora que o suporte acabou?

    • 6 respostas
  • Marko Smith

    Área de trabalho remota congelando intermitentemente

    • 7 respostas
  • Marko Smith

    O que significa ter uma máscara de sub-rede /32?

    • 6 respostas
  • Marko Smith

    Ponteiro do mouse movendo-se nas teclas de seta pressionadas no Windows?

    • 1 respostas
  • Marko Smith

    O VirtualBox falha ao iniciar com VERR_NEM_VM_CREATE_FAILED

    • 8 respostas
  • Marko Smith

    Os aplicativos não aparecem nas configurações de privacidade da câmera e do microfone no MacBook

    • 5 respostas
  • Martin Hope
    Saaru Lindestøkke Por que os arquivos tar.xz são 15x menores ao usar a biblioteca tar do Python em comparação com o tar do macOS? 2021-03-14 09:37:48 +0800 CST
  • Martin Hope
    CiaranWelsh Como posso reduzir o consumo do processo `vmmem`? 2020-06-10 02:06:58 +0800 CST
  • Martin Hope
    Jim Pesquisa do Windows 10 não está carregando, mostrando janela em branco 2020-02-06 03:28:26 +0800 CST
  • Martin Hope
    v15 Por que uma conexão de Internet gigabit/s via cabo (coaxial) não oferece velocidades simétricas como fibra? 2020-01-25 08:53:31 +0800 CST
  • Martin Hope
    andre_ss6 Área de trabalho remota congelando intermitentemente 2019-09-11 12:56:40 +0800 CST
  • Martin Hope
    Riley Carney Por que colocar um ponto após o URL remove as informações de login? 2019-08-06 10:59:24 +0800 CST
  • Martin Hope
    zdimension Ponteiro do mouse movendo-se nas teclas de seta pressionadas no Windows? 2019-08-04 06:39:57 +0800 CST
  • Martin Hope
    jonsca Todos os meus complementos do Firefox foram desativados repentinamente, como posso reativá-los? 2019-05-04 17:58:52 +0800 CST
  • Martin Hope
    MCK É possível criar um código QR usando texto? 2019-04-02 06:32:14 +0800 CST
  • Martin Hope
    SoniEx2 Altere o nome da ramificação padrão do git init 2019-04-01 06:16:56 +0800 CST

Hot tag

windows-10 linux windows microsoft-excel networking ubuntu worksheet-function bash command-line hard-drive

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve