AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / computer / Perguntas / 1467291
Accepted
cablewelo2ma
cablewelo2ma
Asked: 2019-08-04 04:44:11 +0800 CST2019-08-04 04:44:11 +0800 CST 2019-08-04 04:44:11 +0800 CST

sed/awk: remove linhas semelhantes após a primeira ocorrência

  • 772

Eu tenho:

constant1apple_____constant2asdfkjo___constant3
constant1apple_____constant2fdlkjef___constant3
constant1watermelonconstant2sdlfkeio__constant3
constant1banana____constant2asdfoie___constant3
constant1apple_____constant2soeivmn___constant3
constant1orange____constant2vjflkdslj_constant3
constant1watermelonconstant2xcvlvdiosnconstant3
constant1orange____constant2wieonvow__constant3
constant1apple_____constant2woemnivoiwconstant3

eu quero manter apenas as linhas com as primeiras ocorrências dos nomes das frutas

saída deve ser assim:

constant1apple_____constant2asdfkjo___constant3
constant1watermelonconstant2sdlfkeio__constant3
constant1banana____constant2asdfoie___constant3
constant1orange____constant2vjflkdslj_constant3

anotações importantes:

  • os nomes das frutas podem ser literalmente qualquer coisa que eu não conheça, mas todos têm o mesmo comprimento

  • a sequência aleatória após o nome da fruta também pode ser qualquer coisa, mas também tem um comprimento específico

não faço ideia de como fazer

awk sed
  • 1 1 respostas
  • 386 Views

1 respostas

  • Voted
  1. Best Answer
    user1686
    2019-08-04T05:25:17+08:002019-08-04T05:25:17+08:00

    Isso é um pouco mais fácil de fazer com awk (ou perl, ou a maioria das outras linguagens que possuem matrizes associativas):

    awk '!seen[substr($0, 10, 10)]++' input.txt
    
    awk '{ fruit = substr($0, 10, 10); if (!seen[fruit]++) print }' input.txt
    

    (os scripts awk são estruturados como match1 {code1} match2 {code2} ...A primeira variante especifica apenas a condição de correspondência, mas não o código, usando o padrão implícito {print;}; a segunda variante faz o oposto, mas obtém a mesma coisa. O que for mais fácil de trabalhar.)

    Aqui seenestá uma matriz associativa (um dict / hashmap) que conta quantas vezes o segundo campo foi visto até agora. Para cada linha, seen[x]++incrementa o valor mantido em seen[x]e retorna o valor anterior ao mesmo tempo. Se o valor anterior era 0, é a primeira vez que a fruta foi vista.

    Nesta versão, substr(input, start, count)é usado para extrair 10 caracteres de $0 (representando a linha inteira), começando no caractere 10. (Na versão anterior, a chave do array era $2para a segunda coluna separada por espaço.)


    awk funciona bem, mas dependendo de quanta filtragem você planeja fazer (se for mais do que apenas extrair a segunda coluna exclusiva), pode ser melhor já começar com uma linguagem de uso mais geral:

    #!/usr/bin/env python3
    import sys
    seen = set()
    for line in sys.stdin:
        fruit = line[9:19]
        if fruit not in seen:
            seen.add(fruit)
            sys.stdout.write(line)
    

    Como alternativa, se os nomes puderem ser reordenados com segurança, você poderá usá uniq-los para deduplicá-los:

    cat input.txt | sort | uniq --skip-chars=9 --check-chars=10
    

    E se você precisa apenas dos nomes das frutas, ignorando o resto, pode fazer isso extraindo as colunas primeiro e usando uniqo que resta:

    cat input.txt | cut -c 10-19 | sort | uniq
    
    cat input.txt | sed -r 's/^.{9}(.{10}).*/\1/' | sort | uniq
    
    • 2

relate perguntas

  • data de correspondência do padrão sed

  • sed-remove todas as ocorrências de um caractere de uma linha, exceto a última

  • Sintaxe estranha do awk: Número com dois pontos?

  • imprimir o número na segunda coluna o número de vezes em uma nova linha sempre conforme especificado na coluna 1

  • awk para extrair padrão específico no arquivo com base na correspondência de variável

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    O visualizador de fotos do Windows não pode ser executado porque não há memória suficiente?

    • 5 respostas
  • Marko Smith

    Como faço para ativar o WindowsXP agora que o suporte acabou?

    • 6 respostas
  • Marko Smith

    Área de trabalho remota congelando intermitentemente

    • 7 respostas
  • Marko Smith

    Serviço do Windows 10 chamado AarSvc_70f961. O que é e como posso desativá-lo?

    • 2 respostas
  • Marko Smith

    O que significa ter uma máscara de sub-rede /32?

    • 6 respostas
  • Marko Smith

    Ponteiro do mouse movendo-se nas teclas de seta pressionadas no Windows?

    • 1 respostas
  • Marko Smith

    O VirtualBox falha ao iniciar com VERR_NEM_VM_CREATE_FAILED

    • 8 respostas
  • Marko Smith

    Os aplicativos não aparecem nas configurações de privacidade da câmera e do microfone no MacBook

    • 5 respostas
  • Marko Smith

    ssl.SSLCertVerificationError: falha na verificação do certificado [SSL: CERTIFICATE_VERIFY_FAILED]: não foi possível obter o certificado do emissor local (_ssl.c:1056)

    • 4 respostas
  • Marko Smith

    Como posso saber em qual unidade o Windows está instalado?

    • 6 respostas
  • Martin Hope
    Albin Como faço para ativar o WindowsXP agora que o suporte acabou? 2019-11-18 03:50:17 +0800 CST
  • Martin Hope
    fixer1234 O "HTTPS Everywhere" ainda é relevante? 2019-10-27 18:06:25 +0800 CST
  • Martin Hope
    Kagaratsch O Windows 10 exclui muitos arquivos minúsculos muito lentamente. Algo pode ser feito para agilizar? 2019-09-23 06:05:43 +0800 CST
  • Martin Hope
    andre_ss6 Área de trabalho remota congelando intermitentemente 2019-09-11 12:56:40 +0800 CST
  • Martin Hope
    Riley Carney Por que colocar um ponto após o URL remove as informações de login? 2019-08-06 10:59:24 +0800 CST
  • Martin Hope
    zdimension Ponteiro do mouse movendo-se nas teclas de seta pressionadas no Windows? 2019-08-04 06:39:57 +0800 CST
  • Martin Hope
    Inter Sys Como Ctrl+C e Ctrl+V funcionam? 2019-05-15 02:51:21 +0800 CST
  • Martin Hope
    jonsca Todos os meus complementos do Firefox foram desativados repentinamente, como posso reativá-los? 2019-05-04 17:58:52 +0800 CST
  • Martin Hope
    MCK É possível criar um código QR usando texto? 2019-04-02 06:32:14 +0800 CST
  • Martin Hope
    SoniEx2 Altere o nome da ramificação padrão do git init 2019-04-01 06:16:56 +0800 CST

Hot tag

windows-10 linux windows microsoft-excel networking ubuntu worksheet-function bash command-line hard-drive

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve