AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / unix / Perguntas / 671453
Accepted
Age87
Age87
Asked: 2021-10-02 09:14:35 +0800 CST2021-10-02 09:14:35 +0800 CST 2021-10-02 09:14:35 +0800 CST

extrair campos com base em uma string (parcial e exata)

  • 772

Expertos: Quero extrair campos com base em uma string (parcial e exata). Em algumas linhas esses campos são movidos uma ou duas colunas , então não consigo especificar a coluna (que é a extensão do meu conhecimento). Eu também preciso extrair o 1º, 2º, 4º e 5º campos, mas eles não variam de linha para linha, então eu posso fazer isso sozinho.

Especificamente, quero extrair o campo com a string parcial " DP4= " e o campo com uma string correspondente como " MODERATE " mais o campo à esquerda e à direita :

entrada:

NW_006532014.1  603822  .       T       C       222.0   .       DP=103  ADF=30,22       ADR=13,16       AD=43,38        VDB=0.0570121   SGB=-0.693143   RPB=0.810487    MQB=0.570226      MQSB=0.033126   BQB=0.964281    MQ0F=0  ICB=1   HOB=0.5 AC=1    AN=2    DP4=30,13,22,16 MQ=35   ANN=C   missense_variant        MODERATE        ABCB6   ABCB6     transcript      XM_007419806.2
NW_006532015.1  1015800 .       AAA     AAACAA  228.0   .       INDEL   IDV=106 IMF=0.905983    DP=117  ADF=6,50        ADR=19,42       AD=25,92        VDB=0.22041     SGB=-0.693147     MQSB=0.182586   MQ0F=0  AC=2    AN=2    DP4=6,19,50,42  MQ=36   ANN=AAACAA      disruptive_inframe_insertion    MODERATE        CEP131  CEP131  transcriptXM_025166060.1  protein_coding  11/27
NW_006532017.1  910856  .       C       G       78.0    .       DP=118  ADF=50,14       ADR=25,2        AD=75,16        VDB=0.954018    SGB=-0.689466   RPB=0.939107    MQB=0.0031569     MQSB=0.280595   BQB=0.0859367   MQ0F=0  ICB=1   HOB=0.5 AC=1    AN=2    DP4=50,25,14,2  MQ=44   ANN=G   missense_variant        MODERATE        HPS1    HPS1      transcript      XM_025169525.1
NW_006532033.1  475415  .       T       C       222.0   .       DP=123  ADF=18,36       ADR=18,15       AD=36,51        VDB=0.984451    SGB=-0.693147   RPB=0.428811    MQB=1.68713e-05   MQSB=0.565818   BQB=0.837943    MQ0F=0  ICB=1   HOB=0.5 AC=1    AN=2    DP4=18,18,36,15 MQ=41   ANN=C   missense_variant        MODERATE        PTCH2   PTCH2     transcript      XM_025164053.1
NW_006532040.1  586236  .       G       C       29.9689 .       DP=106  ADF=40,9        ADR=25,1        AD=65,10        VDB=0.731987    SGB=-0.670168   RPB=0.945403    MQB=0.00509228    MQSB=0.210814   BQB=0.365756    MQ0F=0  ICB=1   HOB=0.5 AC=1    AN=2    DP4=40,25,9,1   MQ=46   ANN=C   missense_variant        MODERATE        OMG     OMG       transcript      XM_007420376.3
NW_006532040.1  674528  .       T       C       221.0   .       DP=128  ADF=39,15       ADR=19,9        AD=58,24        VDB=0.253732    SGB=-0.692831   RPB=0.952839    MQB=1.09944e-10   MQSB=0.755937   BQB=0.749586    MQ0F=0  ICB=1   HOB=0.5 AC=1    AN=2    DP4=39,19,15,9  MQ=48   ANN=C   missense_variant        MODERATE        NF1     NF1       transcript      XM_007420379.3

saída desejada (tab-delim):

DP4=30,13,22,16 missense_variant        MODERATE        ABCB6
DP4=6,19,50,42  disruptive_inframe_insertion    MODERATE        CEP131
DP4=50,25,14,2  missense_variant        MODERATE        HPS1
DP4=18,18,36,15 missense_variant        MODERATE        PTCH2
DP4=40,25,9,1   missense_variant        MODERATE        OMG
DP4=39,19,15,9  missense_variant        MODERATE        NF1

Obrigado!

awk text-processing
  • 2 2 respostas
  • 154 Views

2 respostas

  • Voted
  1. Ed Morton
    2021-10-02T10:32:12+08:002021-10-02T10:32:12+08:00

    Usando GNU awk para o 3º argumento para match(), \<limite de palavra e \s/\Sabreviação:

    $ awk -v OFS='\t' 'match($0,/(\<DP4=\S+).*\s(\S+\tMODERATE\t\S+)/,a){print a[1], a[2]}' file
    DP4=30,13,22,16 missense_variant        MODERATE        ABCB6
    
    • 3
  2. Best Answer
    αғsнιη
    2021-10-02T10:05:53+08:002021-10-02T10:05:53+08:00
    awk 'BEGIN{ OFS="\t" } {
        nrf=split($0, tmp); s1=s2=0;
        for(i=1; i<=nrf; i++){
            printf "%s", (tmp[i] ~/DP4=/     &&++s1? (s2?OFS:"") tmp[i]:
                         (tmp[i]=="MODERATE" &&++s2? (s1?OFS:"") tmp[i-1] OFS tmp[i] OFS tmp[i+1]:"") );
        }; print "";
    }' infile
    

    usamos a função split() para dividir a linha de processamento atual a cada vez em um array temporário chamado tmp no FS padrão (espaços em branco, ou seja, em Tabs/Spaces); a nrfé apenas uma variável temporária que usei e que contém o número de campos que a função split() dividiu.

    então usamos um for-look nesses campos e verificamos se o campo atual tmp[i]que é lido atende às condições que você espera, se fosse nós, imprimindo senão, estamos verificando a próxima condição, se isso foi visto, imprima um campo anterior para ele tmp[i-1]em seguida, o próprio campo atual, em tmp[i]seguida, o próximo campo à direita tmp[i+1], caso contrário, imprimimos uma string vazia "".

    variáveis ​​temporárias s1e s2são usadas para controlar o delimitador de campos entre a primeira e a segunda ação de condições de impressão, portanto, se uma foi encontrada antes, os próximos campos devem imprimir OFS antes com antecedência.

    • 2

relate perguntas

  • Reorganize as letras e compare duas palavras

  • Subtraindo a mesma coluna entre duas linhas no awk

  • Embaralhamento de arquivo de várias linhas

  • como posso alterar o caso do caractere (de baixo para cima e vice-versa)? ao mesmo tempo [duplicado]

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Possível firmware ausente /lib/firmware/i915/* para o módulo i915

    • 3 respostas
  • Marko Smith

    Falha ao buscar o repositório de backports jessie

    • 4 respostas
  • Marko Smith

    Como exportar uma chave privada GPG e uma chave pública para um arquivo

    • 4 respostas
  • Marko Smith

    Como podemos executar um comando armazenado em uma variável?

    • 5 respostas
  • Marko Smith

    Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

    • 3 respostas
  • Marko Smith

    apt-get update error no Kali Linux após a atualização do dist [duplicado]

    • 2 respostas
  • Marko Smith

    Como ver as últimas linhas x do log de serviço systemctl

    • 5 respostas
  • Marko Smith

    Nano - pule para o final do arquivo

    • 8 respostas
  • Marko Smith

    erro grub: você precisa carregar o kernel primeiro

    • 4 respostas
  • Marko Smith

    Como baixar o pacote não instalá-lo com o comando apt-get?

    • 7 respostas
  • Martin Hope
    user12345 Falha ao buscar o repositório de backports jessie 2019-03-27 04:39:28 +0800 CST
  • Martin Hope
    Carl Por que a maioria dos exemplos do systemd contém WantedBy=multi-user.target? 2019-03-15 11:49:25 +0800 CST
  • Martin Hope
    rocky Como exportar uma chave privada GPG e uma chave pública para um arquivo 2018-11-16 05:36:15 +0800 CST
  • Martin Hope
    Evan Carroll status systemctl mostra: "Estado: degradado" 2018-06-03 18:48:17 +0800 CST
  • Martin Hope
    Tim Como podemos executar um comando armazenado em uma variável? 2018-05-21 04:46:29 +0800 CST
  • Martin Hope
    Ankur S Por que /dev/null é um arquivo? Por que sua função não é implementada como um programa simples? 2018-04-17 07:28:04 +0800 CST
  • Martin Hope
    user3191334 Como ver as últimas linhas x do log de serviço systemctl 2018-02-07 00:14:16 +0800 CST
  • Martin Hope
    Marko Pacak Nano - pule para o final do arquivo 2018-02-01 01:53:03 +0800 CST
  • Martin Hope
    Kidburla Por que verdadeiro e falso são tão grandes? 2018-01-26 12:14:47 +0800 CST
  • Martin Hope
    Christos Baziotis Substitua a string em um arquivo de texto enorme (70 GB), uma linha 2017-12-30 06:58:33 +0800 CST

Hot tag

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve