AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / unix / Perguntas / 553456
Accepted
Age87
Age87
Asked: 2019-11-22 12:57:30 +0800 CST2019-11-22 12:57:30 +0800 CST 2019-11-22 12:57:30 +0800 CST

adicione dois campos com letras codificadas como números separados por dois pontos nos campos 4 e 5

  • 772

eu quero criar um 8º e 9º campo/coluna com a letra apropriada codificada como números nas colunas 4 e 5. Os seis números separados por dois pontos correspondem aA:T:C:G:N:del

Nota: algumas linhas na coluna 6 e 7 estão vazias que consertei inserindo NA com isso:

awk -F'[[:space:]]' '$5 && !$6{ $6="NA" }1' 
awk -F'[[:space:]]' '$6 && !$7{ $7="NA" }1'

Em seguida, fez o arquivo delimitado por tabulação novamente comsed -e 's/ /\t/g'

Arquivo.tsv

    NW_006532398.1  302035  C   0:0:32:0:0:0    42:0:0:0:0:0    KCND2   intergenic_region
    NW_006532656.1  289636  C   0:0:28:0:0:0    0:28:0:0:0:0    CNTN1   intron_variant
    NW_006532762.1  6396    C   0:54:0:0:0:0    0:0:53:0:0:0    NA  intergenic_region
    NW_006532762.1  25741   C   0:0:62:0:0:0    0:43:0:0:0:0    NA  intergenic_region
    NW_006532762.1  32304   T   0:60:0:0:0:0    0:0:49:0:0:0    NA  intergenic_region
    NW_006532762.1  179065  G   0:0:0:45:0:0    59:0:0:0:0:0    DOCK4   intron_variant

Exemplo de output.tsv

NW_006532398.1  302035  C   0:0:32:0:0:0    42:0:0:0:0:0    KCND2   intergenic_region   C   A
NW_006532656.1  289636  C   0:0:28:0:0:0    0:28:0:0:0:0    CNTN1   intron_variant  C   T
NW_006532762.1  6396    C   0:54:0:0:0:0    0:0:53:0:0:0     NA   intergenic_region T   C
NW_006532762.1  25741   C   0:0:62:0:0:0    0:43:0:0:0:0     NA   intergenic_region C   T
NW_006532762.1  32304   T   0:60:0:0:0:0    0:0:49:0:0:0     NA   intergenic_region T   C 
NW_006532762.1  179065  G   0:0:0:45:0:0    59:0:0:0:0:0    DOCK4   intron_variant  G   A

Qualquer ajuda é muito apreciada!!

awk sed
  • 3 3 respostas
  • 106 Views

3 respostas

  • Voted
  1. Ed Morton
    2019-11-22T15:33:18+08:002019-11-22T15:33:18+08:00
    $ cat tst.awk
    BEGIN {
        FS=OFS="\t"
        split("A:T:C:G:N:del",map,/:/)
    }
    { print $0, vals2id($4), vals2id($5) }
    function vals2id(vals,  arr, i, id) {
        split(vals,arr,/:/)
        for (i in arr) {
            if (arr[i] != 0) {
                id = map[i]
            }
        }
        return id
    }
    
    $ awk -f tst.awk file
    NW_006532398.1  302035  C       0:0:32:0:0:0    42:0:0:0:0:0    KCND2   intergenic_region       C       A
    NW_006532656.1  289636  C       0:0:28:0:0:0    0:28:0:0:0:0    CNTN1   intron_variant  C       T
    NW_006532762.1  6396    C       0:54:0:0:0:0    0:0:53:0:0:0    NA      intergenic_region       T       C
    NW_006532762.1  25741   C       0:0:62:0:0:0    0:43:0:0:0:0    NA      intergenic_region       C       T
    NW_006532762.1  32304   T       0:60:0:0:0:0    0:0:49:0:0:0    NA      intergenic_region       T       C
    NW_006532762.1  179065  G       0:0:0:45:0:0    59:0:0:0:0:0    DOCK4   intron_variant  G       A
    
    • 2
  2. seshoumara
    2019-11-22T16:07:26+08:002019-11-22T16:07:26+08:00

    Acredito que o seguinte script sed fará as coisas que você deseja:

    s/\t[1-9][0-9]*:0:0:0:0:[^\t]*\t/&A\t/g
    s/\t0:[1-9][0-9]*:0:0:0:[^\t]*\t/&T\t/g
    s/\t0:0:[1-9][0-9]*:0:0:[^\t]*\t/&C\t/g
    s/\t0:0:0:[1-9][0-9]*:0:[^\t]*\t/&G\t/g
    s/\t0:0:0:0:[1-9][0-9]*:[^\t]*\t/&N\t/g
    s/\t0:0:0:0:0:[1-9][0-9]*\t/&del\t/g
    s/^\t(([^\t]*\t){4})([^\t]*)\t([^\t]*)(\t[^\t]*)(\t.*)/\1\4\6\t\3\5/
    

    Correr com:

    sed -rf script.sed file.tsv > output.tsv
    
    • 2
  3. Best Answer
    Rakesh Sharma
    2019-11-23T00:26:20+08:002019-11-23T00:26:20+08:00

    Podemos fazer isso da seguinte maneira usando os utilitários Perl e sed:

    perl -F'\t' -pale '$"="\t";
       /(?:^|:)(?=[1-9])/g, push(@F, qw[A T C G N del][+pos>>1]) for @F[3,4];
       $_="@F";
    ' file.tsv
    
    NW_006532398.1 302035   C  0:0:32:0:0:0   42:0:0:0:0:0   KCND2 intergenic_region C  A
    NW_006532398.1 302035   C  0:0:0:0:0:2 42:0:0:0:0:0   KCND2 intergenic_region del   A
    NW_006532656.1 289636   C  0:0:28:0:0:0   0:28:0:0:0:0   CNTN1 intron_variant C  T
    NW_006532762.1 6396  C  0:54:0:0:0:0   0:0:53:0:0:0   NA intergenic_region T  C
    NW_006532762.1 25741 C  0:0:62:0:0:0   0:43:0:0:0:0   NA intergenic_region C  T
    NW_006532762.1 32304 T  0:60:0:0:0:0   0:0:49:0:0:0   NA intergenic_region T  C
    NW_006532762.1 179065   G  0:0:0:45:0:0   59:0:0:0:0:0   DOCK4 intron_variant G  A
    
    sed -re '
       1{x;s/.*/A:T:C:G:N:del/;x;}
       s/\t/&\n/3;G;ba
       :b;s/\t/&\n/4;G
       :a;s/\n0:(.*)\n[^:]+:/0:\n\1\n/;ta
       s/\n//;s/\n([^:]+)/\t\1\n/;s/\n.*//;s/^//;tc
       :c;s/\t/&/8;t;bb
    ' file.tsv
    

    Explicações:

    • No quarto $F[3]e quinto $F[4]campos do registro atual $_(também conhecido como linha)

      determine a posição (dentro desse campo) do primeiro dígito diferente de zero. Em virtude do fato

      que ocupam 2 locais, reduzimos pela metade a posição encontrada para obter o índice de 0:matriz anônimo para esse campo.qw[A T C G N del]

    • Agora é apenas uma questão de adicionar o A/T/C/G/N ou del encontrado ao array @F.

    • Em seguida, extrapolamos a matriz @Fusando a $"(tab) e a imprimimos.

    Suposições:

    1. Sem TABs iniciais, que prejudicam a contagem dos campos na @Fmatriz.
    2. O quarto e o quinto campos são assumidos como sendo one-hot, o que significa, sempre, que exatamente um número diferente de zero estará lá.
    3. O quarto e quinto campos não têm nenhum número diferente de zero começando com 0.
    4. O quarto e quinto campos não possuem todos os 00 para zero.
    5. O quarto e quinto campos têm exatamente seis números separados por dois-pontos simples e sem dois-pontos à direita/à esquerda.
    • 1

relate perguntas

  • Como posso melhorar este script de conversão de personagens?

  • Como remover uma única linha entre duas linhas

  • Reorganize as letras e compare duas palavras

  • Embaralhamento de arquivo de várias linhas

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Possível firmware ausente /lib/firmware/i915/* para o módulo i915

    • 3 respostas
  • Marko Smith

    Falha ao buscar o repositório de backports jessie

    • 4 respostas
  • Marko Smith

    Como exportar uma chave privada GPG e uma chave pública para um arquivo

    • 4 respostas
  • Marko Smith

    Como podemos executar um comando armazenado em uma variável?

    • 5 respostas
  • Marko Smith

    Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

    • 3 respostas
  • Marko Smith

    apt-get update error no Kali Linux após a atualização do dist [duplicado]

    • 2 respostas
  • Marko Smith

    Como ver as últimas linhas x do log de serviço systemctl

    • 5 respostas
  • Marko Smith

    Nano - pule para o final do arquivo

    • 8 respostas
  • Marko Smith

    erro grub: você precisa carregar o kernel primeiro

    • 4 respostas
  • Marko Smith

    Como baixar o pacote não instalá-lo com o comando apt-get?

    • 7 respostas
  • Martin Hope
    user12345 Falha ao buscar o repositório de backports jessie 2019-03-27 04:39:28 +0800 CST
  • Martin Hope
    Carl Por que a maioria dos exemplos do systemd contém WantedBy=multi-user.target? 2019-03-15 11:49:25 +0800 CST
  • Martin Hope
    rocky Como exportar uma chave privada GPG e uma chave pública para um arquivo 2018-11-16 05:36:15 +0800 CST
  • Martin Hope
    Evan Carroll status systemctl mostra: "Estado: degradado" 2018-06-03 18:48:17 +0800 CST
  • Martin Hope
    Tim Como podemos executar um comando armazenado em uma variável? 2018-05-21 04:46:29 +0800 CST
  • Martin Hope
    Ankur S Por que /dev/null é um arquivo? Por que sua função não é implementada como um programa simples? 2018-04-17 07:28:04 +0800 CST
  • Martin Hope
    user3191334 Como ver as últimas linhas x do log de serviço systemctl 2018-02-07 00:14:16 +0800 CST
  • Martin Hope
    Marko Pacak Nano - pule para o final do arquivo 2018-02-01 01:53:03 +0800 CST
  • Martin Hope
    Kidburla Por que verdadeiro e falso são tão grandes? 2018-01-26 12:14:47 +0800 CST
  • Martin Hope
    Christos Baziotis Substitua a string em um arquivo de texto enorme (70 GB), uma linha 2017-12-30 06:58:33 +0800 CST

Hot tag

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve