AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / unix / Perguntas / 475491
Accepted
Age87
Age87
Asked: 2018-10-15 16:26:01 +0800 CST2018-10-15 16:26:01 +0800 CST 2018-10-15 16:26:01 +0800 CST

Extraia nomes de File_B com intervalos sobrepostos com File_A

  • 772

Dois arquivos delimitados por espaço:

Arquivo_A

MT 50000
groupI 7850000
groupI 7950000
groupI 9050000
groupI 21750000
groupII 8750000
groupII 10550000
groupII 16150000
groupII 20850000
groupIII 14750000
groupIII 15250000
groupIII 15450000
groupIII 15550000
groupIII 15650000
groupIV 7850000

A primeira coluna é o ID do grupo e a segunda coluna é o ponto médio de um intervalo de 100.000 unidades dentro do grupo. Por exemplo, a primeira linha corresponde ao intervalo 1-100000 no grupo MT, a segunda linha ao intervalo 7800000-7900000 e assim por diante.

Arquivo_B

MT 2851 3825 Name=mt-nd1
MT 4036 5082 Name=mt-nd2
MT 5465 7015 Name=mt-co1
MT 7173 7863 Name=mt-co2
MT 8097 8780 Name=mt-atp6
groupI 18791 22890 Name=FGF12
groupI 36880 38991 Name=MB21D2
groupI 65279 68049 Name=cldn15lb
groupI 77722 105198 Name=col4a4
groupI 117583 141390 Name=col4a3
groupI 150455 155401 Name=sst1.1
groupI 9050030 9058000 Name=bco2b
groupI 1076088 1085084 Name=SORL1
groupI 1175505 1181937 Name=abcg4b
groupI 1184288 1184688 Name=lyrm9
groupI 1185206 1186192 Name=ift20

A coluna 1 do arquivo_B é o nome do grupo/cromossomo onde um gene está localizado, as colunas 2 e 3 são os intervalos de um gene, onde a coluna 2 é o início e a coluna 3 é o fim. Finalmente, a coluna 4 é o nome do gene. Eu quero extrair os únicos nomes de genes da 4ª coluna de File_B cujo intervalo esteja dentro do intervalo de 100.000 de File_A.

Arquivo de saída

mt-nd1
mt-nd2
mt-co1
mt-co2
mt-atp6
bco2b

Eu estava usando o código a seguir para um procedimento diferente, embora semelhante (File_B tinha mais colunas e a segunda coluna para File_A era um ponto, não um intervalo).

while read -r id pos; do awk -v id="$id" -v pos="$pos" '$1 == id && pos > $4 && pos < $5 { if (gensub(/.*gene=([A-Za-z0-9]*).*/, "\\1", 1) !~ /\s/) print gensub(/.*gene=([A-Za-z0-9]*).*/, "\\1", 1); }' <File_B.txt; done < File_A.txt > Output_file.txt
awk text-processing
  • 1 1 respostas
  • 61 Views

1 respostas

  • Voted
  1. Best Answer
    mosvy
    2018-10-15T18:50:31+08:002018-10-15T18:50:31+08:00

    Supondo que o nome do grupo tenha que ser o mesmo (não está claro na sua descrição, mas os dados e a saída esperada sugerem isso):

    $ sort -k1,1 -k2n,2n <(awk '{print $1, $2-50000, $2+50000, $2}' File_A) File_B |
      awk '
        !gsub(/[^=]*=/, "", $4) {g=$1; s=$2; e=$3; m=$4; next}
        $2 > s && $3 <= e && $1 == g {if(m){print g, m; m=""} print "   "$4}
      '
    MT 50000
       mt-nd1
       mt-nd2
       mt-co1
       mt-co2
       mt-atp6
    groupI 9050000
       bco2b
    

    Sem títulos:

    $ sort -k1,1 -k2n,2n <(awk '{print $1, $2-50000, $2+50000}' File_A) File_B |
      awk '
        !gsub(/[^=]*=/, "", $4) {g=$1; s=$2; e=$3; next}
        $2 > s && $3 <= e && $1 == g {print $4}
      '
    mt-nd1
    mt-nd2
    mt-co1
    mt-co2
    mt-atp6
    bco2b
    
    • 1

relate perguntas

  • Reorganize as letras e compare duas palavras

  • Subtraindo a mesma coluna entre duas linhas no awk

  • Embaralhamento de arquivo de várias linhas

  • como posso alterar o caso do caractere (de baixo para cima e vice-versa)? ao mesmo tempo [duplicado]

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Como exportar uma chave privada GPG e uma chave pública para um arquivo

    • 4 respostas
  • Marko Smith

    ssh Não é possível negociar: "nenhuma cifra correspondente encontrada", está rejeitando o cbc

    • 4 respostas
  • Marko Smith

    Como podemos executar um comando armazenado em uma variável?

    • 5 respostas
  • Marko Smith

    Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

    • 3 respostas
  • Marko Smith

    Como descarregar o módulo do kernel 'nvidia-drm'?

    • 13 respostas
  • Marko Smith

    apt-get update error no Kali Linux após a atualização do dist [duplicado]

    • 2 respostas
  • Marko Smith

    Como ver as últimas linhas x do log de serviço systemctl

    • 5 respostas
  • Marko Smith

    Nano - pule para o final do arquivo

    • 8 respostas
  • Marko Smith

    erro grub: você precisa carregar o kernel primeiro

    • 4 respostas
  • Marko Smith

    Como baixar o pacote não instalá-lo com o comando apt-get?

    • 7 respostas
  • Martin Hope
    rocky Como exportar uma chave privada GPG e uma chave pública para um arquivo 2018-11-16 05:36:15 +0800 CST
  • Martin Hope
    Wong Jia Hau ssh-add retorna com: "Erro ao conectar ao agente: nenhum arquivo ou diretório" 2018-08-24 23:28:13 +0800 CST
  • Martin Hope
    Evan Carroll status systemctl mostra: "Estado: degradado" 2018-06-03 18:48:17 +0800 CST
  • Martin Hope
    Tim Como podemos executar um comando armazenado em uma variável? 2018-05-21 04:46:29 +0800 CST
  • Martin Hope
    Ankur S Por que /dev/null é um arquivo? Por que sua função não é implementada como um programa simples? 2018-04-17 07:28:04 +0800 CST
  • Martin Hope
    user3191334 Como ver as últimas linhas x do log de serviço systemctl 2018-02-07 00:14:16 +0800 CST
  • Martin Hope
    Marko Pacak Nano - pule para o final do arquivo 2018-02-01 01:53:03 +0800 CST
  • Martin Hope
    Kidburla Por que verdadeiro e falso são tão grandes? 2018-01-26 12:14:47 +0800 CST
  • Martin Hope
    Christos Baziotis Substitua a string em um arquivo de texto enorme (70 GB), uma linha 2017-12-30 06:58:33 +0800 CST
  • Martin Hope
    Bagas Sanjaya Por que o Linux usa LF como caractere de nova linha? 2017-12-20 05:48:21 +0800 CST

Hot tag

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve