AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / unix / Perguntas / 409802
Accepted
Anna1364
Anna1364
Asked: 2017-12-09 11:05:49 +0800 CST2017-12-09 11:05:49 +0800 CST 2017-12-09 11:05:49 +0800 CST

calcule a soma de cada 2 linhas e substitua-as por outro valor se a soma for menor que um valor específico

  • 772

Tenho uma matriz de genótipos (com espaço tabular), com 2 milhões de linhas e 12 colunas. As colunas são indivíduos e as linhas são SNPs. Eu tenho 2 linhas por cada SNP para cada indivíduo, uma é o número do alelo de referência e o outro número do alelo alternativo (cada 2 linhas correspondem a um SNP, o que significa que as linhas 1 e 2 correspondem ao SNP 1, as linhas 3 e 4 correspondem ao SNP2, as linhas 5 e 6 correspondem ao SNP 3).

Este é um exemplo (2 SNPs e 8 indivíduos):

head genotype
2   3   1   0   0   3   5   3       
18  15  19  18  16  15  13  17      
2   1   0   0   0   1   1   1           
18  19  18  16  20  17  17  23  

Para cada SNP, se a soma do alelo de referência e alternativo for menor que 20, quero substituir os dois alelos por 0 e, se forem iguais ou maiores que 20, quero mantê-los. Esta é a minha saída desejada

head (desired_output)
    2   0   1   0   0   0   0   3       
    18  0   19  0   0   0   0   17      
    2   1   0   0   0   0   0   1           
    18  19  0   0   20  0   0   23  

Alguma ideia de como fazer isso com precisão?

perl python
  • 1 1 respostas
  • 106 Views

1 respostas

  • Voted
  1. Best Answer
    glenn jackman
    2017-12-09T11:31:42+08:002017-12-09T11:31:42+08:00

    A ideia é salvar linhas consecutivas em 2 arrays, então comparar os elementos do array pelos índices correspondentes.

    Salve isso em um arquivo, diga "twenty.awk"

    #/usr/bin/env awk
    
    # ref https://www.gnu.org/software/gawk/manual/html_node/Join-Function.html
    function join(array, start, end, sep,    result, i)
    {
        if (sep == "")
            sep = " "
        else if (sep == SUBSEP) # magic value
            sep = ""
        result = array[start]
        for (i = start + 1; i <= end; i++)
            result = result sep array[i]
        return result
    }
    
    {
        split($0, a)
        getline
    
        for (i=1; i<=NF; i++)
            if (a[i] + $i < 20)
                a[i] = $i = 0
    
        print join(a, 1, NF)
        print
    }
    

    Então corra com

    awk -f twenty.awk data.file | column -t > data.file.twenty
    
    • 1

relate perguntas

  • script sh para executar vários arquivos em vários idiomas

  • python2 e OpenSSL não funcionam juntos no Kali - como consertar?

  • Remova o padrão de lacuna dos arquivos [fechado]

  • Função Python add () de conjunto na compreensão da lista

  • Como obter a versão padrão de um aplicativo no unix

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Matriz JSON para bash variáveis ​​usando jq

    • 4 respostas
  • Marko Smith

    A data pode formatar a hora atual para o fuso horário GMT? [duplicado]

    • 2 respostas
  • Marko Smith

    bash + lê variáveis ​​e valores do arquivo pelo script bash

    • 4 respostas
  • Marko Smith

    Como posso copiar um diretório e renomeá-lo no mesmo comando?

    • 4 respostas
  • Marko Smith

    conexão ssh. Conexão X11 rejeitada devido a autenticação incorreta

    • 3 respostas
  • Marko Smith

    Como baixar o pacote não instalá-lo com o comando apt-get?

    • 7 respostas
  • Marko Smith

    comando systemctl não funciona no RHEL 6

    • 3 respostas
  • Marko Smith

    rsync porta 22 e 873 uso

    • 2 respostas
  • Marko Smith

    snap /dev/loop em 100% de utilização -- sem espaço livre

    • 1 respostas
  • Marko Smith

    chave de impressão jq e valor para todos no subobjeto

    • 2 respostas
  • Martin Hope
    EHerman Matriz JSON para bash variáveis ​​usando jq 2017-12-31 14:50:58 +0800 CST
  • Martin Hope
    Christos Baziotis Substitua a string em um arquivo de texto enorme (70 GB), uma linha 2017-12-30 06:58:33 +0800 CST
  • Martin Hope
    Drux A data pode formatar a hora atual para o fuso horário GMT? [duplicado] 2017-12-26 11:35:07 +0800 CST
  • Martin Hope
    AllisonC Como posso copiar um diretório e renomeá-lo no mesmo comando? 2017-12-22 05:28:06 +0800 CST
  • Martin Hope
    Steve Como as permissões de arquivo funcionam para o usuário "root"? 2017-12-22 02:46:01 +0800 CST
  • Martin Hope
    Bagas Sanjaya Por que o Linux usa LF como caractere de nova linha? 2017-12-20 05:48:21 +0800 CST
  • Martin Hope
    Cbhihe Altere o editor padrão para vim para _ sudo systemctl edit [unit-file] _ 2017-12-03 10:11:38 +0800 CST
  • Martin Hope
    showkey Como baixar o pacote não instalá-lo com o comando apt-get? 2017-12-03 02:15:02 +0800 CST
  • Martin Hope
    youxiao Por que os diretórios /home, /usr, /var, etc. têm o mesmo número de inode (2)? 2017-12-02 05:33:41 +0800 CST
  • Martin Hope
    user223600 gpg — o comando list-keys gera uid [ desconhecido ] depois de importar a chave privada para uma instalação limpa 2017-11-26 18:26:02 +0800 CST

Hot tag

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve