Problema estranho ao passar variáveis do arquivo de texto

Question

Age87

Asked: 2018-01-25 11:49:54 +0800 CST2018-01-25 11:49:54 +0800 CST 2018-01-25 11:49:54 +0800 CST

extrair colunas da matriz TRUE/FALSE com base na proporção de valores TRUE dentro da coluna

772

Eu tenho um arquivo de texto como o abaixo, embora com quase muitas colunas. Desejo extrair nomes de colunas que tenham uma proporção/número específico de valores TRUE, por exemplo, colunas com TRUE em 2 das 9 linhas (com valores TRUE/FALSE).

Como alternativa, seria bom extrair colunas com pelo menos um certo número (por exemplo, 2) de valores VERDADEIROS. No exemplo acima, seriam colunas com 2 a 9 linhas possíveis com valores TRUE. Deve ser generalizável para arquivos com diferentes números de linhas.

Obrigado!

Exemplo de arquivo de entrada:

Comparison  MT  group1  group1.1    group1.2    group1.3    group1.4    group1.5    group1.6    group1.7    group1.8    group1.9
BP:HA      FALSE FALSE  FALSE       FALSE       FALSE       FALSE       FALSE       FALSE       FALSE       FALSE        TRUE
CB:HA      FALSE TRUE   FALSE       FALSE       FALSE       FALSE       FALSE       FALSE       FALSE       FALSE        FALSE 
HA:PI      TRUE  TRUE   FALSE       FALSE       FALSE       FALSE       FALSE       FALSE       FALSE       FALSE        FALSE 
AL:GR      FALSE FALSE  FALSE       FALSE       FALSE       FALSE       FALSE       FALSE       FALSE       FALSE        FALSE 
AL:LA      TRUE  FALSE  FALSE       FALSE       FALSE       FALSE       FALSE       FALSE       FALSE       FALSE        FALSE 
AL:PL      FALSE FALSE  FALSE       FALSE       FALSE       FALSE       FALSE       FALSE       FALSE       TRUE         FALSE 
GR:PP      FALSE FALSE  FALSE       FALSE       FALSE       FALSE       FALSE       FALSE       FALSE       FALSE        FALSE 
LA:PP      TRUE  FALSE  FALSE       FALSE       FALSE       FALSE       FALSE       FALSE       FALSE       FALSE        TRUE
PL:PP      FALSE FALSE  FALSE       FALSE       FALSE       FALSE       FALSE       FALSE       FALSE       FALSE        TRUE

Resultado desejado para colunas com 2 ou mais valores TRUE :

arquivo de saída:

MT
group1
group1.9

3 respostas

Voted

Alexander · Answer 1 · 2018-01-25T12:48:14+08:00

Alexander

2018-01-25T12:48:14+08:002018-01-25T12:48:14+08:00

Aqui está uma maneira de escolher as colunas com instâncias suficientes de TRUE, usando o bash:

min_true=3; \
max_col=12; \
for col in $(seq 2 $max_col); do \
  sed 's,    ,.,g;s,   ,.,g' "$filename" | \
    tail -n+2 | \
    cut -d. -f$col > /tmp/f; \
  count=$(grep TRUE /tmp/f | wc -l); \
  if [ "$count" -ge "$min_true" ]; then \
    echo "Column $(($col-1)): $count out of $(echo $(wc -l </tmp/f))"; \
    cat /tmp/f; \
  fi; \
done

A saída pode ser grepada para strings como "3 de 9", para obter o número da coluna (contando a partir de 0):

Column 1: 3 out of 9
FALSE
FALSE
TRUE
FALSE
TRUE
FALSE
FALSE
TRUE
FALSE

1

user232326 · Answer 2 · 2018-01-25T13:21:46+08:00

Examine todas as colunas e acumule a contagem de "VERDADEIRO" para cada coluna.
No final, imprima todas as colunas iguais ou maiores que um ponto de ajuste:

#!/bin/bash
awk -vprop="${1:-0.3}" '
        NR==1{split($0,fields);next};
        {for(i=2;i<=NF;i++){  if($i=="TRUE" ){t[i]++};
                              if($i=="FALSE"){f[i]++}
                           }
        }
        END{
            for(j in t)
            if( (1/(1+f[j]/t[j])) >= prop){
                printf("%-10s\t%s\t%s\n",fields[j],j,1/(1+f[j]/t[j]) )
            }
        }' infile

Na execução (para os dados que você forneceu):

$ ./script  0.001
MT              i=2     t=3     f=6     p=0.333
group1          i=3     t=2     f=7     p=0.222
group1.8        i=11    t=1     f=8     p=0.111
group1.9        i=12    t=3     f=6     p=0.333

A coluna 2 (MT) tem mais de 1 valor VERDADEIRO: 3 de fato.
A coluna 3 (grupo1) tem 2 valores TRUE.
A coluna 11 (group1.8) tem 1 valor TRUE. A coluna 12 (group1.9) tem 3 valores TRUE.

Se você não fornecer uma proporção, o padrão será 0,3.

$ ./script
MT              i=2     t=3     f=6     p=0.333
group1          i=3     t=2     f=7     p=0.222
group1.9        i=12    t=3     f=6     p=0.333

Kusalananda · Answer 3 · 2018-06-18T21:47:24+08:00

Kusalananda

2018-06-18T21:47:24+08:002018-06-18T21:47:24+08:00

$ awk -v p='10' 'NR==1 { split($0,cols); next }
                 { 
                     for (i=2; i<=NF; ++i)
                         nt[i] += ($i == "TRUE" ? 1 : 0 )
                 }
                 END {
                     for (i=2; i<=NF; ++i) {
                         cp = 100*nt[i]/NR
                         if (cp > p) printf("%-20s %.2f%%\n", cols[i], cp)
                     }
                 }' file
MT                   30.00%
group1               20.00%
group1.9             30.00%

O awkprograma recebe um parâmetro pque é a porcentagem TRUEnecessária para que o cabeçalho de uma coluna seja exibido.

Desde a primeira linha, ele salva todos os cabeçalhos de coluna no array cols. Em seguida, resume quantas vezes a palavra TRUEocorre em cada coluna. No final, ele calcula a porcentagem de linhas que estavam TRUEem cada coluna como cpe compara com p. Se for maior que o pvalor fornecido, o nome da coluna e a porcentagem serão exibidos.

0

extrair colunas da matriz TRUE/FALSE com base na proporção de valores TRUE dentro da coluna

Como exportar uma chave privada GPG e uma chave pública para um arquivo

ssh Não é possível negociar: "nenhuma cifra correspondente encontrada", está rejeitando o cbc

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

Como descarregar o módulo do kernel 'nvidia-drm'?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

extrair colunas da matriz TRUE/FALSE com base na proporção de valores TRUE dentro da coluna

3 respostas

relate perguntas