Grep para um conjunto de linhas de $START a $END AND que contém uma correspondência em $MIDDLE

Question

Age87

Asked: 2019-09-27 08:16:56 +0800 CST2019-09-27 08:16:56 +0800 CST 2019-09-27 08:16:56 +0800 CST

Contar o número de TRUEs em um campo, relatando o número do campo, o número de TRUEs e a contagem de rótulos (grandes ou pequenos)

772

Tenho um código rodando em uma máquina Linux, que conta o número de TRUEs encontrados em uma determinada coluna/campo, imprimindo como saída o número da coluna e o número de TRUEs naquela coluna.

Na nova entrada, as linhas são atribuídas (última coluna na entrada) como "grande" ou "pequena" (três de cada).

Eu gostaria de contar o número de "pequenos" e "grandes" para cada coluna com 2 ou mais TRUEs.

Código para encontrar colunas com 2 ou mais TRUEs (sei que o código abaixo ignora a primeira coluna de entrada):

awk -vtc=2 'NR==1{next};
                NR==2{for(i=2;i<=NF;i++){t[i]=0}};
                {for(i=2;i<=NF;i++){if($i=="TRUE"){t[i]++}}}
                END{
                    for(j in t)
                    if(t[j]>=tc){print(j,t[j])}
                }' input.tsv > output.tsv

Entrada.tsv:

MT MT MT MT MT MT MT MT MT MT
FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE TRUE FALSE
FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
FALSE FALSE FALSE FALSE FALSE TRUE FALSE FALSE FALSE FALSE
FALSE FALSE FALSE FALSE FALSE TRUE FALSE FALSE FALSE TRUE
FALSE FALSE FALSE FALSE FALSE TRUE FALSE FALSE TRUE TRUE

output.tsv:

(primeira coluna: número da coluna; segunda coluna: número de TRUEs)

nova entrada.tsv

MT MT MT MT MT MT MT MT MT MT CAT
FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE LARGE        
FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE TRUE FALSE SMALL         
FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE SMALL        
FALSE FALSE FALSE FALSE FALSE TRUE FALSE FALSE FALSE FALSE SMALL        
FALSE FALSE FALSE FALSE FALSE TRUE FALSE FALSE FALSE TRUE LARGE     
FALSE FALSE FALSE FALSE FALSE TRUE FALSE FALSE TRUE TRUE LARGE

Saída desejada.tsv:

(terceira coluna: número de TRUEs atribuídos como pequenos; quarta coluna: número de TRUEs atribuídos como grandes)

A ajuda de qualquer um de vocês linux wizards é muito apreciada!

3 respostas

Voted

iruvar · Answer 1 · 2019-09-27T15:04:29+08:00

Best Answer

iruvar

2019-09-27T15:04:29+08:002019-09-27T15:04:29+08:00

Uma solução que usa (pseudo) arrays multidimensionais emawk

awk '
BEGIN {
    b["TRUE"] = 1
    b["FALSE"] = 0
}
FNR > 1 {
    for (i=1; i < NF; ++i)
        a[i, $NF] += b[$i]
}
END {
    s = "SMALL"
    l = "LARGE"
    for (j=1; j<=i; ++j)
        if (a[j, s] || a[j, l])
            print j, a[j, s] + a[j, l],
            a[j, s] + 0,
            a[j, l] + 0
}' input.tsv

Ou usando verdadeiros arrays multidimensionais disponíveis no GNU awk

awk '
FNR > 1 {
    for (i=1; i < NF; ++i)
        if ($i == t)
            ++a[i][$NF] 
}
END {
    for (j in a)
        print j, a[j][s] + a[j][l],
        +a[j][s],
        +a[j][l]
}' t=TRUE s=SMALL l=LARGE input.tsv

3

bu5hman · Answer 2 · 2019-09-27T10:48:30+08:00

bu5hman

2019-09-27T10:48:30+08:002019-09-27T10:48:30+08:00

Marreta deselegante, mas parece funcionar

#!/bin/bash

cols=$(echo $(head -n 1 file) | awk '{print gsub(/ /, "")}')
sed -e "1d" -e "s/TRUE/1/g" -e "s/FALSE/0/g" -e "s/ /,/g" file > tmp1
sed "/,S.*/d" tmp1 > tmp2
for s in $(seq 1 $cols); do
    tr=$(cut -d, -f$s tmp1 | paste -s -d+ | bc --)
    if [ $tr -gt 0 ]; then
        trl=$(cut -d, -f$s tmp2 | paste -s -d+ | bc --)
        echo $s $tr $(( $tr-$trl )) $trl
    fi
done | column -t -N Col,True,Small,Large
rm tmp1 tmp2

Resultado

Col  True  Small  Large
3    3     2      1
6    3     1      2
9    2     1      1
10   2     0      2

EDITAR

Um pouco menos ofensivo emawk

#!/bin/bash

sed -e "1d" -e "s/TRUE/1/g" -e "s/FALSE/0/g" file | awk '{
    for (i=1; i<NF; i++)
        {sumall[i]+= $i; if ($NF == "LARGE") {sumlarge[i]+= $i}};
    } END {
    for (x in sumall)
        if (sumall[x] > 0)
            { print x, sumall[x], sumall[x]-sumlarge[x], sumlarge[x]}
    }' | column -t -N Col,True,Small,Large

1

Rakesh Sharma · Answer 3 · 2019-09-28T00:50:11+08:00

Rakesh Sharma

2019-09-28T00:50:11+08:002019-09-28T00:50:11+08:00

Isso usa pipelines com diferentes utilitários sendo invocados:

$ sed -E '1d;s/FALSE/0/g;/LARGE$/s/TRUE/L/g;s/TRUE/S/g' input.tsv |
  datamash transpose |
  perl -F'\t' -lane '$,="\t"; my %h;
    my $c = grep { /^([LS])$/ && ++$h{$1} } @F;
    print $., $c, $h{S}||0, $h{L}||0 if $c > 1;
  '
3   3   2   1
6   3   1   2
9   2   1   1
10  2   0   2

0

Contar o número de TRUEs em um campo, relatando o número do campo, o número de TRUEs e a contagem de rótulos (grandes ou pequenos)

Possível firmware ausente /lib/firmware/i915/* para o módulo i915

Falha ao buscar o repositório de backports jessie

Como exportar uma chave privada GPG e uma chave pública para um arquivo

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

Contar o número de TRUEs em um campo, relatando o número do campo, o número de TRUEs e a contagem de rótulos (grandes ou pequenos)

3 respostas

relate perguntas