Reorganize as letras e compare duas palavras

Question

Asked: 2019-07-19 05:11:33 +0800 CST2019-07-19 05:11:33 +0800 CST 2019-07-19 05:11:33 +0800 CST

Exclusão de coluna com base no número de correspondências de string na coluna

772

Eu preciso de um comando que irá remover quaisquer colunas em um arquivo de texto se eles tiverem =>${MaxAllowedNumberOfFs} 'F's dentro da coluna (uma coluna que terá um número variável de linhas).

Eu tenho algum pseudo código que está próximo, mas não sei como definir um limitador de número de correspondência.

digamos que o limitador está definido como 3 e o arquivo de entrada de exemplo é:

F G F H H
G F F F A
F G F F F
F F F T F

Então a saída desejada seria:

G H H
F F A
G F F
F T F

pseudo código que está próximo (o limitador pode e mudará dependendo dos arquivos):

MaxAllowedNumberOfFs="1012"

Count_of_columns=`awk '{print NF}' filename | sort -nr | sed -n '$p'` 

for((i=1;i<=$Count_of_columns;i++)); do awk -v i="$i" -v x="$MaxAllowedNumberOfFs" '$i == F =>x number of times {$i="";print $0}' filename; done

Obviamente, eu poderia percorrer todas as colunas, contar o número de ocorrências na coluna usando grep e, em seguida, remover as colunas que não atendem aos critérios. mas isso seria muito lento. Realmente quero um comando bem awk para isso, mas não tenho as habilidades de awk

3 respostas

Voted

icarus · Answer 1 · 2019-07-19T07:13:35+08:00

Uma abordagem é ler o arquivo duas vezes. Na primeira vez, contamos os F's, e na segunda vez, emitimos a linha. Então algo como

#!/bin/sh

awk -v n=3 '
        NR==FNR { for (i=1;i<=NF;i++) { if ($i == "F") { c[i]++ }} ;next }                                                                            
        { for (i=1;i<=NF;i++) { if (c[i] < n) { printf("%s ", $i) } } ;printf("\n") }                                                                 

' filename filename

O NR==FNRé um truque para ver se esta é a primeira ou segunda vez que estamos lendo o arquivo. Supondo que haja alguma linha no arquivo, isso será verdade somente ao ler o arquivo pela primeira vez. A matriz cé uma contagem do número de caracteres F nessa coluna. O nextdiz que todo o processamento dessa linha é concluído ao ler o arquivo pela primeira vez. A segunda linha é executada na segunda vez que o arquivo é lido.

steeldriver · Answer 2 · 2019-07-19T05:33:19+08:00

Aqui está uma ilustração do método de transposição - filtro de linha - transposição . Talvez seja inadequado para o seu caso (arquivo grande), mas pode ser útil para outras pessoas:

$ cat file
F G F H H
G F F F A
F G F F F
F F F T F

então

$ rs -T < file | perl -alne 'print unless (grep { $_ eq "F" } @F) > 3' | rs -T
F  G  H  H
G  F  F  A
F  G  F  F
F  F  T  F

Praveen Kumar BS · Answer 3 · 2019-07-22T10:26:17+08:00

Tentei com o script abaixo e funcionou bem

for ((i=1;i<=5;i++)); do c=`awk -v i="$i" '{print $i}' o.txt|awk '$1=="F" {print $0}'| sed -n '/F/{;=;p}'| sed "N;s/\n/ /g"| sort -k1 -rn|sed -n '1p'| awk '{print $1}'`; if [[ $c -lt 3 ]]; then awk -v i="$i" '{print $i}' o.txt >file_$i; fi; done

paste  file_*

resultado

G H H
F F A
G F F
F T F

Exclusão de coluna com base no número de correspondências de string na coluna

Possível firmware ausente /lib/firmware/i915/* para o módulo i915

Falha ao buscar o repositório de backports jessie

Como exportar uma chave privada GPG e uma chave pública para um arquivo

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

Exclusão de coluna com base no número de correspondências de string na coluna

3 respostas

relate perguntas