Problema estranho ao passar variáveis do arquivo de texto

Question

Asked: 2019-01-26 14:56:07 +0800 CST2019-01-26 14:56:07 +0800 CST 2019-01-26 14:56:07 +0800 CST

Contar padrões de várias linhas no arquivo

772

Estou procurando uma maneira de procurar um padrão de várias linhas em um arquivo.

Por exemplo, digamos que esta lista de números seja meu arquivo de entrada:

Se eu quisesse pesquisar instâncias das linhas 2-4 (inclusive), gostaria que o resultado fosse:

Uma vez que essa é a quantidade de vezes que essas linhas específicas são repetidas exatamente. Eu também gostaria que isso funcionasse com qualquer quantidade de linhas, bem como qualquer intervalo de números de linha no arquivo.

5 respostas

Voted

Sparhawk · Answer 1 · 2019-01-26T16:05:25+08:00

Você pode usar pcregrep , que está disponível na maioria das distribuições. O comando a seguir corresponde a uma string fixa.

pcregrep -Mc '^2\n5\n4$' input.txt

Explicação

Na página man, pcregrep é "um grep com expressões regulares compatíveis com Perl".

-M: corresponde ao regex em várias linhas
-c: exibe o número de correspondências (contagem), em vez das próprias correspondências
^2\n5\n4$: regex para 2, 5, 4, cada um em uma linha separada.

Padrão de linhas específicas em vez disso

Comentários posteriores na pergunta sugerem que o padrão a ser correspondido não é uma string fixa, mas sim uma "linhas 2 a 4" geral. Aqui, você pode usar a substituição de comando para analisar as linhas do arquivo de entrada.

pcregrep -Mc "^\Q$(sed -n 2,4p input.txt)\E$" input.txt

Explicação

tail -n+2 input.txt: saída do arquivo, da linha 2 inclusive
head -n3: saída apenas as três primeiras linhas
\Q...\E: cite a ...parte para uma correspondência de string básica em oposição à correspondência de regexp (supõe que a saída do comando não contenha \E).

Observe que ele assume que as últimas linhas da saída de sed ... input.txtnão estão vazias, pois a substituição do comando ( $(...)) remove todos os caracteres de nova linha à direita.

Rakesh Sharma · Answer 2 · 2019-01-27T03:34:20+08:00

$ perl -l -0777pe '$_=()=/^2\n5\n4$/mg' input_file
3

Trabalhando:

-0777=> modo slurp, ou seja, leia o arquivo inteiro.
-p => antes de ler o próximo registro, imprima o registro atual, $_para stdout.
-l => defina o RS = ORS = "\n"
o regex /^2\n5\n4$/mgé aplicado implicitamente no $_, que no nosso caso é o arquivo inteiro, lembre-se. o /mmodificador regex deve corresponder aos finais e inícios de linha, além dos inícios e finais da string. /gmodificador obterá todas as correspondências no $_arquivo inteiro.
Fazemos isso no contexto da lista e o atribuímos a uma lista vazia. O $_, portanto, é reatribuído com o número de elementos na lista, que é o número de vezes que a regex realmente correspondeu.

HTH

Jim L. · Answer 3 · 2019-01-26T15:30:11+08:00

Sua postagem não menciona nenhum requisito para suporte a expressões regulares, então vou assumir que você estará procurando por strings de texto literais e fixas.

Este provavelmente não é o algoritmo mais rápido que você já viu, mas funciona, se você tiver tempo suficiente. Ele tem o pequeno defeito de que, se houver mais de um padrão de linha N que comece com a mesma primeira linha e tenha o mesmo hash SHA256, ele dará resultados incorretos. Ele assume que todos os padrões de linhas N possíveis terão hashes SHA256 exclusivos.

Ele será tedioso em arquivos grandes, especialmente aqueles que contêm várias ocorrências da primeira linha do padrão.

#!/usr/bin/env bash

# What's the name of the list file?
LIST=list

# What's the name of the pattern file?
PATTERN=pattern

# We'll figure out how many times the pattern lines appear (consecutively) in the list.

# Where's your SHA256 tool?
SHA256=/sbin/sha256

# what's the first line of pattern?
PATTERN_START="$(head -1 $PATTERN)"

# where in the list does that single line appear (what line numbers?)
START_LINES="$(grep -nx "$PATTERN_START" $LIST | sed -e 's/:.*//')"

# how many lines long is the pattern?
PAT_LEN="$(grep -c  ^ < $PATTERN)"

echo Pattern is $PAT_LEN lines long, and might start at any of these lines:
echo $START_LINES

PAT_HASH="$($SHA256 < "$PATTERN")"

# So how many times does $PATTERN appear consecutively in $LIST?
PAT_COUNT=0

for LINE in $START_LINES
do
        HASH="$(tail +$LINE $LIST | head -$PAT_LEN | $SHA256 -q)"
        if [ "$HASH" = "$PAT_HASH" ]
        then
                echo match at line $LINE
                PAT_COUNT=$(($PAT_COUNT+1))
        fi
done

echo The pattern was found $PAT_COUNT times

A saída:

$ cat list
3
2
5
4
8
2
5
4
2
4
2
5
4
$ cat pattern
2
5
4
$ . foo.sh 
Pattern is 3 lines long, and might start at any of these lines:
2 6 9 11
match at line 2
match at line 6
match at line 11
The pattern was found 3 times

Niko Gambt · Answer 4 · 2019-01-26T18:21:51+08:00

mpc() {
    # mpc: multiline-pattern counter
    # the first argument $1 is the first line number to include in the pattern
    # the second argument $2 is the last line number to include in the pattern
    # the third argument $3 is the input file

    line_count=$(( $2 - $1 + 1 ))
    multiline_pattern=$(head -n $2 "$3"| tail -n $line_count)
    awk -v RS='' -v FPAT="$multiline_pattern" '{print NF}' "$3"
}

# count how many times multiline-pattern defined by lines 2 to 4 (inclusive) occurs
mpc 2 4 input_file

Requerimento:

O segundo argumento deve ser pelo menos igual ou maior que o primeiro argumento. Eu não garanto a saída se você violar isso.

Isenção de responsabilidade:

Isso não funciona se os caracteres \e/ou $aparecerem em qualquer uma das linhas incluídas como padrão. awkse esforça para processar esses caracteres como partes de um padrão, mesmo que tenham escape de barra invertida.

bu5hman · Answer 5 · 2019-01-27T06:55:09+08:00

Que tal

a="2 5 4"; tr '\n' ' '  < test | grep -o "[^0-9]$a[^0-9]" | wc -l

Com o separador à sua escolha....

Você precisa do regex para evitar uma correspondência no caso de .... 22 5 44... ou similar

Contar padrões de várias linhas no arquivo

Explicação

Padrão de linhas específicas em vez disso

Explicação

Possível firmware ausente /lib/firmware/i915/* para o módulo i915

Falha ao buscar o repositório de backports jessie

Como exportar uma chave privada GPG e uma chave pública para um arquivo

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

Contar padrões de várias linhas no arquivo

5 respostas

Explicação

Padrão de linhas específicas em vez disso

Explicação

relate perguntas