Enquanto estou verificando os resultados da minha implementação do biostar para pesquisar primos em um arquivo fasta, vi um resultado estranho. Eu originalmente um arquivo de 70 colunas e o converti em um arquivo que possui 6077828 caracteres em uma única linha.
Quando eu usei o comando grep
grep -o -P -b -n CAATCGCCGT fasta.txt
Ele exibe duas correspondências que não são exibidas na minha implementação do Biostar.
3:3206721:CAATCGCCGT
3:4140348:CAATCGCCGT
Procurei a cartilha com Kate no arquivo original e não encontrei. É possível que a cartilha se espalhe em duas linhas devido à divisão de 70 colunas do texto.
Então eu os converti em números de linha e coluna com div e mod
- 3206572 representa a linha 45808 e a coluna 12
- 4140199 representa a linha 59145 e a coluna 49
A cartilha, no entanto, não estava lá.
Existe um limite para a linha máxima que o grep pode processar? Em caso afirmativo, quando o limite excede, os resultados são confiáveis até o tamanho limite?