当我检查我的 biostar 实现的结果以在 fasta 文件中搜索素数时,我看到了一个奇怪的结果。我最初有一个 70 列的文件,并将其转换为单行有 6077828 个字符的文件。
当我使用 grep 命令时
grep -o -P -b -n CAATCGCCGT fasta.txt
它显示了我的 Biostar 实现中未显示的两个匹配项。
3:3206721:CAATCGCCGT
3:4140348:CAATCGCCGT
我和 Kate 一起在原始文件上搜索了入门书,但没有找到。由于文本的 70 列划分,引物可能会分成两行。
然后我用 div 和 mod 将它们转换为行号和列号
- 3206572 代表第 45808 行和第 12 列
- 4140199 代表第 59145 行和第 49 列
然而,底漆并不存在。
grep 可以处理的最大行数有限制吗?如果是这样,当超过限制时,结果是否可靠到限制大小?