拆分 10GB 文本文件 1) 输出文件的最小大小为 40MB 和 2) 在特定字符串 (</record>) 之后

Question

Rycerzfrost

Asked: 2016-01-19 08:29:55 +0800 CST2016-01-19 08:29:55 +0800 CST 2016-01-19 08:29:55 +0800 CST

每个 x 模式重复拆分一个大文本文件

772

我试图在没有成功的情况下拆分每个 x 模式的大文件，我该如何实现？

文件结构：

> ASDF ABCDEFGHIJKWERQWEWQYASTRDTAYDGAHSFDTS

> QWERT ASJDHASDJHASDHASDHASJDHAJDHJHAD

> ASDF ABCDEFGHIJKWERQWEWQYASTRDTAYDGAHSFDTS

> QTRE AGAHDSJHDASJDHASJDHASJHDAJSDHJASHDJASHDJASHJDHASJDHASJDHAJSHDASJHDJASHDJASHDJASHDJASHDJASJDASHDSUHQYWGEYWGYWGQYWDWBCDEFGHIJKWERQWEWQYASTRDTAYDGAHSFDTS

> ASDF ABCDEFGHIJKWERQWEWQYASTRDTAYDGAHSFDTSASHDJASHDJASDHAJSDHAJDHQUHWUDHUHAWUHASUDHUASDHSUDHSU

它有数千行不同长度的行，每个“>”标题有多行。我想将该大文件拆分为每个文件每 100 个“>”标题的较小过滤，这可能吗？

提前致谢！

2 个回答

Voted

Wayne_Yux · Answer 1 · 2016-01-19T15:04:12+08:00

这是给你的一个小的 perl 脚本。您可以将其另存为split_files.pl并以perl split_files.pl input.txt. 输出将存储在名为等的文件chunk_0中chunk_1。

#!/usr/bin/perl                                                           
use strict;
use warnings;

my$infile=shift(@ARGV);

my$linecount=0;
my$filecount=0;
my$outfile="chunk_".$filecount;

open(IN,'<',$infile) or die $!;
open(OUT,'>',$outfile) or die $!;
$/="\n>";
while(<IN>)
{
    chomp;
    $_=~s/>//g;
    if($linecount==100)
    {
        $filecount++;
        $outfile="chunk_".$filecount;
        close OUT or die $!;
        open(OUT,'>',$outfile) or die $!;
        $linecount=0;
    }
    print OUT ">",$_,"\n";
    $linecount++;
}
close OUT or die $!;
close IN or die $!;

说明：
脚本的诀窍是 line $/="\n>";。此行将默认换行符 ( \n) 更改为“换行符+>” ( \n>)。在while循环中，每个以“>”开头的块都被一次使用。我使用了两个计数变量（$linecount和$filecount）。对行（或本例中的块）进行计数，当此计数达到 100 时，将使用一个新文件进行输出。

Sergiy Kolodyazhnyy · Answer 2 · 2017-02-04T10:17:41+08:00

Python 方法

>一旦在行首看到特定数量的字符，下面的脚本就会将命令行中给出的文件名拆分为文件。看到的字符数也在命令行中指定。因此语法如下：

$ ./split_file.py input.txt 3

脚本源

#!/usr/bin/env python
import sys

def write_split_file(count,orig_name,lines):
    split_name = orig_name + '.split.' + str(count)
    with open(split_name,'w') as fd:
       fd.write("\n".join(lines))

def main():
    counter = 0
    limit = int(sys.argv[2])
    line_list = []
    with open(sys.argv[1]) as fd1:
        for line in fd1:
            line_list.append(line.strip())
            if line.startswith('>'):
               counter+=1
               if counter % limit == 0:
                  write_split_file(counter,sys.argv[1],line_list)
                  line_list = []

    if line_list:          
       write_split_file(counter,sys.argv[1],line_list)

if __name__ == '__main__': main()

注意：该脚本是为 Python 2 编写的，但与 Python 3 兼容。可以轻松修改为基于变量起始字符串进行拆分。

每个 x 模式重复拆分一个大文本文件

Python 方法

脚本源

如何运行 .sh 脚本？

如何安装 .tar.gz（或 .tar.bz2）文件？

如何列出所有已安装的软件包

无法锁定管理目录 (/var/lib/dpkg/) 是另一个进程在使用它吗？

每个 x 模式重复拆分一个大文本文件

2 个回答

Python 方法

脚本源

相关问题