Windows 有符号链接吗？

Question

HughE

Asked: 2012-06-28 19:11:51 +0800 CST2012-06-28 19:11:51 +0800 CST 2012-06-28 19:11:51 +0800 CST

对大型二进制文件进行排序

772

是否有用于对包含固定长度二进制记录的大文件进行排序的 Unix 实用程序？

换句话说，我正在寻找类似 sort(1) 的东西，但用于具有固定长度记录的二进制文件。

我可以将文件转换为文本，然后使用 sort(1) 进行排序，然后转换回二进制表示形式，但我正在寻找更节省时间和空间的东西。

3 个回答

Voted

Arnaud Le Blanc · Answer 1 · 2013-08-16T12:27:17+08:00

Arnaud Le Blanc

2013-08-16T12:27:17+08:002013-08-16T12:27:17+08:00

一种解决方案可能是将输入文件转换为十六进制，每条记录在单独的行上编码，对其进行排序，然后转换回二进制：

record_size=32
cat input \
    |xxd -cols $record_size -plain \
    |sort \
    |xxd -cols $record_size -plain -revert

但是，它很慢（xxd 在我的机器上转换大约 40MB/s）

所以，因为我需要它，所以我写binsort了，它完成了工作：

binsort --size 32 ./input ./output

对于--size 32，它假定 32 字节固定大小的记录，读取./input，将排序的记录写入./output。

8

mc0e · Answer 2 · 2013-08-17T02:25:48+08:00

mc0e

2013-08-17T02:25:48+08:002013-08-17T02:25:48+08:00

如果您相对于第一个“记录”引用二进制数据，则 Unix 的排序实用程序可以根据记录中的字节位置对二进制数据进行排序。例如-k1.28,1.32。

Unix 排序在行尾概念方面不太灵活。根据您的数据，您可以进行比 user68497 建议的基于 xxd 的流编辑简单得多，并使用空终止行。这仍然可能涉及内存中的大量数据复制，并且不会接近基于 mmap 的方法的速度。

如果您确实以某种方式使用 unix 排序，请注意语言环境。sort 假定它的输入是文本，并且语言环境会影响排序顺序。

5

Adam DePrince · Answer 3 · 2016-07-25T20:08:09+08:00

Best Answer

Adam DePrince

2016-07-25T20:08:09+08:002016-07-25T20:08:09+08:00

原来你很幸运；有一个 GNU 风格的 unix 程序可以做到这一点：bsort。

bsort是就地基数排序的超高效实现，在处理大于 ram 的文件时特别注意内存访问模式。我所说的高效是指从 2014 年年中开始能够在硬件上打破http://sortbenchmark.org的 2014 年节能 10^8 记录排序——记录是 889 焦耳，这个的早期原型能够在普通 macbook pro 消耗 335 焦耳。对于完全适合 ram（三位数兆字节）的“小”数据集，它比 libc 的 qsort 库快大约 3 倍。

2

对大型二进制文件进行排序

新安装后 postgres 的默认超级用户用户名/密码是什么？

SFTP 使用什么端口？

命令行列出 Windows Active Directory 组中的用户？

什么是 Pem 文件，它与其他 OpenSSL 生成的密钥文件格式有何不同？

如何确定bash变量是否为空？

对大型二进制文件进行排序

3 个回答

相关问题