我可以在没有 gnu 并行的情况下同时提取我的 git 存储库吗？

Question

Ole Tange

Asked: 2018-01-17 08:11:58 +0800 CST2018-01-17 08:11:58 +0800 CST 2018-01-17 08:11:58 +0800 CST

计算文件中每一行的 md5sum

772

给定一个文件，如：

a
b
c

如何获得如下输出：

a       0cc175b9c0f1b6a831c399e269772661
b       92eb5ffee6ae2fec3ad71c777531578f
c       4a8a08f09d37b73795649038408b5f33

以一种有效的方式？（输入为 80 GB）

3 个回答

Voted

RomanPerekhrest · Answer 1 · 2018-01-17T09:56:04+08:00

除了@Ole Tange 的方法，这里有一个优化的解决方案（Python 的部分）：

md5summer.py脚本：

#!/usr/bin/python

import sys
import hashlib

for r in sys.stdin:
    if r.strip():
        h = hashlib.md5()
        h.update(r.encode());
        print r, '\t', h.hexdigest()

优化点：

hashlib- 使用实际库而不是已弃用的库
for r in sys.stdin:- 从类似生成器的对象而不是列表中读取
if r.strip():- 检查空记录以避免冗余hashlib方法调用

用法：

parallel --pipepart -a my80gb-file -S server1,server2 --block 1 /path_to/md5summer.py

样本输出：

a   0cc175b9c0f1b6a831c399e269772661
b   92eb5ffee6ae2fec3ad71c777531578f
c   4a8a08f09d37b73795649038408b5f33
d   8277e0910d750195b448797616e091ad
f   8fa14cdd754f91cc6554c9e71929cce7
e   e1671797c52e15f763380b45e841ec32
g   b2f5ff47436671b6e533d8dc3614845d
h   2510c39011c5be704182423e3a695e91
i   865c0c0b4ab0e063e5caa3387c1a8741
j   363b122c528f54df4a0446b6bab05515
k   8ce4b16b22b58894aa86c421e8759df3
l   2db95e8e1a9267b7a1188556b2013b33
m   6f8f57715090da2632453988d9a1501b
n   7b8b965ad4bca0e41ab51de7b31363a1
p   83878c91171338902e0fe0fb97a8c47a
o   d95679752134a2d9eb61dbd7b91c4bcc
q   7694f4a66316e53c8cdd9d9954bd611d
r   4b43b0aee35624cd95b910189b3dc231
s   03c7c0ace395d80182db07ae2c30f034
t   e358efa489f58062f10dd7316b65649e
u   7b774effe4a349c6dd82ad4f4f21d34c
v   9e3669d19b675bd57058fd4664205d2a
w   f1290186a5d0b1ceab27f4e77c0c5d68
x   9dd4e461268c8034f5c8564e155c67a6
y   415290769594460e2e485922904f345d
z   fbade9e36a3f36d3d676c1b808451dd7
...

Kjetil S. · Answer 2 · 2019-08-03T08:27:15+08:00

Best Answer

Kjetil S.

2019-08-03T08:27:15+08:002019-08-03T08:27:15+08:00

这可能只是 perl 中的一个单行器：

head 80gb | perl -MDigest::MD5=md5_hex -nlE'say"$_\t".md5_hex($_)'
a       0cc175b9c0f1b6a831c399e269772661
b       92eb5ffee6ae2fec3ad71c777531578f
c       4a8a08f09d37b73795649038408b5f33
d       8277e0910d750195b448797616e091ad
e       e1671797c52e15f763380b45e841ec32
f       8fa14cdd754f91cc6554c9e71929cce7
g       b2f5ff47436671b6e533d8dc3614845d
h       2510c39011c5be704182423e3a695e91
i       865c0c0b4ab0e063e5caa3387c1a8741
j       363b122c528f54df4a0446b6bab05515

如果您需要存储输出并在咀嚼这个大块时想要一个漂亮的进度条：

sudo apt install pv          #ubuntu/debian
sudo yum install pv          #redhat/fedora
pv 80gb | perl -MDigest::MD5=md5_hex -nlE'say"$_\t".md5_hex($_)' | gzip -1 > 80gb-result.gz

3

Ole Tange · Answer 3 · 2018-01-17T08:11:58+08:00

Ole Tange

2018-01-17T08:11:58+08:002018-01-17T08:11:58+08:00

首先制作一个单线程程序 ( md5er)，它可以在给定输入的情况下生成正确的输出：

#!/usr/bin/python

import sys
import hashlib

for r in sys.stdin:
  print r[:-1], '\t', hashlib.md5(r[:-1]).hexdigest()

然后使用 GNU Parallel 将输入拆分为可以分发到计算服务器的块：

parallel --pipepart -a my80gb-file -Sworker1,worker2,worker3,: --block -10 md5er

2

计算文件中每一行的 md5sum

如何将 GPG 私钥和公钥导出到文件

ssh 无法协商：“找不到匹配的密码”，正在拒绝 cbc

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

如何卸载内核模块“nvidia-drm”？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

计算文件中每一行的 md5sum

3 个回答

相关问题