多操作系统环境的首选电子邮件客户端

Question

aosho235

Asked: 2016-05-31 21:06:02 +0800 CST2016-05-31 21:06:02 +0800 CST 2016-05-31 21:06:02 +0800 CST

GNU 并行没有充分利用我的 CPU

772

我在我的 36 核服务器（EC2 c4.8xlarge/Amazon Linux）上运行这样的命令。

find . -type f | parallel -j 36 mycommand

要处理的文件数量约为 1,000,000 个，需要几十分钟。它应该同时运行 36 个进程。但是，从的结果来看top，最多大约有 10 个进程，并且 70% 是空闲的。ps显示更多进程，但大多数已失效。

我猜是因为每个都mycommand完成得太快了，parallel无法赶上产生新进程的速度。所以我试图 parallel --nice 20为自己分配更多的 CPU 时间parallel，但这没有用。

有没有人有改善这个的想法？

$ parallel --version GNU parallel 20151022

3 个回答

Voted

Ole Tange · Answer 1 · 2016-06-01T14:19:27+08:00

Best Answer

Ole Tange

2016-06-01T14:19:27+08:002016-06-01T14:19:27+08:00

要处理的文件数量约为 1,000,000 个，需要几十分钟。

所以你每秒运行大约 600 个作业。单个 GNU Parallel 作业的开销大约为 2-5 毫秒，因此当您每秒获得超过 200 个作业时，如果不进行调整，GNU Parallel 将不会表现得更好。

调整是有更多parallel的并行产生工作。来自https://www.gnu.org/software/parallel/man.html#EXAMPLE:-Running-more-than-250-jobs-workaround

cat myinput | parallel --pipe -N 100 --round-robin -j50 parallel -j100 your_prg

这样，您将拥有 50 个 GNU Parallel，每个每秒可以产生 100 个作业。

3

Hristo Mohamed · Answer 2 · 2016-05-31T21:34:54+08:00

Hristo Mohamed

2016-05-31T21:34:54+08:002016-05-31T21:34:54+08:00

呃，如果我理解你的问题，你想同时处理所有文件吗？
parallel将启动的多个实例mycommand，而不是多个find实例。

0

Morpheu5 · Answer 3 · 2016-05-31T23:40:08+08:00

Morpheu5

2016-05-31T23:40:08+08:002016-05-31T23:40:08+08:00

您正在尝试打开一百万个文件，一次打开 36 个。即使您的命令可以在一个 CPU 上以全功率运行，您仍然会首先承担打开这些文件的开销。I/O 是计算机上最耗时的操作之一。您最好的选择是预先将尽可能多的这些文件加载到您机器的 RAM 中，并尽可能多地在 RAM 中工作。根据您拥有的 RAM 大小，这可能会显着提高性能，因为一旦开始读取，后续读取如果一个接一个地立即完成，则往往会利用缓存。您可能还想确保您的文件系统以一种缓存有效的方式放置文件，并且当涉及到多个后续读取时，它也是一个很好的文件系统。

我认为parallel这次重构不会对您有太大帮助。

0

GNU 并行没有充分利用我的 CPU

新安装后 postgres 的默认超级用户用户名/密码是什么？

SFTP 使用什么端口？

命令行列出 Windows Active Directory 组中的用户？

什么是 Pem 文件，它与其他 OpenSSL 生成的密钥文件格式有何不同？

如何确定bash变量是否为空？

GNU 并行没有充分利用我的 CPU

3 个回答

相关问题