我一直在尝试将 ImageMagick 与 OpenCL 一起使用来加快批量调整图像的大小。
为此,我在 Amazon EC2 上启动了一个GPU 实例(g2.2xlarge),根据 AWS,它的特点是:
高性能 NVIDIA GPU,每个都具有 1,536 个 CUDA 内核和 4GB 显存
我为 GPU 实例使用了特定的 AMI,即NVIDIA 提供的带有 NVIDIA GRID GPU 驱动程序的 Amazon Linux AMI。
使用 OpenMP
在从源代码编译 ImageMagick 之前,作为比较的基础,我尝试了仅支持 OpenMP 的内置 ImageMagick:
$ convert --version
Version: ImageMagick 6.7.8-9 2015-10-08 Q16 http://www.imagemagick.org
Copyright: Copyright (C) 1999-2012 ImageMagick Studio LLC
Features: OpenMP
我将50 Mpx JPEG 图像的大小调整为其大小的 25%,并对其进行计时:
$ time convert -resize 1158x1737 01.jpg 01b.jpg
real 0m1.371s
user 0m5.388s
sys 0m0.204s
我已经运行了几次以确保时间一致(特别是因为 ImageMagick 在首次使用时执行了设备性能基准测试)。
使用 OpenCL
然后我下载了ImageMagick 源代码,并编译了它们:
$ export C_INCLUDE_PATH=/opt/nvidia/cuda/include
$ ./configure --enable-opencl
$ make
我前往已编译的二进制文件,并检查 OpenCL 现在是否已启用:
$ ./convert --version
Version: ImageMagick 6.9.2-5 Q16 x86_64 2015-11-08 http://www.imagemagick.org
Copyright: Copyright (C) 1999-2015 ImageMagick Studio LLC
License: http://www.imagemagick.org/script/license.php
Features: Cipher DPC OpenCL OpenMP
然后运行基准测试:
$ time ./convert -resize 1158x1737 01.jpg 01b.jpg
real 0m2.655s
user 0m1.720s
sys 0m0.928s
再次,我运行了几次以确保时间是一致的。
令我惊讶的是,这是仅使用 OpenMP 的版本的一半速度。
试图理解它
正如这个 StackOverflow 答案中所建议的,我检查了 ImageMagick 设备基准文件:
$ cat ~/.cache/ImageMagick/ImagemagickOpenCLDeviceProfile
<version>ImageMagick Device Selection v0.9</version>
<device><type></type><name>GRID K520</name><driver>340.32</driver><max cu>8</max cu><max clock>797</max clock><score>0.2780</score></device>
<device><type></type><score>1.4140</score></device>
注意:此文件仅在我运行 ImageMagick 的编译版本时创建;出于某种原因,它不是在我运行 Amazon Linux 附带的版本时创建的。
所以当我读到它时,ImageMagick 可以使用两种设备:
- GPU,识别为NVIDIA GRID K520,得分为 0.278
- 未知设备(CPU?),得分为 1.414
据我了解,这里的 CPU 胜过 GPU。
好的,CPU 还不错(E5-2670 @ 2.60GHz),但 GPU 在它的领域里是相当的野兽。
我的问题
- 编译后的 ImageMagick 版本怎么能比 Amazon Linux 附带的版本快一半?
- CPU 如何在 ImageMagick 基准测试中胜过 GPU?
欢迎任何提示以恢复预期的 GPU 性能。
使用 OpenCL 时,它不是不同的初始化,而是额外的初始化;它总是需要更长的时间。我们当然已经预编译了内核,但只是加载库、制作命令队列、加载内核……这一切都需要时间。不幸的是,“OpenCL 模式”不太适合这种一次性命令行使用。可以一次初始化 ImageMagick 库并多次调用该库的应用程序或持久服务器会做得很好。
您正在阅读错误的信息。较低的分数意味着设备速度更快。GPU 速度快了近 6 倍。在这种情况下,术语 score 可能会令人困惑,因此我们可能希望在 ImageMagick 的未来版本中重命名它。