我在旧服务器上发现了一个旧代码,该代码使用 openpyxl 从大约 20 列和 >60K 行的数据集中逐项写入 Excel 文件。它通过自己填充每个单元格来做到这一点(缓慢的方式,但也不那么慢,因为整个事情在几分钟后完成,并且单元格的格式):
cell = ws.cell('%s%s' % (col_idx, i + 3))
cell.value = unicode(value).encode("utf-8")
get_style(cell, "content", column_colors[col_id])
在大约 59K 行时,它崩溃了,控制台打印:
Killed
日志显示:
Received SIGTERM, shutting down.
SIGTERM 提示内存太少,以便服务器“从外部”终止任务。它是一个虚拟机。使用该命令检查内存free
表明,通过将该小数据集(服务器上的 20 MB)写入 Excel,所有可用的 3.5 GB 都已被使用。
我在运行时检查了它,发现:500 MB 只是为了配置文件,每 10K 行 700 MB。写入数据集会导致:
需要 60 x 700 + 500 = 4700 MB 可用 RAM,而 VM 只有 3.5 GB。对于输出中这么小的文件,这应该足够了。最后的输出大约是一个 20 MB 的工作簿。输出的 Excel 版本应该是 2007 或 2010,因为它在 Python 2.73 上运行并且使用过时的旧代码。
为什么使用 Python 的 openpyxl 模块写入 20 MB 工作簿会占用千兆字节的 RAM?
众所周知,openpyxl 需要大量 RAM 来读取/写入 Excel 文件:
根据关于性能的 openpyxl 文档,可以通过这种方式计算一般 RAM 使用量。
在您的情况下,该值似乎更高,可能是您的用法不同或文档中的值已过时。
但文档还包含如何优化的提示,从而减少 RAM 使用:
安装 Python 包lxml - 如果安装了该包,它将被使用。特别推荐在编写“大”Excel 文件时使用。
使用只写模式