在 cygwin/XP 下安装完整 Python 的最佳方式？

Question

questionto42standswithUkraine

Asked: 2022-08-25 11:07:07 +0800 CST2022-08-25 11:07:07 +0800 CST 2022-08-25 11:07:07 +0800 CST

为什么使用 Python 的 openpyxl 模块写入几 MB 的工作簿会占用千兆字节的 RAM？

772

我在旧服务器上发现了一个旧代码，该代码使用 openpyxl 从大约 20 列和 >60K 行的数据集中逐项写入 Excel 文件。它通过自己填充每个单元格来做到这一点（缓慢的方式，但也不那么慢，因为整个事情在几分钟后完成，并且单元格的格式）：

cell = ws.cell('%s%s' % (col_idx, i + 3))
cell.value = unicode(value).encode("utf-8")
get_style(cell, "content", column_colors[col_id])

在大约 59K 行时，它崩溃了，控制台打印：

Killed

日志显示：

Received SIGTERM, shutting down.

SIGTERM 提示内存太少，以便服务器“从外部”终止任务。它是一个虚拟机。使用该命令检查内存free表明，通过将该小数据集（服务器上的 20 MB）写入 Excel，所有可用的 3.5 GB 都已被使用。

我在运行时检查了它，发现：500 MB 只是为了配置文件，每 10K 行 700 MB。写入数据集会导致：

需要 60 x 700 + 500 = 4700 MB 可用 RAM，而 VM 只有 3.5 GB。对于输出中这么小的文件，这应该足够了。最后的输出大约是一个 20 MB 的工作簿。输出的 Excel 版本应该是 2007 或 2010，因为它在 Python 2.73 上运行并且使用过时的旧代码。

为什么使用 Python 的 openpyxl 模块写入 20 MB 工作簿会占用千兆字节的 RAM？

0 个回答

Voted

Robert · Answer 1 · 2022-08-26T08:57:55+08:00

Best Answer

Robert

2022-08-26T08:57:55+08:002022-08-26T08:57:55+08:00

众所周知，openpyxl 需要大量 RAM 来读取/写入 Excel 文件：

根据关于性能的 openpyxl 文档，可以通过这种方式计算一般 RAM 使用量。

与其他库和应用程序相比，内存使用率相当高，大约是原始文件大小的 50 倍，例如 50 MB Excel 文件需要 2.5 GB。

在您的情况下，该值似乎更高，可能是您的用法不同或文档中的值已过时。

但文档还包含如何优化的提示，从而减少 RAM 使用：

安装 Python 包lxml - 如果安装了该包，它将被使用。特别推荐在编写“大”Excel 文件时使用。
使用只写模式

1

为什么使用 Python 的 openpyxl 模块写入几 MB 的工作簿会占用千兆字节的 RAM？

新安装后 postgres 的默认超级用户用户名/密码是什么？

SFTP 使用什么端口？

命令行列出 Windows Active Directory 组中的用户？

什么是 Pem 文件，它与其他 OpenSSL 生成的密钥文件格式有何不同？

如何确定bash变量是否为空？

为什么使用 Python 的 openpyxl 模块写入几 MB 的工作簿会占用千兆字节的 RAM？

0 个回答

相关问题