我可以在使用数据库后激活 PITR 吗？

Question

Asked: 2024-05-17 18:58:20 +0800 CST2024-05-17 18:58:20 +0800 CST 2024-05-17 18:58:20 +0800 CST

在 AWS Aurora PostgreSQL 中更新 10 亿行的最有效方法？

772

我使用 AWS 管理的 Aurora PostgreSQL v15 实例作为大量 S3 对象的目录。该level1_dataset表约有 20 亿行，其架构有一个metadataJSONB 列。一个旧的软件错误导致在不应该写入元数据时将字符串null写入列（而不是将其保留为空）。metadata大约十亿行包含刺null，我想用以下方法清理它：

UPDATE public.level1_dataset
SET "metadata" = NULL
WHERE "metadata"::text = 'null';

该数据库托管在db.r6g.2xlarge具有 8 个 vCPU 核心和 64 GB 内存的计算机上。通过此设置，并将所有调整保留为默认值，我得到了大约 42 秒/百万行。可以为此清理任务临时更改 CPU 核心和内存。

最有效的方法是什么？

更新：@laurenz-albe 的方法之一是分批进行。我就是这样做的，因为就我而言，“id”是 UUID，而不是整数。在我的用例中，SELECT 有 10% 的损失。

UPDATE public.level1_dataset
SET "metadata" = NULL
WHERE "id" IN (SELECT "id"
    FROM public.level1_dataset
    WHERE "metadata"::text = 'null'
    LIMIT 10000000);

1 个回答

Voted

Laurenz Albe · Answer 1 · 2024-05-17T19:17:25+08:00

最快的方法可能是

CREATE TABLE xy AS
SELECT NULLIF(metadata, 'null') AS metadata, ...
FROM level1_dataset;

DROP TABLE level1_dataset;

ALTER TABLE xy RENAME TO level1_dataset;

但这需要你抽出时间。

除此之外，批量更新和VACUUM更新之间：

UPDATE public.level1_dataset
SET "metadata" = NULL
WHERE "metadata"::text = 'null'
AND id BETWEEN 1 AND 10000000;

VACUUM public.level1_dataset;

UPDATE public.level1_dataset
SET "metadata" = NULL
WHERE "metadata"::text = 'null'
AND id BETWEEN 10000001 AND 20000000;

VACUUM public.level1_dataset;

...

在 AWS Aurora PostgreSQL 中更新 10 亿行的最有效方法？

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

在 AWS Aurora PostgreSQL 中更新 10 亿行的最有效方法？

1 个回答

相关问题