将 Clickhouse 数据目录挂载到另一个分区：DB::Exception: Settings profile `default` not found

Question

AmyChodorowski

Asked: 2021-08-20 03:47:14 +0800 CST2021-08-20 03:47:14 +0800 CST 2021-08-20 03:47:14 +0800 CST

Clickhouse 优化重复数据删除的性能

772

我想尝试了解ClickhouseOPTIMIZE中查询的性能。

我计划在从 a 批量插入后立即使用它删除重复项MergeTree，因此我可以选择：

OPTIMIZE TABLE db.table DEDUPLICATE

或者

OPTIMIZE TABLE db.table FINAL DEDUPLICATE

我知道第一个状态仅在插入尚未合并的情况下对插入进行重复数据删除，而第二个状态将对整个表执行重复数据删除。但是我担心性能；从OPTIMIZE TABLE db.table FINAL DEDUPLICATE对不同大小表的脏分析中，我可以看到随着表变大（0.1M 行为 0.1s，0.3M 行为 1s，10M 行为 12s），它会呈指数级恶化。我假设OPTIMIZE TABLE db.table DEDUPLICATE是基于插入大小和表大小，所以应该更具性能吗？

谁能指出一些关于这些表演的文献？

此外，如果我用替换表，这些问题会消失ReplacingMergeTree吗？我想同样的过程会在幕后发生，所以不管怎样都无所谓。

1 个回答

Voted

vladimir · Answer 1 · 2021-08-23T20:40:23+08:00

Best Answer

vladimir

2021-08-23T20:40:23+08:002021-08-23T20:40:23+08:00

你确定：

无法更改摄取管道以避免/减少重复？
重复很关键？它们会影响度量计算还是消耗更多的磁盘存储空间？

呼唤

OPTIMIZE TABLE db.table FINAL DEDUPLICATE

定期绝对是一个坏方法（它优化了整个表） - 考虑限制受影响的行（参见PARTITION参数）或列（参见COLUMNS参数）的范围。

我会考虑使用 [only] ReplacingMergeTree -引擎，该引擎旨在在“本机”合并期间对行进行重复数据删除（对于 OPTIMIZE 的情况，不是手动的）。

查看附加信息：

2

Clickhouse 优化重复数据删除的性能

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

Clickhouse 优化重复数据删除的性能

1 个回答

相关问题