Azure SQL DW 是否支持分区视图？

Question

Neil P

Asked: 2018-05-19 01:38:59 +0800 CST2018-05-19 01:38:59 +0800 CST 2018-05-19 01:38:59 +0800 CST

为什么循环分布更适合偏斜数据集？

772

我有一个倾斜的数据集，其中大多数行落入我的最佳候选分布键的最大 10 个值中。我的数据由两个大表组成，它们只共享两个键——我最好的候选键，再加上另一个，但那个键在 80% 的时间里是空的，所以我把它作为一个选项打折了。

传统观点认为，如果数据有偏差，我应该使用循环分布。查看表上连接生成的解释计划，我看到我的候选列是随机移动的随机键。这让我怀疑我是否应该将分布从循环法更改为散列分布，从而节省每次执行时移动数据所需的时间。

我的逻辑正确吗？我觉得这与使用分布式 sql 时的传统观念背道而驰。我不希望有任何不需要此连接的查询，因此其他人可能会从中看到好处。

1 个回答

Voted

wBob · Answer 1 · 2018-05-19T03:42:37+08:00

Best Answer

wBob

2018-05-19T03:42:37+08:002018-05-19T03:42:37+08:00

循环法因其性质而总是需要数据移动，但它不一定会对您的性能造成灾难性影响。将它用于偏斜数据的原因是，当您按哈希分布时，会为每个值生成一个唯一的哈希值，并相应地在 60 个分布中分布行。在您的示例中，您的大部分数据将最终分布在一个（或仅几个）分布上，因此您没有利用可用的计算。假设您只有机会利用 20% 的可用计算资源，其余的都是闲置的。

好的哈希列的要求是：它们应该是不可更新的，不可为空的，应该有大量不同的值并且分布均匀。

您是否可以选择从其他密钥创建串联密钥？这有助于创建更均匀的分布，并且只要您在两个表之间的连接中使用它就会很有用。

只是一些其他建议，为您的关键查询设计，使用 SQL DW 中提供的一些其他功能，如正确的 DWU、资源类、非聚集索引、自动统计。另请注意，第二代 SQL DW现在可用。

HTH

2

为什么循环分布更适合偏斜数据集？

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

为什么循环分布更适合偏斜数据集？

1 个回答

相关问题