在 SPARK SQL 中逆透视列组

Question

Pirvu Georgian

Asked: 2025-04-15 17:45:25 +0800 CST2025-04-15 17:45:25 +0800 CST 2025-04-15 17:45:25 +0800 CST

使用 Coalesce 在 Databricks 上实现自适应查询执行 Spark

772

AQE - Adaptive Query Execution作为工程师，当我们谈论Spark/Databricks时，我们可能会忽略一些事情：

如果您使用coalesce()AQE 来减少分区，AQE 将不会对其进行任何操作。它不会检测倾斜，不会重新分区，也不会进行优化。因为它coalesce()不会执行完全重排（例如repartition()），而是合并现有分区而不进行重新分配。这就是数据倾斜会在之后悄然出现coalesce()并中断或减慢作业速度的原因。我发现文档有点不清楚。AQE 会在您执行触发repartition()完全重排的操作后进行干预。这是正确的理解吗？文档似乎对这种情况不太清楚。

1 个回答

Voted

Ged · Answer 1 · 2025-04-16T00:54:40+08:00

Best Answer

Ged

2025-04-16T00:54:40+08:002025-04-16T00:54:40+08:00

是的，你的断言/问题是正确的。

Coalesce(n)并不像repartition(n)您所说的那样，会导致大范围/完全的改组。这是一种合并。

因此，没有信号发送给 Catalyst 进行运行时优化以查看是否AQE可以应用 - 因为没有检测到完整的改组，这可以作为优化、调用的先决条件AQE。JOINs 和groupBy()其他前兆。

注意：存在一些移动，因此需要重新分配数据coalesce(n)。

1

使用 Coalesce 在 Databricks 上实现自适应查询执行 Spark

重新格式化数字，在固定位置插入分隔符

为什么 C++20 概念会导致循环约束错误，而老式的 SFINAE 不会？

VScode 自动卸载扩展的问题（Material 主题）

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

使用 Coalesce 在 Databricks 上实现自适应查询执行 Spark

1 个回答

相关问题