detcle提出的问题 -coding

detcle

Asked: 2025-02-25 20:44:24 +0800 CST

repartition() 是否在触发操作之前始终进行随机排序

我读到 repartition() 将被延迟评估，因为它是一种转换，并且转换仅在操作上触发。

但是，我认为在基于列值进行任何重新分区之前，Spark 必须先加载所有数据。换句话说，我的理解是，所有数据仍将按原样加载，不进行任何重新分区或优化，只有这样 Spark 才会进行重新分区。并且无论如何，repartition() 都会始终对数据进行混洗，即使在触发任何操作之前调用它也是如此。我的理解正确吗？

df = spark.createDataFrame(data, ["id", "name", "age"])
repartitioned_df = df.repartition("age")
... # action triggered later

repartition() 是否在触发操作之前始终进行随机排序

为什么 C++20 概念会导致循环约束错误，而老式的 SFINAE 不会？

VScode 自动卸载扩展的问题（Material 主题）

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

detcle's questions