user1783504

Asked: 2024-11-01 01:16:02 +0800 CST2024-11-01 01:16:02 +0800 CST 2024-11-01 01:16:02 +0800 CST

Pyspark-立方体聚合

我正在尝试使用 pyspark 中的多维数据集函数，但不包含多维数据集中的所有列。

我想要实现的 SQL 等效目标：

从表中按 col1、col2、col3、sum(col4) 分组，选择 col1、col2、col3

这将按 col1 以及 col2 和 col3 的所有组合对组进行分组

在 pyspark 中，运行以下命令时，我收到消息 GroupedData 对象没有属性“cube”

spark.table("table").groupBy(col1).cube(col2,col3).agg(sum(col4))

我可以使用 cube，但是我需要包含我不想要的 col1

spark.table("table").cube(col1,col2,col3).agg(sum(col4))

1 个回答

Voted

Best Answer

werner

2024-11-01T03:42:51+08:002024-11-01T03:42:51+08:00

有两个选项：

使用 SQL：

spark.sql("""
    col1, col2, col3, sum(col4)
    from table 
    group by col1, cube(col2, col3)
""").show()

使用 Dataframe API 并过滤掉额外的维度：

from pyspark.sql import functions as F

spark.table("data") \
    .cube("col1", "col2", "col3") \
    .agg(F.sum("col4")) \
    .where(F.col("col1").isNotNull()) \
    .show()

Pyspark-立方体聚合

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

Pyspark-立方体聚合

1 个回答

相关问题