我正在尝试使用 pyspark 中的多维数据集函数,但不包含多维数据集中的所有列。
我想要实现的 SQL 等效目标:
从表中按 col1、col2、col3、sum(col4) 分组,选择 col1、col2、col3
这将按 col1 以及 col2 和 col3 的所有组合对组进行分组
在 pyspark 中,运行以下命令时,我收到消息 GroupedData 对象没有属性“cube”
spark.table("table").groupBy(col1).cube(col2,col3).agg(sum(col4))
我可以使用 cube,但是我需要包含我不想要的 col1
spark.table("table").cube(col1,col2,col3).agg(sum(col4))
有两个选项: