在 SPARK SQL 中逆透视列组

Question

user2153235

Asked: 2024-09-05 05:29:30 +0800 CST2024-09-05 05:29:30 +0800 CST 2024-09-05 05:29:30 +0800 CST

PySpark 窗口函数：如果 WindowSpec 具有排序，则聚合会有所不同

772

我正在研究PySpark 的聚合函数这个示例Window。

这是数据框：

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('SparkByExamples.com').getOrCreate()
simpleData = (("James", "Sales", 3000), \
    ("Michael", "Sales", 4600),  \
    ("Robert", "Sales", 4100),   \
    ("Maria", "Finance", 3000),  \
    ("James", "Sales", 3000),    \
    ("Scott", "Finance", 3300),  \
    ("Jen", "Finance", 3900),    \
    ("Jeff", "Marketing", 3000), \
    ("Kumar", "Marketing", 2000),\
    ("Saif", "Sales", 4100) \
  )
columns= ["employee_name", "department", "salary"]
df = spark.createDataFrame(data = simpleData, schema = columns)
+-------------+----------+------+
|employee_name|department|salary|
+-------------+----------+------+
|James        |Sales     |3000  |
|Michael      |Sales     |4600  |
|Robert       |Sales     |4100  |
|Maria        |Finance   |3000  |
|James        |Sales     |3000  |
|Scott        |Finance   |3300  |
|Jen          |Finance   |3900  |
|Jeff         |Marketing |3000  |
|Kumar        |Marketing |2000  |
|Saif         |Sales     |4100  |
+-------------+----------+------+

教程中的一个 WindowSpec 按“部门”对行进行分区，并按每个部门内的“薪水”排序：

from pyspark.sql.window import Window
windowSpec  = Window.partitionBy("department").orderBy("salary")

为了熟悉Window操作，我尝试添加一个列“MaxRowNum”，其中包含每个分区内的最大行数。为了方便起见，中间列“RowNum”包含每个分区内的行数：

from pyspark.sql.functions import row_number
df \
.withColumn('RowNum',row_number().over(windowSpec)) \
.withColumn('MaxRowNum',max(col('RowNum')).over(windowSpec)) \
.show()
+-------------+----------+------+------+---------+
|employee_name|department|salary|RowNum|MaxRowNum|
+-------------+----------+------+------+---------+
|        Maria|   Finance|  3000|     1|        1|
|        Scott|   Finance|  3300|     2|        2|
|          Jen|   Finance|  3900|     3|        3|
|        Kumar| Marketing|  2000|     1|        1|
|         Jeff| Marketing|  3000|     2|        2|
|        James|     Sales|  3000|     1|        2|
|        James|     Sales|  3000|     2|        2|
|       Robert|     Sales|  4100|     3|        4|
|         Saif|     Sales|  4100|     4|        4|
|      Michael|     Sales|  4600|     5|        5|
+-------------+----------+------+------+---------+

如上所示，“RowNum”值是正确的，但“MaxRowNum”不包含每个分区内的最大行数。它们仅包含行数，但绑定行除外，绑定行包含两个行数中较大的一个。

从本教程的后面部分开始，我发现了一个没有排序的 WindowSpec，它给了我正确的结果（参见“MaxRowCORRECT”列）：

windowSpecAgg  = Window.partitionBy("department") # No sorting

df.withColumn("row",row_number().over(windowSpec)) \
  .withColumn('MaxRowNum',max(col('row')).over(windowSpec)) \
  .withColumn("MaxRowCORRECT",max(col("row")).over(windowSpecAgg)) \
  .show()
+-------------+----------+------+---+---------+-------------+
|employee_name|department|salary|row|MaxRowNum|MaxRowCORRECT|
+-------------+----------+------+---+---------+-------------+
|        Maria|   Finance|  3000|  1|        1|            3|
|        Scott|   Finance|  3300|  2|        2|            3|
|          Jen|   Finance|  3900|  3|        3|            3|
|        Kumar| Marketing|  2000|  1|        1|            2|
|         Jeff| Marketing|  3000|  2|        2|            2|
|        James|     Sales|  3000|  1|        2|            5|
|        James|     Sales|  3000|  2|        2|            5|
|       Robert|     Sales|  4100|  3|        4|            5|
|         Saif|     Sales|  4100|  4|        4|            5|
|      Michael|     Sales|  4600|  5|        5|            5|
+-------------+----------+------+---+---------+-------------+

我的理解是，窗口聚合函数对每个分区的整体进行操作。上面的代码表明情况不一定如此。我浏览了 Windows 文档，但找不到这种条件行为的明确描述。

是否有一致且完整记录的 Windows 函数操作方案？我在文档中的哪个地方遗漏了它？

背景

根据mazaneicha 的回答，我意识到我需要了解窗口函数分类的背景知识。PySpark 链接到相关术语会产生空白页（currentRow、unboundedPreceding、 unboundedFollowing）。这些东西似乎来自 SQL。虽然我没有在rowFrame和上找到任何内容，但以下页面提供了上述其他术语的背景知识（ rowsBetweenrangeFrame的文档也是如此）：

1 个回答

Voted

mazaneicha · Answer 1 · 2024-09-05T10:25:34+08:00

Best Answer

mazaneicha

2024-09-05T10:25:34+08:002024-09-05T10:25:34+08:00

这是在对无序窗口进行聚合时使用不同默认值作为窗口框架的效果orderBy。根据Spark 在线文档：

当未定义排序时，默认使用无界窗口框架 (rowFrame、unboundedPreceding、unboundedFollowing)。当定义排序时，默认使用增长窗口框架 (rangeFrame、unboundedPreceding、 currentRow )。

因此，为了使其按照您的期望工作，您需要明确设置界限：

windowSpec = Window.partitionBy("department").orderBy("salary")
    .rowsBetween(Window.unboundedPreceding, Window.unboundedFollowing)

2

PySpark 窗口函数：如果 WindowSpec 具有排序，则聚合会有所不同

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

PySpark 窗口函数：如果 WindowSpec 具有排序，则聚合会有所不同

1 个回答

相关问题