在 SPARK SQL 中逆透视列组

Question

smurphy

Asked: 2024-08-10 07:21:04 +0800 CST2024-08-10 07:21:04 +0800 CST 2024-08-10 07:21:04 +0800 CST

与我上一个滞后值位于同一行的另一列的值

772

我有一个时间序列数据集。我希望创建一个新列来表示最后报告的（非空）值。我想我已经弄清楚了这部分，使用lag和的组合last

我还想知道最后报告的（非空）值的时间戳。我从不希望timestamp_ms它是空的，尽管它val可以是空的。

示例数据

df = spark.createDataFrame([
    Row(timestamp_ms=1672531200000, val='19'),
    Row(timestamp_ms=1672532100000, val='20'),
    Row(timestamp_ms=1672533000000, val=None),
    Row(timestamp_ms=1672533900000, val='22'),
    Row(timestamp_ms=1672534800000, val=None),
    Row(timestamp_ms=1672535700000, val=None),
    Row(timestamp_ms=1672536600000, val='25'),
    Row(timestamp_ms=1672537500000, val='20'),
    Row(timestamp_ms=1672538400000, val='27')
])
df.show()

示例代码

返回最后的滞后值并尝试返回报告该值的时间戳。

df_lag = df.withColumn("lag_prev_val", F.lag("val")\
                                    .over(Window.partitionBy()\
                                    .orderBy("timestamp_ms"))
                         )\
            .withColumn("last_lag_prev_val", F.last("lag_prev_val", True)\
                                    .over(Window.partitionBy()\
                                    .orderBy("timestamp_ms"))
                         )\
            .withColumn("last_lag_prev_time", F.lag("timestamp_ms")\
                                .over(Window.partitionBy()\
                                .orderBy("timestamp_ms"))
                     )
df_lag.show()

电流输出

last_lag_prev_time表示先前报告的时间戳，而不是与last_lag_prev_val

时间戳毫秒	瓦尔	lag_prev_val	last_lag_prev_val	last_lag_prev_time
1672531200000	19	无效的	无效的	无效的
1672532100000	20	19	19	1672531200000
1672533000000	无效的	20	20	1672532100000
1672533900000	22	无效的	20	1672533000000
1672534800000	无效的	22	22	1672533900000
1672535700000	无效的	无效的	22	1672534800000
1672536600000	二十五	无效的	22	1672535700000
1672537500000	20	二十五	二十五	1672536600000
1672538400000	二十七	20	20	1672537500000

理想输出

我想要的输出（加粗差异）是用于last_lag_prev_time表示与用于填充“last_lag_prev_val”的timestamp_ms原始值来自同一行的列val

时间戳毫秒	瓦尔	lag_prev_val	last_lag_prev_val	last_lag_prev_time
1672531200000	19	无效的	无效的	无效的
1672532100000	20	19	19	1672531200000
1672533000000	无效的	20	20	1672532100000
1672533900000	22	无效的	20	1672532100000
1672534800000	无效的	22	22	1672533900000
1672535700000	无效的	无效的	22	1672533900000
1672536600000	二十五	无效的	22	1672533900000
1672537500000	20	二十五	二十五	1672536600000
1672538400000	二十七	20	20	1672537500000

1 个回答

Voted

Derek O · Answer 1 · 2024-08-10T08:34:36+08:00

一种解决方案是仅考虑没有的行中的时间戳，val即NULL，我们可以通过创建一个名为的列来实现val_timestamp_ms。然后我们可以从这个新列中获取最后一个时间戳并应用滞后。例如：

df.withColumn("lag_prev_val", F.lag("val")\
                                    .over(Window.partitionBy()\
                                    .orderBy("timestamp_ms"))
                         )\
            .withColumn("last_lag_prev_val", F.last("lag_prev_val", True)\
                                    .over(Window.partitionBy()\
                                    .orderBy("timestamp_ms"))
                         )\
            .withColumn("val_timestamp_ms", F.when(F.col("val").isNull(), None)\
                                .otherwise(F.col("timestamp_ms"))
                         )\
            .withColumn("last_prev_time", F.last("val_timestamp_ms", True)\
                                    .over(Window.partitionBy()\
                                    .orderBy("timestamp_ms"))
                         )\
            .withColumn("last_lag_prev_time", F.lag("last_prev_time")\
                                    .over(Window.partitionBy()\
                                    .orderBy("timestamp_ms"))
                         )

+-------------+----+------------+-----------------+----------------+--------------+------------------+
| timestamp_ms| val|lag_prev_val|last_lag_prev_val|val_timestamp_ms|last_prev_time|last_lag_prev_time|
+-------------+----+------------+-----------------+----------------+--------------+------------------+
|1672531200000|  19|        NULL|             NULL|   1672531200000| 1672531200000|              NULL|
|1672532100000|  20|          19|               19|   1672532100000| 1672532100000|     1672531200000|
|1672533000000|NULL|          20|               20|            NULL| 1672532100000|     1672532100000|
|1672533900000|  22|        NULL|               20|   1672533900000| 1672533900000|     1672532100000|
|1672534800000|NULL|          22|               22|            NULL| 1672533900000|     1672533900000|
|1672535700000|NULL|        NULL|               22|            NULL| 1672533900000|     1672533900000|
|1672536600000|  25|        NULL|               22|   1672536600000| 1672536600000|     1672533900000|
|1672537500000|  20|          25|               25|   1672537500000| 1672537500000|     1672536600000|
|1672538400000|  27|          20|               20|   1672538400000| 1672538400000|     1672537500000|
+-------------+----+------------+-----------------+----------------+--------------+------------------+

与我上一个滞后值位于同一行的另一列的值

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

与我上一个滞后值位于同一行的另一列的值

1 个回答

相关问题