smurphy提出的问题 -coding

smurphy

Asked: 2025-01-09 11:25:08 +0800 CST

根据另一列中提供的列名数组创建具有值的列

6

我想创建一个新列，其中包含列中列出的列名的值数组lookup。

示例输入

input_df = spark.createDataFrame([
    Row(id=123, alert=1, operation=1, lookup=[]),
    Row(id=234, alert=0, operation=0, lookup=['alert']),
    Row(id=345, alert=1, operation=0, lookup=['operation']),
    Row(id=456, alert=0, operation=1, lookup=['alert', 'operation']),
])

预期输出

ID	警报	手术	抬头	查找值
123	1	1	`[]`	`[]`
234	0	0	`[alert]`	`[0]`
345	1	0	`[operation]`	`[0]`
456	0	1	`[alert, operation]`	`[0, 1]`

我尝试过

input_df.withColumn("lookup_values", F.transform(F.col("lookup"), lambda x: input_df[f'{x}'])).show()

失败并出现以下错误：

AnalysisException：[UNRESOLVED_COLUMN.WITH_SUGGESTION] 无法解析名称为的列或函数参数Column<'x_1'>。您是指下列之一吗？[ id, alert, operation, lookup]。

这个错误令人惊讶，因为下面的代码虽然没有产生预期的结果，但却没有产生错误：

input_df.withColumn("lookup_values", F.transform(F.col("lookup"), lambda x: input_df['alert'])).show()

ID	警报	手术	抬头	查找值
123	1	1	`[]`	`[]`
234	0	0	`[alert]`	`[0]`
345	1	0	`[operation]`	`[1]`
456	0	1	`[alert, operation]`	`[0, 0]`

smurphy

Asked: 2024-10-10 05:17:55 +0800 CST

不使用正则表达式将字符串转换为数组 <string>

5

有没有一种方法可以在不使用正则表达式的情况下将字符串转换[R55, B66]回来array<string>？

设置

在此输出中，我们看到codes列是 StringType。StringType 是输出所必需的，但这使得用户使用输出更加困难。

样本输入数据

input_data = """[{
   "id":"1234",
   "code":"R55"
},{
   "id":"123",
   "code":"B66"
}]"""
input_df = spark.read.json(sc.parallelize([input_data]))

如何创建表格

output_df = input_df.groupBy('id').agg(F.array_agg('code').alias('codes'))
output_df = output_df.withColumn('codes', F.col('codes').cast("string"))

ID	代码
1234	[R55，B66]

# schema
root
 |-- id: string (nullable = true)
 |-- codes: string (nullable = false)

担忧

regexp 似乎是将string列转换回的唯一选项array<string>

什么有效

df = output_df.withColumn('codes_array', F.expr(r"regexp_extract_all(codes, '(\\w+)', 1)"))

ID	代码	代码数组
67550581	[IS0386085, IS0385475]	[IS0386085, IS0385475]

# schema
root
 |-- id: string (nullable = true)
 |-- codes: string (nullable = false)
 |-- codes_array: array (nullable = false)
 |    |-- element: string (containsNull = true)

什么不起作用

示例 1 - 返回 NULL

schema = T.ArrayType(T.StringType())
df = output_df.withColumn('codes_array', F.from_json(F.col('codes'), schema))\

ID	代码	代码数组
1234	[R55，B66]	无效的

# schema
root
 |-- ServiceActivityID: string (nullable = true)
 |-- correction_codes: string (nullable = false)
 |-- codes_array: array (nullable = false)
 |    |-- element: string (containsNull = true)

示例 2 - 返回错误消息

schema = T.ArrayType(T.StringType())
df = output_df.withColumn('codes_array', F.from_json(F.col('codes'), schema, {'mode': 'FAILFAST'}))

原因：org.apache.spark.sql.catalyst.util.BadRecordException：com.fasterxml.jackson.core.JsonParseException：无法识别的令牌“R55”：预期为（JSON 字符串、数字（或“NaN”/“INF”/“+INF”）、数组、对象或令牌“null”、“true”或“false”）

问题

有没有办法不使用正则表达式来读codes回该列？array<string>

或者有没有办法让codes列写入与非正则表达式函数一起使用的 StringType 格式（如from_json）？

（通过我目前的方法，似乎 spark 很乐意在一个方向上转换类型，但并没有将它们设置为能够轻松转换回来的格式。考虑到 StringType 约束，是否有更好的方法可以对该表进行读/写？）

smurphy

Asked: 2024-08-10 07:21:04 +0800 CST

与我上一个滞后值位于同一行的另一列的值

6

我有一个时间序列数据集。我希望创建一个新列来表示最后报告的（非空）值。我想我已经弄清楚了这部分，使用lag和的组合last

我还想知道最后报告的（非空）值的时间戳。我从不希望timestamp_ms它是空的，尽管它val可以是空的。

示例数据

df = spark.createDataFrame([
    Row(timestamp_ms=1672531200000, val='19'),
    Row(timestamp_ms=1672532100000, val='20'),
    Row(timestamp_ms=1672533000000, val=None),
    Row(timestamp_ms=1672533900000, val='22'),
    Row(timestamp_ms=1672534800000, val=None),
    Row(timestamp_ms=1672535700000, val=None),
    Row(timestamp_ms=1672536600000, val='25'),
    Row(timestamp_ms=1672537500000, val='20'),
    Row(timestamp_ms=1672538400000, val='27')
])
df.show()

示例代码

返回最后的滞后值并尝试返回报告该值的时间戳。

df_lag = df.withColumn("lag_prev_val", F.lag("val")\
                                    .over(Window.partitionBy()\
                                    .orderBy("timestamp_ms"))
                         )\
            .withColumn("last_lag_prev_val", F.last("lag_prev_val", True)\
                                    .over(Window.partitionBy()\
                                    .orderBy("timestamp_ms"))
                         )\
            .withColumn("last_lag_prev_time", F.lag("timestamp_ms")\
                                .over(Window.partitionBy()\
                                .orderBy("timestamp_ms"))
                     )
df_lag.show()

电流输出

last_lag_prev_time表示先前报告的时间戳，而不是与last_lag_prev_val

时间戳毫秒	瓦尔	lag_prev_val	last_lag_prev_val	last_lag_prev_time
1672531200000	19	无效的	无效的	无效的
1672532100000	20	19	19	1672531200000
1672533000000	无效的	20	20	1672532100000
1672533900000	22	无效的	20	1672533000000
1672534800000	无效的	22	22	1672533900000
1672535700000	无效的	无效的	22	1672534800000
1672536600000	二十五	无效的	22	1672535700000
1672537500000	20	二十五	二十五	1672536600000
1672538400000	二十七	20	20	1672537500000

理想输出

我想要的输出（加粗差异）是用于last_lag_prev_time表示与用于填充“last_lag_prev_val”的timestamp_ms原始值来自同一行的列val

时间戳毫秒	瓦尔	lag_prev_val	last_lag_prev_val	last_lag_prev_time
1672531200000	19	无效的	无效的	无效的
1672532100000	20	19	19	1672531200000
1672533000000	无效的	20	20	1672532100000
1672533900000	22	无效的	20	1672532100000
1672534800000	无效的	22	22	1672533900000
1672535700000	无效的	无效的	22	1672533900000
1672536600000	二十五	无效的	22	1672533900000
1672537500000	20	二十五	二十五	1672536600000
1672538400000	二十七	20	20	1672537500000

根据另一列中提供的列名数组创建具有值的列

示例输入

预期输出

我尝试过

不使用正则表达式将字符串转换为数组 <string>

设置

样本输入数据

如何创建表格

担忧

什么有效

什么不起作用

问题

与我上一个滞后值位于同一行的另一列的值

重新格式化数字，在固定位置插入分隔符

为什么 C++20 概念会导致循环约束错误，而老式的 SFINAE 不会？

VScode 自动卸载扩展的问题（Material 主题）

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

smurphy's questions

示例输入

预期输出

我尝试过

设置

样本输入数据

如何创建表格

担忧

什么有效

什么不起作用

问题