可以从指针数组中的值初始化指针吗？

Question

smurphy

Asked: 2024-10-10 05:17:55 +0800 CST2024-10-10 05:17:55 +0800 CST 2024-10-10 05:17:55 +0800 CST

不使用正则表达式将字符串转换为数组 <string>

772

有没有一种方法可以在不使用正则表达式的情况下将字符串转换[R55, B66]回来array<string>？

设置

在此输出中，我们看到codes列是 StringType。StringType 是输出所必需的，但这使得用户使用输出更加困难。

样本输入数据

input_data = """[{
   "id":"1234",
   "code":"R55"
},{
   "id":"123",
   "code":"B66"
}]"""
input_df = spark.read.json(sc.parallelize([input_data]))

如何创建表格

output_df = input_df.groupBy('id').agg(F.array_agg('code').alias('codes'))
output_df = output_df.withColumn('codes', F.col('codes').cast("string"))

ID	代码
1234	[R55，B66]

# schema
root
 |-- id: string (nullable = true)
 |-- codes: string (nullable = false)

担忧

regexp 似乎是将string列转换回的唯一选项array<string>

什么有效

df = output_df.withColumn('codes_array', F.expr(r"regexp_extract_all(codes, '(\\w+)', 1)"))

ID	代码	代码数组
67550581	[IS0386085, IS0385475]	[IS0386085, IS0385475]

# schema
root
 |-- id: string (nullable = true)
 |-- codes: string (nullable = false)
 |-- codes_array: array (nullable = false)
 |    |-- element: string (containsNull = true)

什么不起作用

示例 1 - 返回 NULL

schema = T.ArrayType(T.StringType())
df = output_df.withColumn('codes_array', F.from_json(F.col('codes'), schema))\

ID	代码	代码数组
1234	[R55，B66]	无效的

# schema
root
 |-- ServiceActivityID: string (nullable = true)
 |-- correction_codes: string (nullable = false)
 |-- codes_array: array (nullable = false)
 |    |-- element: string (containsNull = true)

示例 2 - 返回错误消息

schema = T.ArrayType(T.StringType())
df = output_df.withColumn('codes_array', F.from_json(F.col('codes'), schema, {'mode': 'FAILFAST'}))

原因：org.apache.spark.sql.catalyst.util.BadRecordException：com.fasterxml.jackson.core.JsonParseException：无法识别的令牌“R55”：预期为（JSON 字符串、数字（或“NaN”/“INF”/“+INF”）、数组、对象或令牌“null”、“true”或“false”）

问题

有没有办法不使用正则表达式来读codes回该列？array<string>

或者有没有办法让codes列写入与非正则表达式函数一起使用的 StringType 格式（如from_json）？

（通过我目前的方法，似乎 spark 很乐意在一个方向上转换类型，但并没有将它们设置为能够轻松转换回来的格式。考虑到 StringType 约束，是否有更好的方法可以对该表进行读/写？）

1 个回答

Voted

过过招 · Answer 1 · 2024-10-10T09:03:57+08:00

Best Answer

过过招

2024-10-10T09:03:57+08:002024-10-10T09:03:57+08:00

直接使用生成的字符串cast('string')并不是标准的JSON字符串，可以使用to_json函数生成标准JSON字符串，然后使用from_json。

df = df.withColumn('codes', F.to_json('codes'))
df = df.withColumn('codes_array', F.from_json('codes', 'array<string>'))

2

不使用正则表达式将字符串转换为数组 <string>

设置

样本输入数据

如何创建表格

担忧

什么有效

什么不起作用

问题

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

不使用正则表达式将字符串转换为数组 <string>

设置

样本输入数据

如何创建表格

担忧

什么有效

什么不起作用

问题

1 个回答

相关问题