hhp

Asked: 2023-11-27 21:51:44 +0800 CST2023-11-27 21:51:44 +0800 CST 2023-11-27 21:51:44 +0800 CST

将多个字符串列分解为行

我有一个 pyspark 数据框，其中包含一些 ID 数据和 2 个位置列，这些列是用逗号分隔的字符串：

ID	国家	城市
1	美国、墨西哥	加利福尼亚州、墨西哥城
2	德国、法国、瑞典	慕尼黑、巴黎、斯德哥尔摩

我想分解这些列，使它们成为新行：

ID	国家	城市
1	美国	加利福尼亚州
1	墨西哥	墨西哥城
2	德国	慕尼黑
2	法国	巴黎
2	瑞典	斯德哥尔摩

我怎样才能实现这个目标？

1 个回答

Voted

Best Answer

Steven

2023-11-27T22:27:52+08:002023-11-27T22:27:52+08:00

我们将使用以下组合：

假设df是你的数据框：

df = df.withColumn(
    "data", F.explode(F.arrays_zip(F.split("Country", ","), F.split("City", ",")))
)

df.select(
    "ID", 
    F.col("data.0").alias("country"), 
    F.col("data.1").alias("city"),
).show()

+---+-------+-----------+
| ID|country|       city|
+---+-------+-----------+
|  1|    USA| California|
|  1| Mexico|Mexico City|
|  2|Germany|     Munich|
|  2| France|      Paris|
|  2| Sweden|  Stockholm|
+---+-------+-----------+

将多个字符串列分解为行

使用 <font color="#xxx"> 突出显示 html 中的代码

为什么在传递 {} 时重载解析更喜欢 std::nullptr_t 而不是类？

您可以使用花括号初始化列表作为（默认）模板参数吗？

为什么列表推导式在内部创建一个函数？

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

java.lang.NoSuchMethodError: 'void org.openqa.selenium.remote.http.ClientConfig.<init>(java.net.URI, java.time.Duration, java.time.Duratio

为什么 'char -> int' 是提升，而 'char -> Short' 是转换（但不是提升）？

为什么库中不调用全局变量的构造函数？

std::common_reference_with 在元组上的行为不一致。哪个是对的？

C++17 中 std::byte 只能按位运算？

将多个字符串列分解为行

1 个回答

相关问题