我有一个 pyspark 数据框,其中包含一些 ID 数据和 2 个位置列,这些列是用逗号分隔的字符串:
ID | 国家 | 城市 |
---|---|---|
1 | 美国、墨西哥 | 加利福尼亚州、墨西哥城 |
2 | 德国、法国、瑞典 | 慕尼黑、巴黎、斯德哥尔摩 |
我想分解这些列,使它们成为新行:
ID | 国家 | 城市 |
---|---|---|
1 | 美国 | 加利福尼亚州 |
1 | 墨西哥 | 墨西哥城 |
2 | 德国 | 慕尼黑 |
2 | 法国 | 巴黎 |
2 | 瑞典 | 斯德哥尔摩 |
我怎样才能实现这个目标?
我有一个 pyspark 数据框,其中包含一些 ID 数据和 2 个位置列,这些列是用逗号分隔的字符串:
ID | 国家 | 城市 |
---|---|---|
1 | 美国、墨西哥 | 加利福尼亚州、墨西哥城 |
2 | 德国、法国、瑞典 | 慕尼黑、巴黎、斯德哥尔摩 |
我想分解这些列,使它们成为新行:
ID | 国家 | 城市 |
---|---|---|
1 | 美国 | 加利福尼亚州 |
1 | 墨西哥 | 墨西哥城 |
2 | 德国 | 慕尼黑 |
2 | 法国 | 巴黎 |
2 | 瑞典 | 斯德哥尔摩 |
我怎样才能实现这个目标?
我们将使用以下组合:
假设
df
是你的数据框: