我有一个如下的数据框:
f1 |f2
=========
test | [{"f3": 1, "f4": "f4_1" }, {"f3": 2, "f4": "f4_2" }]
f2
是对象列表
我想要获得如下所示的数据框:
f3|f4 | temp_col
=========================
1 |"f4_1"| {"f1": "test"}
2 |"f4_2"| {"f1": "test"}
temp_col
是我提供的名字。
我如何使用 pyspark 来实现这一点?
我曾尝试json_normalize
通过转换为 pandas df 来使用,但没有效果。
您可以使用sc.parallelize来实现
如果你已经将 json 加载到 spark df 中,可以采用以下方法:
输出: