在 SPARK SQL 中逆透视列组

Question

xsa xsa

Asked: 2024-12-10 12:38:32 +0800 CST2024-12-10 12:38:32 +0800 CST 2024-12-10 12:38:32 +0800 CST

pyspark 数据框转换

772

我有一个如下的数据框：

f1     |f2
=========
test   | [{"f3": 1, "f4": "f4_1" }, {"f3": 2, "f4": "f4_2" }]

f2是对象列表

我想要获得如下所示的数据框：

f3|f4    | temp_col
=========================
1 |"f4_1"| {"f1": "test"}
2 |"f4_2"| {"f1": "test"}

temp_col是我提供的名字。

我如何使用 pyspark 来实现这一点？

我曾尝试json_normalize通过转换为 pandas df 来使用，但没有效果。

2 个回答

Voted

vht981230 · Answer 1 · 2024-12-10T12:58:09+08:00

vht981230

2024-12-10T12:58:09+08:002024-12-10T12:58:09+08:00

您可以使用sc.parallelize来实现

import pyspark
from pyspark.sql import SparkSession
from pyspark.sql import Row
from collections import OrderedDict

def convert_to_row(d: dict) -> Row:
    return Row(**OrderedDict(sorted(d.items())))

spark = SparkSession.builder.appName('examples.com').getOrCreate()
sc = spark.sparkContext

data = {
 "f1": "test",
 "f2":[{"f3": 1, "f4": "f4_1" }, {"f3": 2, "f4": "f4_2" }]
}

df = sc.parallelize([dict(x, **{"temp_col": {"f1": data["f1"]}}) for x in data["f2"]]).map(convert_to_row).toDF()

df.show()

0

eshirvana · Answer 2 · 2024-12-10T13:20:57+08:00

Best Answer

eshirvana

2024-12-10T13:20:57+08:002024-12-10T13:20:57+08:00

如果你已经将 json 加载到 spark df 中，可以采用以下方法：

result_df = df.withColumn("f2", explode(df.f2)).select(
    "f2.f3",
    "f2.f4",
    struct(col("f1")).alias("temp_col"),
)

输出：

f3  f4  temp_col
1   f4_1    {"f1":"test"}
2   f4_2    {"f1":"test"}

0

pyspark 数据框转换

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

pyspark 数据框转换

2 个回答

相关问题