如何将 for 循环拆分为 3 个单独的数据框？

Question

Sebastian

Asked: 2024-03-27 19:06:23 +0800 CST2024-03-27 19:06:23 +0800 CST 2024-03-27 19:06:23 +0800 CST

跳过嵌套 JSON 级别并转换为 Pandas 数据帧

772

我有这样结构的 json 数据，我想将其转换为数据框：

{
    "data": {
        "1": {
            "Conversion": {
                "id": "1",
                "datetime": "2024-03-26 08:30:00"
            }
        },        
        "50": {
            "Conversion": {
                "id": "50",
                "datetime": "2024-03-27 09:00:00"
            }
        }
    }
}

我通常的方法是使用 json_normalize，如下所示：

df = pd.json_normalize(input['data'])

我的目标是拥有一个仅包含“id”和“datetime”列的表/数据框。

如何跳过数据下方的编号级别并直接进行转换？我会想象这样的事情（这显然不起作用）：

df = pd.json_normalize(input['data'][*]['Conversion'])

实现这一目标的最佳方法是什么？任何提示都非常感谢！

2 个回答

Voted

Martin Cook · Answer 1 · 2024-03-27T19:10:57+08:00

Martin Cook

2024-03-27T19:10:57+08:002024-03-27T19:10:57+08:00

您可以使用如下列表理解自行管理 json_normalise 的输入：

pd.json_normalize([v['Conversion'] for v in input['data'].values()])

3

jezrael · Answer 2 · 2024-03-27T19:13:08+08:00

您必须手动更改双重列表理解中的数据：

L = [b['Conversion'] for k, v in input['data'].items() for a, b in v.items()]
print (L)
[{'id': '1', 'datetime': '2024-03-26 08:30:00'}, 
 {'id': '50', 'datetime': '2024-03-27 09:00:00'}]


out = pd.json_normalize(L)
print (out)
   id             datetime
0   1  2024-03-26 08:30:00
1  50  2024-03-27 09:00:00

这里json_normalize不是必需的，工作DataFrame构造函数：

out = pd.DataFrame(L)
print (out)
   id             datetime
0   1  2024-03-26 08:30:00
1  50  2024-03-27 09:00:00

谢谢chepner 的另一个想法.values：

out = pd.json_normalize((b['Conversion'] for v in input['data'].values() 
                                         for b in v.values()))
print (out)
   id             datetime
0   1  2024-03-26 08:30:00
1  50  2024-03-27 09:00:00

out = pd.DataFrame((b['Conversion'] for v in input['data'].values() 
                                    for b in v.values()))
print (out)
   id             datetime
0   1  2024-03-26 08:30:00
1  50  2024-03-27 09:00:00

在json_normalizeis 参数中max_level，但工作方式不同：

要标准化的最大级别数（字典深度）。如果没有，则标准化所有级别。

out = pd.json_normalize(input['data'], max_level=1)
print (out)
                                              data.1  \
0  {'Conversion': {'id': '1', 'datetime': '2024-0...   

                                             data.50  
0  {'Conversion': {'id': '50', 'datetime': '2024-...  
                   
out = pd.json_normalize(input['data'], max_level=2)
print (out)
                                data.1.Conversion  \
0  {'id': '1', 'datetime': '2024-03-26 08:30:00'}   

                                data.50.Conversion  
0  {'id': '50', 'datetime': '2024-03-27 09:00:00'}  

out = pd.json_normalize(input['data'], max_level=3)
print (out)
  data.1.Conversion.id data.1.Conversion.datetime data.50.Conversion.id  \
0                    1        2024-03-26 08:30:00                    50   

  data.50.Conversion.datetime  
0         2024-03-27 09:00:00

跳过嵌套 JSON 级别并转换为 Pandas 数据帧

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

跳过嵌套 JSON 级别并转换为 Pandas 数据帧

2 个回答

相关问题