如何将 for 循环拆分为 3 个单独的数据框？

Question

new world

Asked: 2024-09-23 21:03:54 +0800 CST2024-09-23 21:03:54 +0800 CST 2024-09-23 21:03:54 +0800 CST

将熊猫数据框从长变宽[重复]

772

具有以下格式的数据框

data = {'regions':["USA", "USA", "USA", "FRANCE", "FRANCE","FRANCE"],
        'dates':['2024-08-03', '2024-08-10', '2024-08-17','2024-08-03', '2024-08-10', '2024-08-17'], 
        'values': [3, 4, 5, 7, 8,0],
        }
df = pd.DataFrame(data)
    regions     dates   values
0   USA     2024-08-03  3
1   USA     2024-08-10  4
2   USA     2024-08-17  5
3   FRANCE  2024-08-03  7
4   FRANCE  2024-08-10  8
5   FRANCE  2024-08-17  0

需要将此 df 从长格式更改为宽格式。使用最近的日期作为当前日期，其他两个日期将是滞后日期。预期输出如下

regions       dates       values_lag2     values_lag1  values
USA           2024-08-17  3               4             5
FRANCE        2024-08-17  7               8             0

目前我使用 for 循环手动更改格式。只是想知道是否有更优雅的方法来实现它。谢谢

2 个回答

Voted

Serge de Gosson de Varennes · Answer 1 · 2024-09-23T21:10:12+08:00

Serge de Gosson de Varennes

2024-09-23T21:10:12+08:002024-09-23T21:10:12+08:00

你可以使用pivot_table：

import pandas as pd

data = {'regions': ["USA", "USA", "USA", "FRANCE", "FRANCE", "FRANCE"],
        'dates': ['2024-08-03', '2024-08-10', '2024-08-17', '2024-08-03', '2024-08-10', '2024-08-17'], 
        'values': [3, 4, 5, 7, 8, 0],
       }

df = pd.DataFrame(data)
df['dates'] = pd.to_datetime(df['dates'])
df = df.sort_values(by=['regions', 'dates'])
wide_df = df.pivot_table(index='regions', columns='dates', values='values')
wide_df.columns = ['values_lag2', 'values_lag1', 'values']
wide_df = wide_df.reset_index()

给出

  regions  values_lag2  values_lag1  values
0  FRANCE            7            8       0
1     USA            3            4       5

2

jezrael · Answer 2 · 2024-09-23T21:11:49+08:00

如果每个列的日期regions可能相同，则将列转换为日期时间，进行数据透视，更改列名称并添加具有最大dates 的列：

df['dates'] = pd.to_datetime(df['dates'])

out = df.pivot(index='regions', columns='dates', values='values')
out.columns = [f'values_lag{i-1}' if i!=1 else 'values' 
               for i in range(len(out.columns), 0, -1)]

out = df.groupby('regions')['dates'].max().to_frame().join(out).reset_index()
print (out)
  regions       dates  values_lag2  values_lag1  values
0  FRANCE  2024-08-17            7            8       0
1     USA  2024-08-17            3            4       5

另一个想法是，如果可能的话，不同的日期时间只需要排序、添加排序、计数器groupby.cumcount和使用辅助列进行旋转g：

df['dates'] = pd.to_datetime(df['dates'])
df = df.sort_values(['regions', 'dates'])

df['g'] = df.groupby('regions').cumcount(ascending=False)

out = (df.pivot(index='regions', columns='g', values='values')
         .sort_index(ascending=False, axis=1))
out.columns=[f'values_lag{i}' if i!=0 else 'values' for i in out.columns]

out = df.groupby('regions')['dates'].max().to_frame().join(out).reset_index()
print (out)
  regions      dates  values_lag2  values_lag1  values
0  FRANCE 2024-08-17            7            8       0
1     USA 2024-08-17            3            4       5

将熊猫数据框从长变宽[重复]

为什么要通过 where 子句中绑定的通用特征来约束单位类型（如 `where () : Trait<…>`）？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

如果 T 既不可构造、不可复制、也不可移动，那么我可以拥有 std::optional<T> 吗？

为什么我可以定义一个 constinit 的 std::string 实例？如果对象需要动态初始化，constinit 不是被禁止的吗？

如何分配以后放置的新“如同新”

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

将熊猫数据框从长变宽[重复]

2 个回答

相关问题