如何将 for 循环拆分为 3 个单独的数据框？

Question

Derek

Asked: 2024-10-11 08:13:27 +0800 CST2024-10-11 08:13:27 +0800 CST 2024-10-11 08:13:27 +0800 CST

根据条件进行分组和聚合

772

我的输入数据：

df=pd.DataFrame({'ID':['A','B','C','D'],
                 'Group':['group1','group1','group2','group2'],
                 'Flag_1':[1,0,0,1],
                 'Flag_2':[1,1,0,1],
                 'Value':[30,40,60,70]
                })

当标志等于 1 时，我尝试将每个组的“值”相加。我的预期输出是：

df_value_group=pd.DataFrame({
                 'Flag_1 Sum':[1,1],
                 'Flag_2 Sum':[2,1],
                 'Value_1 Sum':[30,70],
                 'Value_2 Sum':[70,70]},                 
    index=['group1','group2'])

我尝试过这个但是它抛出了一个 AssertionError 错误，主要是由于后两个 lambda 函数。

df.groupby('Group').agg(
    **{ 'Flag_1 Sum': ('Flag_1','sum'),
        'Flag_2 Sum': ('Flag_2','sum'),
        'Value_1 Sum': ('Flag_1', lambda col: df.loc[col.eq(1), 'Value'].sum()),
        'Value_2 Sum': ('Flag_2', lambda col: df.loc[col.eq(1), 'Value'].sum())
})

4 个回答

Voted

sammywemmy · Answer 1 · 2024-10-11T08:40:12+08:00

sammywemmy

2024-10-11T08:40:12+08:002024-10-11T08:40:12+08:00

更有效的形式是在分组之前计算布尔值：

flags=df.assign(value_1_sum=df.loc[df.Flag_1.eq(1),'Value'],   
                value_2_sum = df.loc[df.Flag_2.eq(1),'Value'])

flags

  ID   Group  Flag_1  Flag_2  Value  value_1_sum  value_2_sum
0  A  group1       1       1     30         30.0         30.0
1  B  group1       0       1     40          NaN         40.0
2  C  group2       0       0     60          NaN          NaN
3  D  group2       1       1     70         70.0         70.0

flags.groupby('Group').sum(numeric_only=True)
        Flag_1  Flag_2  Value  value_1_sum  value_2_sum
Group
group1       1       2     70         30.0         70.0
group2       1       1    130         70.0         70.0

1

mozway · Answer 2 · 2024-10-11T13:25:55+08:00

对于通用方法，您可以使用自定义groupby.agg（命名聚合）：

cols = df.columns[df.columns.str.startswith('Flag_')]
val = df['Value']

out = (df.groupby('Group', as_index=False)
         .agg(**({f'{c} Sum': (c, lambda x: x.sum()) for c in cols}
                |{f'Value{c[4:]} Sum': (c, lambda x: val[x.index][x==1].sum())
                  for c in cols}
                )
             )
      )

注意：lambda x: val[x.index][x==1].sum()可以用代替lambda x: val.where(x==1).sum()。

或者用重塑melt并聚合pivot_table：

tmp = (df
   .melt(['ID', 'Group', 'Value'], var_name='flag', value_name='bool')
   .query('bool == 1')
   .pivot_table(index='Group',
                columns='flag',
                aggfunc='sum',
                fill_value=0,
                )
 )

out = (pd.concat([tmp['bool'],
                  tmp['Value'].rename(columns=lambda x: x.replace('Flag', 'Value'))
                  ], axis=1)
         .reset_index()
         .rename_axis(columns=None)
       )

输出：

    Group  Flag_1  Flag_2  Value_1  Value_2
0  group1       1       2       30       70
1  group2       1       1       70       70

e-motta · Answer 3 · 2024-10-11T08:30:58+08:00

e-motta

2024-10-11T08:30:58+08:002024-10-11T08:30:58+08:00

您想要聚合'Value'，而不是'Flag_X'

df_value_group = df.groupby('Group').agg(
    **{ 'Flag_1 Sum': ('Flag_1','sum'),
        'Flag_2 Sum': ('Flag_2','sum'),
        'Value_1 Sum': ('Value', lambda x: x[df['Flag_1'] == 1].sum()),
        'Value_2 Sum': ('Value', lambda x: x[df['Flag_2'] == 1].sum())
})

        Flag_1 Sum  Flag_2 Sum  Value_1 Sum  Value_2 Sum
Group                                                   
group1           1           2           30           70
group2           1           1           70           70

0

Panda Kim · Answer 4 · 2024-10-11T08:48:49+08:00

使用where函数创建 lambda 函数

cond1 = df['Flag_1'].eq(1)
cond2 = df['Flag_2'].eq(1)

out = df.groupby('Group').agg(
    **{ 'Flag_1 Sum': ('Flag_1','sum'),
        'Flag_2 Sum': ('Flag_2','sum'),
        'Value_1 Sum': ('Value', lambda x: x.where(cond1).sum()),
        'Value_2 Sum': ('Value', lambda x: x.where(cond2).sum())
})

出去：

        Flag_1 Sum  Flag_2 Sum  Value_1 Sum  Value_2 Sum
Group                                                   
group1           1           2           30           70
group2           1           1           70           70

如果有很多列与之对应Flag，或者整行很长并且效率很重要，则最好为每个列创建一个groupby，然后使用concat函数。

cols = df.columns[df.columns.str.contains('Flag')]

out = pd.concat([
    df.groupby('Group')[cols].sum().add_suffix(' Sum'),
    df[cols].mul(df['Value'], axis=0)
    .groupby(df['Group']).sum()
    .rename(lambda x: x.replace('Flag', 'Value') + ' Sum', axis=1)
], axis=1)

相同的结果

根据条件进行分组和聚合

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

根据条件进行分组和聚合

4 个回答

相关问题