Derek提出的问题 -coding

Derek

Asked: 2024-10-11 08:13:27 +0800 CST

根据条件进行分组和聚合

6

我的输入数据：

df=pd.DataFrame({'ID':['A','B','C','D'],
                 'Group':['group1','group1','group2','group2'],
                 'Flag_1':[1,0,0,1],
                 'Flag_2':[1,1,0,1],
                 'Value':[30,40,60,70]
                })

当标志等于 1 时，我尝试将每个组的“值”相加。我的预期输出是：

df_value_group=pd.DataFrame({
                 'Flag_1 Sum':[1,1],
                 'Flag_2 Sum':[2,1],
                 'Value_1 Sum':[30,70],
                 'Value_2 Sum':[70,70]},                 
    index=['group1','group2'])

我尝试过这个但是它抛出了一个 AssertionError 错误，主要是由于后两个 lambda 函数。

df.groupby('Group').agg(
    **{ 'Flag_1 Sum': ('Flag_1','sum'),
        'Flag_2 Sum': ('Flag_2','sum'),
        'Value_1 Sum': ('Flag_1', lambda col: df.loc[col.eq(1), 'Value'].sum()),
        'Value_2 Sum': ('Flag_2', lambda col: df.loc[col.eq(1), 'Value'].sum())
})

Derek

Asked: 2024-05-10 23:06:04 +0800 CST

定义对等组并计算对等组分析

6

我想计算每个相关组的平均值。每个名称都有两个组和一个值。我想定义每个名称的相关组是什么，然后获取该相关组的平均值。理由是我想确保该组有足够的实例来计算我的平均值，以确保它有意义。

我的原始数据集：

a=pd.DataFrame({'Name':['Jack','Peter','Jim','Alex','Dan','Chris'],
              'Group':['A','B','C','C','A','A'],
              'Sub Group':['a','b','b','c','c','c'],
               'Value':[3,5,2,6,7,1]})

我的预期输出：

b=pd.DataFrame({'Name':['Jack','Peter','Jim','Alex','Dan','Chris'],
               'Label':['A',np.nan,np.nan,'c','A',' A'],
               'Average':[(3+7+1)/3,np.nan,np.nan,(6+7+1)/3,(3+7+1)/3,(3+7+1)/3]})

为了说明逻辑，这里是一个例子，我想首先检查每组中是否至少有三个人。我首先检查组，如果没有，则转到下一个子组。例如，Jack的“标签”为“A”，这是因为Group中有3个“A”，所以不需要检查Sub Group。对于Peter，我首先检查组中是否有“B”，没有。然后我进一步检查Sub Group中是否有三个“b”，也没有，所以Peter有一个NA的“标签”。对于Alex，按照同样的逻辑，组中只有两个“C”，所以我进入子组，子组中有三个“c”，所以Alex得到了“c”的“标签”。

至于平均值，Jack 得到的是“A”的平均值，即(3+7+1)/3，Alex 得到的是“c”的平均值，即(6+7+1)/3。

这就是我所做的：

a['Group Count']=a.groupby('Group')['Name'].transform('count')

a['Sub Group Count']=a.groupby('Sub Group')['Name'].transform('count')

a['Label']=np.where(a['Group Count']>=3,'Group', np.where(a['Sub Group Count']>=3,'Sub Group',np.nan))

a['Group Name']=np.where(a['Label']=='Group',a['Group'], np.where(a['Label']=='Sub Group',a['Sub Group'],np.nan))

group=a.groupby('Group')['Value'].mean().to_dict()

sub_group=a.groupby('Sub Group')['Value'].mean().to_dict()


a['Average']=np.where(a['Label']=='Group', a['Group Name'].map(group),
                      np.where( a['Label']=='Sub Group', a['Group Name'].map(sub_group),np.nan))

还有更优雅的解决方案吗？因为我在真实数据集中有多个组和十几个值，所以我需要计算平均值。

Derek

Asked: 2023-08-19 01:43:02 +0800 CST

拆分数据框中的条目[重复]

5

这是我的示例数据：

df=pd.DataFrame({'Name':['A,B','C','D','E,F,G']
              ,'Age':[4,6,8,9]})

我的预期输出是如果有多个名称，则拆分条目。

pd.DataFrame({'Name':['A','B','C','D','E','F','G']
              ,'Age':[4,4,6,8,9,9,9]})

我只能拆分名称，但现在不知道如何使其重复条目。对于第一行，名称下有 A，B，所以我想将其分成两个单独的行，A 和 B 的年龄都是 4。同样，E，F，G 的年龄都是 9，所以我想转换这一排分成三排，年龄相同，均为 9 岁。

df['Name'].apply(lambda x : x.split(','))

根据条件进行分组和聚合

定义对等组并计算对等组分析

拆分数据框中的条目[重复]

重新格式化数字，在固定位置插入分隔符

为什么 C++20 概念会导致循环约束错误，而老式的 SFINAE 不会？

VScode 自动卸载扩展的问题（Material 主题）

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

Derek's questions