如何将 for 循环拆分为 3 个单独的数据框？

Question

Derek

Asked: 2024-05-10 23:06:04 +0800 CST2024-05-10 23:06:04 +0800 CST 2024-05-10 23:06:04 +0800 CST

定义对等组并计算对等组分析

772

我想计算每个相关组的平均值。每个名称都有两个组和一个值。我想定义每个名称的相关组是什么，然后获取该相关组的平均值。理由是我想确保该组有足够的实例来计算我的平均值，以确保它有意义。

我的原始数据集：

a=pd.DataFrame({'Name':['Jack','Peter','Jim','Alex','Dan','Chris'],
              'Group':['A','B','C','C','A','A'],
              'Sub Group':['a','b','b','c','c','c'],
               'Value':[3,5,2,6,7,1]})

我的预期输出：

b=pd.DataFrame({'Name':['Jack','Peter','Jim','Alex','Dan','Chris'],
               'Label':['A',np.nan,np.nan,'c','A',' A'],
               'Average':[(3+7+1)/3,np.nan,np.nan,(6+7+1)/3,(3+7+1)/3,(3+7+1)/3]})

为了说明逻辑，这里是一个例子，我想首先检查每组中是否至少有三个人。我首先检查组，如果没有，则转到下一个子组。例如，Jack的“标签”为“A”，这是因为Group中有3个“A”，所以不需要检查Sub Group。对于Peter，我首先检查组中是否有“B”，没有。然后我进一步检查Sub Group中是否有三个“b”，也没有，所以Peter有一个NA的“标签”。对于Alex，按照同样的逻辑，组中只有两个“C”，所以我进入子组，子组中有三个“c”，所以Alex得到了“c”的“标签”。

至于平均值，Jack 得到的是“A”的平均值，即(3+7+1)/3，Alex 得到的是“c”的平均值，即(6+7+1)/3。

这就是我所做的：

a['Group Count']=a.groupby('Group')['Name'].transform('count')

a['Sub Group Count']=a.groupby('Sub Group')['Name'].transform('count')

a['Label']=np.where(a['Group Count']>=3,'Group', np.where(a['Sub Group Count']>=3,'Sub Group',np.nan))

a['Group Name']=np.where(a['Label']=='Group',a['Group'], np.where(a['Label']=='Sub Group',a['Sub Group'],np.nan))

group=a.groupby('Group')['Value'].mean().to_dict()

sub_group=a.groupby('Sub Group')['Value'].mean().to_dict()


a['Average']=np.where(a['Label']=='Group', a['Group Name'].map(group),
                      np.where( a['Label']=='Sub Group', a['Group Name'].map(sub_group),np.nan))

还有更优雅的解决方案吗？因为我在真实数据集中有多个组和十几个值，所以我需要计算平均值。

2 个回答

Voted

Milad Shani · Answer 1 · 2024-05-10T23:22:07+08:00

Milad Shani

2024-05-10T23:22:07+08:002024-05-10T23:22:07+08:00

您可以定义一个函数来进行计算并将其应用到数据框上。

# Function to calculate average based on group or subgroup
def calculate_average(group):
    if group['Group'].count() >= 3:
        return group['Value'].mean()
    elif group['Sub Group'].count() >= 3:
        return group['Value'].mean()
    else:
        return np.nan

然后使用它。如果您还希望它内联完成，这里是一个示例：

# Calculate averages
a['Average'] = a.groupby(['Group', 'Sub Group']).apply(calculate_average).reset_index(level=[0,1], drop=True)

# Reset Label for those groups that don't meet the threshold
a.loc[a['Average'].isna(), 'Label'] = np.nan

print(a[['Name', 'Label', 'Average']])

0

mozway · Answer 2 · 2024-05-11T00:46:54+08:00

您可以使用自定义函数groupby.transformandfunctools的reduceand partial：

from functools import reduce, partial

groups = ['Group', 'Sub Group']

def avg_thresh(g, col):
    t = a.groupby(col)['Value'].transform
    m = t('size')>=3
    return pd.DataFrame({'Name': g['Name'],
                         'Label': g[col].where(m),
                         'Average': t('mean').where(m) 
                        }, index=g.index)

out = reduce(lambda x,y: x.fillna(y), map(partial(avg_thresh, a), groups))

输出：

    Name Label   Average
0   Jack     A  3.666667
1  Peter   NaN       NaN
2    Jim   NaN       NaN
3   Alex     c  4.666667
4    Dan     A  3.666667
5  Chris     A  3.666667

请注意，组的顺序很重要，如果您使用groups = ['Sub Group', 'Group'], thenc将优先A于最后两行：

    Name Label   Average
0   Jack     A  3.666667
1  Peter   NaN       NaN
2    Jim   NaN       NaN
3   Alex     c  4.666667
4    Dan     c  4.666667
5  Chris     c  4.666667

您可以根据需要定义任意数量的组，使用下面的示例和groups = ['Group', 'Sub Group', 'Sub Sub Group']：

# input
    Name Group Sub Group  Sub Sub Group  Value
0   Jack     A         a              1      3
1  Peter     B         b              2      5
2    Jim     C         b              3      2
3   Alex     C         c              3      6
4    Dan     A         c              3      7
5  Chris     A         c              4      1

# output
    Name Label   Average
0   Jack     A  3.666667
1  Peter   NaN       NaN
2    Jim     3  5.000000
3   Alex     c  4.666667
4    Dan     A  3.666667
5  Chris     A  3.666667

保留原始列（组除外）的变体：

from functools import reduce, partial

groups = ['Group', 'Sub Group']

def avg_thresh(g, col):
    t = a.groupby(col)['Value'].transform
    m = t('size')>=3
    return pd.DataFrame({'Label': g[col].where(m),
                         'Average': t('mean').where(m) 
                        }, index=g.index)

out = (a.drop(columns=groups)
        .join(reduce(lambda x,y: x.fillna(y),
                     map(partial(avg_thresh, a), groups)))
      )

输出：

    Name  Value Label   Average
0   Jack      3     A  3.666667
1  Peter      5   NaN       NaN
2    Jim      2   NaN       NaN
3   Alex      6     c  4.666667
4    Dan      7     A  3.666667
5  Chris      1     A  3.666667

怎么运行的

对于 if 中的每个名称group计算有效组的平均值：

# avg_thresh(a, 'Group')
  Label   Average
0     A  3.666667
1   NaN       NaN
2   NaN       NaN
3   NaN       NaN
4     A  3.666667
5     A  3.666667   Label   Average

# avg_thresh(a, 'Sub Group')
0   NaN       NaN
1   NaN       NaN
2   NaN       NaN
3     c  4.666667
4     c  4.666667
5     c  4.666667

因此，您可以按顺序组合输出：

avg_thresh(a, 'Group').fillna(avg_thresh(a, 'Sub Group'))

  Label   Average
0     A  3.666667
1   NaN       NaN
2   NaN       NaN
3     c  4.666667
4     A  3.666667
5     A  3.666667

reduce将此逻辑自动化为任意数量的组，相当于：

avg_thresh(a, 'Group').fillna(avg_thresh(a, 'Sub Group')).fillna(avg_thresh(a, 'Sub Sub Group'))

并将partial该函数转换为绑定到（仅需要“col”）作为参数的avg_thresh函数。a

这些函数不是严格必需的，但有助于缩短代码。

定义对等组并计算对等组分析

怎么运行的

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

定义对等组并计算对等组分析

2 个回答

怎么运行的

相关问题