这是我的数据框:
import pandas as pd
df = pd.DataFrame({
'a': [10, 20, 30, 50, 50, 50, 4, 100],
'b': [30, 3, 200, 25, 24, 31, 29, 2],
'd': list('aaabbbcc')
})
预期输出:
a b d
0 10 30 a
1 20 3 a
2 30 200 a
按列分组d
。我想返回至少有两个此掩码实例的组
m = (df.b.gt(df.a))
这是我试过的。它有效,但我想知道是否有更好/更有效的方法来做到这一点。
out = df.groupby('d').filter(lambda x: len(x.loc[x.b.gt(x.a)]) >= 2)
和熊猫一起
您可以
groupby.transform
在掩码上使用sum
来生成布尔系列:输出:
中间体:
选择:
使用numpy
或者,可以
groupby
使用纯 numpy 来避免昂贵的成本。第一种方法
add.reduceat
要求各组是连续的:第二个
pandas.factorize
甚至numpy.bincount
可以与打乱顺序的组一起工作:中间体:
时间安排
包含 3 行 (排序成员) 的组:
包含 3 行的组 (打乱成员顺序;注意:不包括
reduceat
. ):固定数量为 20 个组(大小大致相同),且成员连续:
固定有 20 个组 (大小大致相等),组员随机排序 (注意:不包括
reduceat
. ):