Como divido o loop for em 3 quadros de dados individuais?

Question

Derek

Asked: 2024-05-10 23:06:04 +0800 CST2024-05-10 23:06:04 +0800 CST 2024-05-10 23:06:04 +0800 CST

Definir grupo de pares e calcular análises de grupo de pares

772

Gostaria de calcular a média para cada grupo relevante. Cada nome possui dois grupos e um valor. Quero definir qual é o grupo relevante para cada nome e depois obter a média do valor desse grupo relevante. A justificativa é que quero ter certeza de que há instâncias suficientes para que esse grupo calcule minha média para ter certeza de que ela é significativa.

Meu conjunto de dados brutos:

a=pd.DataFrame({'Name':['Jack','Peter','Jim','Alex','Dan','Chris'],
              'Group':['A','B','C','C','A','A'],
              'Sub Group':['a','b','b','c','c','c'],
               'Value':[3,5,2,6,7,1]})

Meu resultado esperado:

b=pd.DataFrame({'Name':['Jack','Peter','Jim','Alex','Dan','Chris'],
               'Label':['A',np.nan,np.nan,'c','A',' A'],
               'Average':[(3+7+1)/3,np.nan,np.nan,(6+7+1)/3,(3+7+1)/3,(3+7+1)/3]})

Para ilustrar a lógica, aqui está o exemplo, quero primeiro verificar se há pelo menos três pessoas em cada grupo. Eu primeiro verifico o Grupo, se não, vou para o próximo Subgrupo. Por exemplo, Jack tem um "Rótulo" de "A", isso ocorre porque há três "A" no Grupo, portanto não há necessidade de verificar o Subgrupo. Para o Peter, primeiro verifico se tem “B” no Grupo, não tem. Depois vou verificar se há três “b” no Subgrupo, também não existe, então Peter tem um “Rótulo” de NA. Para Alex, pela mesma lógica, existem apenas dois "C" no Grupo, então vou para o Subgrupo, há três "c" no Subgrupo, então Alex obteve um "Rótulo" de "c".

Quanto ao valor médio, Jack obteve a média de “A”, que é (3+7+1)/3, Alex obteve a média de “c”, que é (6+7+1)/3.

Isto é o que eu fiz:

a['Group Count']=a.groupby('Group')['Name'].transform('count')

a['Sub Group Count']=a.groupby('Sub Group')['Name'].transform('count')

a['Label']=np.where(a['Group Count']>=3,'Group', np.where(a['Sub Group Count']>=3,'Sub Group',np.nan))

a['Group Name']=np.where(a['Label']=='Group',a['Group'], np.where(a['Label']=='Sub Group',a['Sub Group'],np.nan))

group=a.groupby('Group')['Value'].mean().to_dict()

sub_group=a.groupby('Sub Group')['Value'].mean().to_dict()


a['Average']=np.where(a['Label']=='Group', a['Group Name'].map(group),
                      np.where( a['Label']=='Sub Group', a['Group Name'].map(sub_group),np.nan))

Existe alguma solução mais elegante? Porque tenho vários grupos em um conjunto de dados real e uma dúzia de valores para os quais preciso calcular a média.

2 respostas

Voted

Milad Shani · Answer 1 · 2024-05-10T23:22:07+08:00

Milad Shani

2024-05-10T23:22:07+08:002024-05-10T23:22:07+08:00

Você pode definir uma função para fazer o cálculo e aplicá-la ao seu quadro de dados.

# Function to calculate average based on group or subgroup
def calculate_average(group):
    if group['Group'].count() >= 3:
        return group['Value'].mean()
    elif group['Sub Group'].count() >= 3:
        return group['Value'].mean()
    else:
        return np.nan

Então use-o. Se você também quiser que seja feito inline, aqui está um exemplo:

# Calculate averages
a['Average'] = a.groupby(['Group', 'Sub Group']).apply(calculate_average).reset_index(level=[0,1], drop=True)

# Reset Label for those groups that don't meet the threshold
a.loc[a['Average'].isna(), 'Label'] = np.nan

print(a[['Name', 'Label', 'Average']])

0

mozway · Answer 2 · 2024-05-11T00:46:54+08:00

Você pode usar uma função personalizada groupby.transforme functools's reducee partial:

from functools import reduce, partial

groups = ['Group', 'Sub Group']

def avg_thresh(g, col):
    t = a.groupby(col)['Value'].transform
    m = t('size')>=3
    return pd.DataFrame({'Name': g['Name'],
                         'Label': g[col].where(m),
                         'Average': t('mean').where(m) 
                        }, index=g.index)

out = reduce(lambda x,y: x.fillna(y), map(partial(avg_thresh, a), groups))

Saída:

    Name Label   Average
0   Jack     A  3.666667
1  Peter   NaN       NaN
2    Jim   NaN       NaN
3   Alex     c  4.666667
4    Dan     A  3.666667
5  Chris     A  3.666667

Observe que a ordem dos grupos é importante, se você usar groups = ['Sub Group', 'Group'], cterá prioridade Anas 2 últimas linhas:

    Name Label   Average
0   Jack     A  3.666667
1  Peter   NaN       NaN
2    Jim   NaN       NaN
3   Alex     c  4.666667
4    Dan     c  4.666667
5  Chris     c  4.666667

Você pode definir quantos grupos desejar, seguindo o exemplo abaixo e groups = ['Group', 'Sub Group', 'Sub Sub Group']:

# input
    Name Group Sub Group  Sub Sub Group  Value
0   Jack     A         a              1      3
1  Peter     B         b              2      5
2    Jim     C         b              3      2
3   Alex     C         c              3      6
4    Dan     A         c              3      7
5  Chris     A         c              4      1

# output
    Name Label   Average
0   Jack     A  3.666667
1  Peter   NaN       NaN
2    Jim     3  5.000000
3   Alex     c  4.666667
4    Dan     A  3.666667
5  Chris     A  3.666667

Variante para manter as colunas originais (exceto os grupos):

from functools import reduce, partial

groups = ['Group', 'Sub Group']

def avg_thresh(g, col):
    t = a.groupby(col)['Value'].transform
    m = t('size')>=3
    return pd.DataFrame({'Label': g[col].where(m),
                         'Average': t('mean').where(m) 
                        }, index=g.index)

out = (a.drop(columns=groups)
        .join(reduce(lambda x,y: x.fillna(y),
                     map(partial(avg_thresh, a), groups)))
      )

Saída:

    Name  Value Label   Average
0   Jack      3     A  3.666667
1  Peter      5   NaN       NaN
2    Jim      2   NaN       NaN
3   Alex      6     c  4.666667
4    Dan      7     A  3.666667
5  Chris      1     A  3.666667

Como funciona

Para cada nome em groupif calcule a média nos grupos válidos:

# avg_thresh(a, 'Group')
  Label   Average
0     A  3.666667
1   NaN       NaN
2   NaN       NaN
3   NaN       NaN
4     A  3.666667
5     A  3.666667   Label   Average

# avg_thresh(a, 'Sub Group')
0   NaN       NaN
1   NaN       NaN
2   NaN       NaN
3     c  4.666667
4     c  4.666667
5     c  4.666667

Então você pode combinar as saídas em ordem com:

avg_thresh(a, 'Group').fillna(avg_thresh(a, 'Sub Group'))

  Label   Average
0     A  3.666667
1   NaN       NaN
2   NaN       NaN
3     c  4.666667
4     A  3.666667
5     A  3.666667

reduceautomatiza essa lógica para um número arbitrário de grupos, equivalente a:

avg_thresh(a, 'Group').fillna(avg_thresh(a, 'Sub Group')).fillna(avg_thresh(a, 'Sub Sub Group'))

E partialtransforme a função avg_threshem uma função vinculada a(exigindo apenas "col") como parâmetro.

Essas funções não são estritamente necessárias, mas ajudam a tornar o código mais curto.

Definir grupo de pares e calcular análises de grupo de pares

Como funciona

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Definir grupo de pares e calcular análises de grupo de pares

2 respostas

Como funciona

relate perguntas