Como divido o loop for em 3 quadros de dados individuais?

Question

Bijan

Asked: 2024-12-05 01:53:18 +0800 CST2024-12-05 01:53:18 +0800 CST 2024-12-05 01:53:18 +0800 CST

Filtro Pandas e soma, mas aplica a todas as linhas

772

Tenho um dataframe que contém ID de usuário, código e valor.

user    code    value
0001       P       10
0001       P       20
0001       N       10
0002       N       40
0002       N       30
0003       P       10

Estou tentando adicionar uma nova coluna que agrupa por ID de usuário, filtra por código = Pe soma o valor. No entanto, quero que esse valor seja aplicado a cada linha.

Então, para o exemplo acima, a saída que estou procurando seria:

user    code    value    Sum_of_P
0001       P       10          30
0001       P       20          30
0001       N       10          30
0002       N       40           0
0002       N       30           0
0003       P       10          10

Tentei fazer isso df['Sum_of_P'] = df.loc[df['code'] == 'P', 'value'].groupby(df['user']).transform('sum'), mas isso se aplica apenas às linhas com código = P. Existe uma maneira de fazer com que isso se aplique a todas as linhas?

2 respostas

Voted

mozway · Answer 1 · 2024-12-05T02:02:43+08:00

Best Answer

mozway

2024-12-05T02:02:43+08:002024-12-05T02:02:43+08:00

Use uma máscara e whereem vez de loc:

df['Sum_of_P'] = (df['value'].where(df['code'].eq('P'), 0)
                  .groupby(df['user']).transform('sum')
                 )

Variante com NaNs como valores mascarados:

df['Sum_of_P'] = (df['value'].where(df['code'].eq('P'))
                  .groupby(df['user']).transform('sum')
                  .convert_dtypes()
                 )

Se você quiser usar, locvocê deve agregar em vez de transform, então mapos valores do grupo:

s = df.loc[df['code'] == 'P'].groupby('user')['value'].sum()
df['Sum_of_P'] = df['user'].map(s).fillna(0).convert_dtypes()

Saída:

   user code  value  Sum_of_P
0     1    P     10        30
1     1    P     20        30
2     1    N     10        30
3     2    N     40         0
4     2    N     30         0
5     3    P     10        10

3

samhita · Answer 2 · 2024-12-05T04:40:16+08:00

samhita

2024-12-05T04:40:16+08:002024-12-05T04:40:16+08:00

Uma abordagem ligeiramente diferente

Filtre o dataframe onde code == 'P'e então agrupe por usuário para somar o valor e criar um novo dataframe

sum_p = df[df['code'] == 'P'].groupby('user')['value'].sum().reset_index()
sum_p = sum_p.rename(columns={'value': 'Sum_of_P'})

Em seguida, mescle-o de volta ao df original

df = df.merge(sum_p, on='user', how='left')
df['Sum_of_P'] = df['Sum_of_P'].fillna(0).astype(int)

Saída

   user code  value  Sum_of_P
0  0001    P     10        30
1  0001    P     20        30
2  0001    N     10        30
3  0002    N     40         0
4  0002    N     30         0
5  0003    P     10        10

0

Filtro Pandas e soma, mas aplica a todas as linhas

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Filtro Pandas e soma, mas aplica a todas as linhas

2 respostas

relate perguntas