Como divido o loop for em 3 quadros de dados individuais?

Question

AmirX

Asked: 2024-08-03 14:34:34 +0800 CST2024-08-03 14:34:34 +0800 CST 2024-08-03 14:34:34 +0800 CST

Como posso obter o grupo que possui a maior sequência de números negativos em uma coluna e adicionar outra condição para filtrar os grupos?

772

Esta é uma extensão desta resposta aceita .

Meu DataFrame:

import pandas as pd
df = pd.DataFrame(
    {
        'a': [-3, -1, -2, -5, 10, -3, -13, -3, -2, 1, 2, -100],
        'b': [1, 2, 3, 4, 5, 10, 80, 90, 100, 99, 1, 12]
    }
)

Resultado esperado:

      a    b
5    -3   10
6   -13   80
7    -3   90
8    -2  100

Lógica:

a) Selecionando a sequência mais longa de negativos em a.

b) Se por exemplo houver duas listras com o mesmo tamanho, quero aquela que tenha uma soma maior de b. Tem dfduas listras de tamanho 4 mas quero a segunda porque a soma bé maior.

Minha tentativa:

import numpy as np
s = np.sign(df['a'])
df['g'] = s.ne(s.shift()).cumsum()
df['size'] = df.groupby('g')['g'].transform('size')
df['b_sum'] = df.groupby('g')['b'].transform('sum')

2 respostas

Voted

Panda Kim · Answer 1 · 2024-08-03T15:28:31+08:00

Panda Kim

2024-08-03T15:28:31+08:002024-08-03T15:28:31+08:00

Código

cond = df['a'] >= 0
grp = cond.cumsum()
idx = (df[~cond].groupby(grp).agg({'a': 'count', 'b': 'sum'})
                .sort_values('b', ascending=False)['a'].idxmax())
out = df[~cond & grp.eq(idx)]

fora:

1

mozway · Answer 2 · 2024-08-03T17:14:49+08:00

Best Answer

mozway

2024-08-03T17:14:49+08:002024-08-03T17:14:49+08:00

Você pode manter a mesma lógica, basta adicionar uma etapa extra de filtragem (por exemplo, com query) para obter todos os tamanhos máximos, antes de obter a idxmaxsoma de "b":

# negative numbers
m = df['a'].lt(0)
# form groups
g = m.ne(m.shift()).cumsum()

out = df[g.eq(df.groupby(g)['b'].agg(['size', 'sum'])
                .query('size == size.max()')['sum'].idxmax())]

Saída:

Intermediário:

df.groupby(g)['b'].agg(['size', 'sum'])

   size  sum
a           
1     4   10
2     1    5
3     4  280
4     2  100
5     1   12

Ou, usando sua abordagem (observe que isso não garantiria um grupo único se dois ou mais tivessem o comprimento máximo e a mesma soma de b):

s = np.sign(df['a'])
g = df.groupby(s.ne(s.shift()).cumsum())

s1 = g['a'].transform('size')
s2 = g['b'].transform('sum')

out = df[s1.eq(s1.max()) & s2.eq(s2.max())]

1

Como posso obter o grupo que possui a maior sequência de números negativos em uma coluna e adicionar outra condição para filtrar os grupos?

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Como posso obter o grupo que possui a maior sequência de números negativos em uma coluna e adicionar outra condição para filtrar os grupos?

2 respostas

relate perguntas