Como divido o loop for em 3 quadros de dados individuais?

Question

AmirX

Asked: 2024-11-06 16:20:38 +0800 CST2024-11-06 16:20:38 +0800 CST 2024-11-06 16:20:38 +0800 CST

Qual é a melhor maneira de filtrar os grupos que têm pelo menos N linhas que atendem às condições de uma máscara?

772

Este é meu DataFrame:

import pandas as pd
df = pd.DataFrame({
    'a': [10, 20, 30, 50, 50, 50, 4, 100],
    'b': [30, 3, 200, 25, 24, 31, 29, 2],
    'd': list('aaabbbcc')
})

Saída esperada:

    a    b  d
0  10   30  a
1  20    3  a
2  30  200  a

O agrupamento é por coluna d. Quero retornar os grupos que têm pelo menos duas instâncias desta máscara

m = (df.b.gt(df.a))

Foi isso que eu tentei. Funciona, mas me pergunto se há uma maneira melhor/mais eficiente de fazer isso.

out = df.groupby('d').filter(lambda x: len(x.loc[x.b.gt(x.a)]) >= 2)

1 respostas

Voted

mozway · Answer 1 · 2024-11-06T16:26:05+08:00

Com pandas

Você pode usar a groupby.transformna máscara com sumpara produzir uma série booleana:

m = df['b'].gt(df['a'])
out = df[m.groupby(df['d']).transform('sum').ge(2)]

Saída:

    a    b  d
0  10   30  a
1  20    3  a
2  30  200  a

Intermediários:

     a    b  d      m  transform('sum')  ge(2)
0   10   30  a   True                 2   True
1   20    3  a  False                 2   True
2   30  200  a   True                 2   True
3   50   25  b  False                 0  False
4   50   24  b  False                 0  False
5   50   31  b  False                 0  False
6    4   29  c   True                 1  False
7  100    2  c  False                 1  False

Alternativa:

counts = m.groupby(df['d']).sum()

out = df[df['d'].isin(counts.index[counts>=2])]

Com numpy

Alternativamente, pode-se evitar o custo groupbycom o numpy puro.

Esta primeira abordagem add.reduceatrequer que os grupos sejam consecutivos:

groups = df['d'].ne(df['d'].shift()).values
m = df['b'].gt(df['a']).values
idx = np.nonzero(groups)[0]
out =  df[df['d'].isin(df['d'].iloc[idx[np.add.reduceat(m, idx)>=2]])]

Este segundo com pandas.factorizee numpy.bincountfuncionaria mesmo com grupos embaralhados:

a, idx = pd.factorize(df['d'])
out = df[df['d'].isin(idx[np.bincount(a, weights=m) >= 2])]

Intermediários:

## reduceat approach
groups = df['d'].ne(df['d'].shift()).values
# array([ True, False, False,  True, False, False,  True, False])
m = df['b'].gt(df['a']).values
# array([ True, False,  True, False, False, False,  True, False])
idx = np.nonzero(groups)[0]
# array([0, 3, 6])
np.add.reduceat(m, idx)>=2
# array([ True, False, False])
idx[np.add.reduceat(m, idx)>=2]
# array([0])
df['d'].iloc[idx[np.add.reduceat(m, idx)>=2]]
# ['a']
df['d'].isin(df['d'].iloc[idx[np.add.reduceat(m, idx)>=2]])
# array([ True,  True,  True, False, False, False, False, False])

## bincount approach
a, idx = pd.factorize(df['d'])
a
# array([0, 0, 0, 1, 1, 1, 2, 2])
idx
# Index(['a', 'b', 'c'], dtype='object')
np.bincount(a, weights=m)
# array([2., 0., 1.])
np.bincount(a, weights=m) >= 2
# array([ True, False, False])
idx[np.bincount(a, weights=m) >= 2]
# Index(['a'], dtype='object')
df['d'].isin(idx[np.bincount(a, weights=m) >= 2])
# array([ True,  True,  True, False, False, False, False, False])

Horários

Com grupos de 3 linhas (membros classificados):

Com grupos de 3 linhas (membros embaralhados; NB. excluindo reduceat. ):

Com um número fixo de 20 grupos (de tamanho aproximadamente igual) com membros consecutivos:

Com um número fixo de 20 grupos (de tamanho aproximadamente igual) com membros embaralhados ( NB. excluindo reduceat. ):

Qual é a melhor maneira de filtrar os grupos que têm pelo menos N linhas que atendem às condições de uma máscara?

Com pandas

Com numpy

Horários

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Qual é a melhor maneira de filtrar os grupos que têm pelo menos N linhas que atendem às condições de uma máscara?

1 respostas

Com pandas

Com numpy

Horários

relate perguntas