Extraia a string da linha duplicada, remova a duplicata, forneça a contagem de strings [duplicada]

Question

Ishigami

Asked: 2025-01-22 16:52:55 +0800 CST2025-01-22 16:52:55 +0800 CST 2025-01-22 16:52:55 +0800 CST

Como gerar uma nova coluna no dataframe que indique as colunas com resultados positivos?

772

Tenho um dataframe que se parece com:

ID   f_1   f_2   f_3
1    1     0     1
2    0     1     1
3    1     1     0
4    1     0     1
5    0     1     1

Não tenho a mínima ideia de como começar. E também meu dataframe original é bem grande (~1M linhas) e, portanto, um método rápido seria muito apreciado.

e eu gostaria de gerar uma nova coluna Resultque registra o par de f's que tem 1 neles, ou seja

ID   f_1   f_2   f_3   Result
1    1     0     1     1_3
2    0     1     1     2_3
3    1     1     0     1_2
4    1     0     1     1_3
5    0     1     1     2_3

1 respostas

Voted

mozway · Answer 1 · 2025-01-22T16:54:57+08:00

Você pode usar um dotproduto depois de renomear as colunas com str.replace/ str.removeprefix:

tmp = df.drop(columns='ID')
df['Result'] = (tmp @ tmp.columns.str.replace('^f', '', regex=True)).str[1:]

# variant
df['Result'] = (tmp @ tmp.columns.str.removeprefix('f')).str[1:]

Alternativamente, uma abordagem mais clássica de pandas (muito mais lenta) com remodelagem ( melt), filtragem (com query), e groupby.agg:

df['Result'] = (df.melt('ID', ignore_index=False).query('value == 1')
                  .groupby(level=0)['variable']
                  .agg(lambda x: '_'.join(x.str.extract('_(\d+)', expand=False)))
               )

Ou com stack:

s = df.drop(columns='ID').stack()
df['Result'] = (s[s==1].reset_index(-1).groupby(level=0)['level_1']
                .agg(lambda x: '_'.join(x.str.extract('_(\d+)', expand=False)))
               )

Saída:

   ID  f_1  f_2  f_3 Result
0   1    1    0    1    1_3
1   2    0    1    1    2_3
2   3    1    1    0    1_2
3   4    1    0    1    1_3
4   5    0    1    1    2_3

Horários

Em 20K linhas:

# dot product
2.96 ms ± 161 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

# melt + groupby.agg
965 ms ± 59.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

# stack + groupby.agg
928 ms ± 43.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

Em 1M linhas:

# dot product
359 ms ± 56.8 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

# melt/stack + groupby.agg
did not run under a few minutes

Como gerar uma nova coluna no dataframe que indique as colunas com resultados positivos?

Horários

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Como gerar uma nova coluna no dataframe que indique as colunas com resultados positivos?

1 respostas

Horários

relate perguntas