Extraia a string da linha duplicada, remova a duplicata, forneça a contagem de strings [duplicada]

Question

Giampaolo Levorato

Asked: 2024-08-21 20:30:15 +0800 CST2024-08-21 20:30:15 +0800 CST 2024-08-21 20:30:15 +0800 CST

Como somar colunas de pandas no mesmo registro para colunas que começam com a mesma palavra

772

Eu criei o seguinte dataframe do pandas:

ds = {'col1' : [1,1,1,1,1,1,1,2,2,2,2,3,3,3,3,3,4,4,4,4,4,4,4,4,4],
      'feature1' : [1,1,1,1,1,1,1,2,2,2,2,3,3,3,3,3,4,4,4,4,4,4,4,4,4],
      'col2' : [12,3,4,5,4,3,2,3,4,6,7,8,3,3,65,4,3,2,32,1,2,3,4,5,32],
      
      }

df = pd.DataFrame(data=ds)

O quadro de dados fica assim:

print(df)
    col1  feature1  col2
0      1         1    12
1      1         1     3
2      1         1     4
3      1         1     5
4      1         1     4
5      1         1     3
6      1         1     2
7      2         2     3
8      2         2     4
9      2         2     6
10     2         2     7
11     3         3     8
12     3         3     3
13     3         3     3
14     3         3    65
15     3         3     4
16     4         4     3
17     4         4     2
18     4         4    32
19     4         4     1
20     4         4     2
21     4         4     3
22     4         4     4
23     4         4     5
24     4         4    32

Preciso criar uma nova coluna (chamada sumOfCols) que é a soma dos valores contidos nas colunas cujos nomes começam com col(no exemplo acima a coluna feature1não seria incluída no cálculo).

O dataframe resultante ficaria assim:

Alguém pode me ajudar, por favor? Desde já, obrigado.

3 respostas

Voted

e-motta · Answer 1 · 2024-08-21T20:36:02+08:00

Você pode usar filteras colunas usando um regex e sumdepois axis=1:

df["sumOfCols"] = df.filter(regex="^col").sum(axis=1)

    col1  feature1  col2  sumOfCols
0      1         1    12         13
1      1         1     3          4
2      1         1     4          5
3      1         1     5          6
4      1         1     4          5
5      1         1     3          4
6      1         1     2          3
7      2         2     3          5
8      2         2     4          6
9      2         2     6          8
10     2         2     7          9
11     3         3     8         11
12     3         3     3          6
13     3         3     3          6
14     3         3    65         68
15     3         3     4          7
16     4         4     3          7
17     4         4     2          6
18     4         4    32         36
19     4         4     1          5
20     4         4     2          6
21     4         4     3          7
22     4         4     4          8
23     4         4     5          9
24     4         4    32         36

PaulS · Answer 2 · 2024-08-21T20:41:22+08:00

Outra solução possível:

df.assign(sumOfCols = df[[col for col in df if col.startswith('col')]].sum(1))

Alternativamente,

df['sumOfCols'] = df.loc[:,df.columns.str.startswith('col')].sum(1)

Saída:

    col1  feature1  col2  sumOfCols
0      1         1    12         13
1      1         1     3          4
2      1         1     4          5
3      1         1     5          6
4      1         1     4          5
5      1         1     3          4
6      1         1     2          3
7      2         2     3          5
8      2         2     4          6
9      2         2     6          8
10     2         2     7          9
11     3         3     8         11
12     3         3     3          6
13     3         3     3          6
14     3         3    65         68
15     3         3     4          7
16     4         4     3          7
17     4         4     2          6
18     4         4    32         36
19     4         4     1          5
20     4         4     2          6
21     4         4     3          7
22     4         4     4          8
23     4         4     5          9
24     4         4    32         36

ArchAngelPwn · Answer 3 · 2024-08-21T21:17:00+08:00

ArchAngelPwn

2024-08-21T21:17:00+08:002024-08-21T21:17:00+08:00

Apenas mais uma maneira de fazer isso, caso você não queira usar RegEx ou para parecer um pouco mais legível

columns_to_ignore = df.columns[~df.columns.str.startswith('col')].to_list()

df["sumOfCols"] = df.drop(columns=columns_to_ignore).sum(axis = 1)

Isso obterá dinamicamente uma lista de todas as colunas que não começam com 'col' e as eliminará da agregação de soma ao longo do eixo da coluna.

1

Como somar colunas de pandas no mesmo registro para colunas que começam com a mesma palavra

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Como somar colunas de pandas no mesmo registro para colunas que começam com a mesma palavra

3 respostas

relate perguntas