Extraia a string da linha duplicada, remova a duplicata, forneça a contagem de strings [duplicada]

Question

Giampaolo Levorato

Asked: 2024-08-01 18:35:25 +0800 CST2024-08-01 18:35:25 +0800 CST 2024-08-01 18:35:25 +0800 CST

Como duplicar registros no dataframe do pandas com base nos valores das colunas

772

Eu criei um dataframe do pandas da seguinte maneira:

ds = {'col1' : ["A","B"], 'probability' : [0.3, 0.6]}
df = pd.DataFrame(data=ds)

O quadro de dados fica assim:

print(df)   
  col1  probability
0    A   0.3
1    B   0.6

Preciso criar um novo dataframe que duplique cada linha e atribua ao registro duplicado uma probabilidade necessária para somar 1.

Do exemplo acima:

Preciso duplicar o registro 0 de modo que A obtenha uma probabilidade de 0,3 (para manter o que já está lá) e o registro duplicado obtenha uma probabilidade de 0,7 (0,3 + 0,7 = 1)
Preciso duplicar o registro 1 de modo que B obtenha uma probabilidade de 0,6 (para manter o que já está lá) e o registro duplicado obtenha uma probabilidade de 0,4 (0,6 + 0,4 = 1)

O dataframe resultante fica assim:

  col1  probability
0    A          0.3
1    A          0.7
2    B          0.6
3    B          0.4

Alguém pode me ajudar a fazer isso em pandas, por favor?

2 respostas

Voted

PaulS · Answer 1 · 2024-08-01T18:49:55+08:00

PaulS

2024-08-01T18:49:55+08:002024-08-01T18:49:55+08:00

Uma solução possível, que primeiro cria um segundo dataframe com col1e 1-probability. Em seguida, ele concatena verticalmente o segundo dataframe com o original e classifica por col1:

pd.concat([
    df, 
    pd.DataFrame(zip(df['col1'], 1-df['probability']), columns=df.columns)])
.sort_values('col1')

Alternativamente (pode ser preferido), como sugere @mozway em um comentário abaixo:

(pd.concat([
    df, 
    pd.DataFrame({'col1': df['col1'], 'probability': 1-df['probability']})])
 .sort_values('col1'))

Outra abordagem, usando list comprehensione numpy:

pd.DataFrame(
    np.vstack([np.array([[x, y], [x, 1-y]]) 
               for x, y in zip(df['col1'], df['probability'])]), 
    columns=df.columns)

Saída:

  col1  probability
0    A          0.3
0    A          0.7
1    B          0.6
1    B          0.4

3

e-motta · Answer 2 · 2024-08-01T20:03:48+08:00

Best Answer

e-motta

2024-08-01T20:03:48+08:002024-08-01T20:03:48+08:00

Você pode usar isto:

df = pd.concat([df, df.assign(probability=1 - df["probability"])], ignore_index=True)

  col1  probability
0    A          0.3
1    B          0.6
2    A          0.7
3    B          0.4

1

Como duplicar registros no dataframe do pandas com base nos valores das colunas

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Como duplicar registros no dataframe do pandas com base nos valores das colunas

2 respostas

relate perguntas