Extraia a string da linha duplicada, remova a duplicata, forneça a contagem de strings [duplicada]

Question

Sun Jar

Asked: 2024-12-07 22:36:34 +0800 CST2024-12-07 22:36:34 +0800 CST 2024-12-07 22:36:34 +0800 CST

Remodelagem do dataframe Pandas com nome de colunas

772

Eu tenho um dataframe como este:

>>> df
  TYPE    A    B    C    D
0   IN  550  350  600  360
1  OUT  340  270  420  190

Quero remodelá-lo para este formato:

       AIN AOUT  BIN BOUT  CIN COUT  DIN DOUT
       550  340  350  270  600  420  360  190

Então eu uso esses códigos para fazer isso:

ds = df.melt().T.iloc[1:,2:]
ds.columns = ['AIN','AOUT','BIN','BOUT','CIN','COUT','DIN','DOUT']
>>> ds
       AIN AOUT  BIN BOUT  CIN COUT  DIN DOUT
value  550  340  350  270  600  420  360  190

Funciona, mas parece estúpido, o nome das colunas foi inserido manualmente, gostaria de saber se há uma maneira melhor, mais pythonic, de fazer isso. Alguma ideia?

PS: o "valor" no dataframe de saída é insignificante.

3 respostas

Voted

PaulS · Answer 1 · 2024-12-07T22:47:32+08:00

PaulS

2024-12-07T22:47:32+08:002024-12-07T22:47:32+08:00

Uma possível solução, cujos passos são:

O dropmétodo remove a TYPEcoluna do dataframe df, resultando em um novo dataframe.
O valuesmétodo extrai a matriz subjacente numpydo dataframe modificado.
O reshapemétodo remodela a matriz em uma matriz 2D com uma linha e o mesmo número de colunas do dataframe original.
O columnsparâmetro é definido como uma lista de strings geradas por uma compreensão de lista. Cada string é uma concatenação de um nome de coluna dfe um valor da TYPEcoluna.
Por fim, um novo dataframe é criado com o array remodelado e os novos nomes das colunas.

pd.DataFrame(
    df.drop('TYPE', axis=1).values.reshape(1,-1, order='A'),
    columns=[f'{x}{y}' for x in df.columns[1:] for y in df['TYPE']],
    index=['value'])

Saída:

       AIN  AOUT  BIN  BOUT  CIN  COUT  DIN  DOUT
value  550   340  350   270  600   420  360   190

2

Panda Kim · Answer 2 · 2024-12-07T23:14:47+08:00

Best Answer

Panda Kim

2024-12-07T23:14:47+08:002024-12-07T23:14:47+08:00

Código

Aplique joina função (python) com mapa função (pandas) ao Multi-index.

out = df.assign(index=0).pivot(index='index', columns='TYPE')
out.columns = out.columns.map(''.join)

fora:

       AIN  AOUT  BIN  BOUT  CIN  COUT  DIN  DOUT
index                                            
0      550   340  350   270  600   420  360   190

Escolhi pivota função porque ela é inconveniente ao criar um dataframe de 1 linha, pois ambos melte stackrequerem T. (Se eu estivesse criando uma série ou um dataframe de 1 coluna, eu teria escolhido meltou stack.)

Código de exemplo

import pandas as pd
data = {'TYPE': ['IN', 'OUT'], 
        'A': [550, 340],
        'B': [350, 270],
        'C': [600, 420],
        'D': [360, 190]}
df = pd.DataFrame(data)

2

samhita · Answer 3 · 2024-12-08T08:25:20+08:00

samhita

2024-12-08T08:25:20+08:002024-12-08T08:25:20+08:00

df.columns[1:]percorrer as colunas A, B, C, D, excluindo a TYPEcoluna.
O loop locfiltra as linhas TYPEe então extrai os valores correspondentes para cada coluna.

E então novas colunas são construídas combinando o nome da variável (por exemplo, A, B, etc.) com os sufixos IN e OUT.

for col in df.columns[1:]:
     reshaped_df[f'{col}IN'] = df.loc[df['TYPE'] == 'IN', col].values
     reshaped_df[f'{col}OUT'] = df.loc[df['TYPE'] == 'OUT', col].values

Saída

   AIN  AOUT  BIN  BOUT  CIN  COUT  DIN  DOUT
0  550   340  350   270  600   420  360   190

0

Remodelagem do dataframe Pandas com nome de colunas

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Remodelagem do dataframe Pandas com nome de colunas

3 respostas

relate perguntas