Como divido o loop for em 3 quadros de dados individuais?

Question

PTQuoc

Asked: 2024-11-29 04:02:04 +0800 CST2024-11-29 04:02:04 +0800 CST 2024-11-29 04:02:04 +0800 CST

Pandas Merge - Maneira elegante de lidar com as mesmas colunas

772

Suponha que temos dois quadros de dados com colunas como segue:

df1[['name', 'year', 'col1', 'col2', 'col3']]
df2[['name', 'year', 'col2', 'col3', 'col4']]

Quero fazer a fusão de df1 e df2 por namee yearcom a condição de manter todo o valor de col2 col3on df1, se for, Noneentão use o valor emdf2

Eu sei como fazer isso da maneira tradicional, mesclando df1e df2depois usando ffill().

Como meu processo de limpeza de dados envolve muitas etapas de mesclagem de diferentes df com as mesmas colunas, isso torna o código não tão limpo quando continuo usando colunas ffill()e drop. Não sei se pd.mergetem alguma opção interna como essa?

Código de exemplo:

df1 = pd.DataFrame({'name': ['a', 'a', 'b', 'b', 'c', 'c'],
                    'year': [2000, 2001, 2002, 2003, 2004, 2005],
                    'col1': [1,2,3,4,5,6],
                    'col2': [0,2,4,6,8,None],
                    'col3': [1,3,5,7,None,9]})

df2 = pd.DataFrame({'name': ['b', 'b', 'c', 'c', 'd', 'd'],
                    'year': [2003, 2004, 2004, 2005, 2006, 2007],
                    'col2': [10,20,30,None,50,60],
                    'col3': [100,300,500,700,None,900],
                    'col4': [5,6,7,8,9,10]})

Entrada:

df1

  name  year  col1  col2  col3
0    a  2000     1  0.00  1.00
1    a  2001     2  2.00  3.00
2    b  2002     3  4.00  5.00
3    b  2003     4  6.00  7.00
4    c  2004     5  8.00   NaN
5    c  2005     6   NaN  9.00

df2

  name  year  col2   col3  col4
0    b  2003 10.00 100.00     5
1    b  2004 20.00 300.00     6
2    c  2004 30.00 500.00     7
3    c  2005   NaN 700.00     8
4    d  2006 50.00    NaN     9
5    d  2007 60.00 900.00    10

Saída desejada

  name  year  col1  col2   col3  col4
0    a  2000  1.00  0.00   1.00   NaN
1    a  2001  2.00  2.00   3.00   NaN
2    b  2002  3.00  4.00   5.00   NaN
3    b  2003  4.00  6.00   7.00  5.00
4    b  2004   NaN 20.00 300.00  6.00
5    c  2004  5.00  8.00 500.00  7.00
6    c  2005  6.00   NaN   9.00  8.00
7    d  2006   NaN 50.00    NaN  9.00
8    d  2007   NaN 60.00 900.00 10.00

2 respostas

Voted

mozway · Answer 1 · 2024-11-29T04:25:27+08:00

Assumindo combinações únicas de nome/ano, você poderia concate groupby.first:

out = pd.concat([df1, df2]).groupby(['name', 'year'], as_index=False).first()

Para uma mesclagem mais genérica, você pode executar duas mesclagens, excluindo as colunas comuns, não-chave, e então combine_first:

cols = ['name', 'year']
common = df1.columns.intersection(df2.columns).difference(cols)

out = (df1.merge(df2.drop(columns=common), on=cols, how='outer')
       .combine_first(df1.drop(columns=common).merge(df2, on=cols, how='outer'))
      )

Outra opção com um único merge:

cols = ['name', 'year']
common = df1.columns.intersection(df2.columns).difference(cols)

out = df1.merge(df2, on=cols, suffixes=(None, '_right'), how='outer')
tmp = out.filter(regex='_right$')

out[common] = out[common].fillna(tmp.set_axis(common, axis=1))

out.drop(columns=tmp.columns, inplace=True)

E finalmente com um groupby.first:

out = (df1.merge(df2, on=cols, suffixes=(None, '_right'), how='outer')
          .rename(columns=lambda x: x.removesuffix('_right'))
          .groupby(level=0, axis=1, sort=False).first()
      )

# variant for recent pandas versions:
out = (df1.merge(df2, on=cols, suffixes=(None, '_right'), how='outer')
          .rename(columns=lambda x: x.removesuffix('_right'))
          .T.groupby(level=0, sort=False).first().T
      )

Saída:

  name  year  col1  col2   col3  col4
0    a  2000   1.0   0.0    1.0   NaN
1    a  2001   2.0   2.0    3.0   NaN
2    b  2002   3.0   4.0    5.0   NaN
3    b  2003   4.0   6.0    7.0   5.0
4    b  2004   NaN  20.0  300.0   6.0
5    c  2004   5.0   8.0  500.0   7.0
6    c  2005   6.0   NaN    9.0   8.0
7    d  2006   NaN  50.0    NaN   9.0
8    d  2007   NaN  60.0  900.0  10.0

samhita · Answer 2 · 2024-11-29T06:10:50+08:00

samhita

2024-11-29T06:10:50+08:002024-11-29T06:10:50+08:00

combine_first para preencher os valores e depois descartar colunas que terminam com _df1 ou _df2

merged_df = pd.merge(df1, df2, on=['name', 'year'], how='outer', suffixes=('_df1', '_df2'))
    
for col in merged_df.columns:
    if col.endswith('_df1'):
        merged_df[col.replace('_df1', '')] = merged_df[col].combine_first(merged_df[col.replace('_df1', '_df2')])
    
merged_df = merged_df.loc[:, ~merged_df.columns.str.endswith(('_df1', '_df2'))]
    
merged_df = merged_df[['name', 'year', 'col1', 'col2', 'col3', 'col4']]

Saída

  name  year  col1  col2   col3  col4
0    a  2000   1.0   0.0    1.0   NaN
1    a  2001   2.0   2.0    3.0   NaN
2    b  2002   3.0   4.0    5.0   NaN
3    b  2003   4.0   6.0    7.0   5.0
4    b  2004   NaN  20.0  300.0   6.0
5    c  2004   5.0   8.0  500.0   7.0
6    c  2005   6.0   NaN    9.0   8.0
7    d  2006   NaN  50.0    NaN   9.0
8    d  2007   NaN  60.0  900.0  10.0

1

Pandas Merge - Maneira elegante de lidar com as mesmas colunas

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Pandas Merge - Maneira elegante de lidar com as mesmas colunas

2 respostas

relate perguntas