Como divido o loop for em 3 quadros de dados individuais?

Question

xymzh

Asked: 2024-01-31 04:26:56 +0800 CST2024-01-31 04:26:56 +0800 CST 2024-01-31 04:26:56 +0800 CST

Como encontrar as linhas que são diferentes em determinadas colunas entre dataframes

772

Estou tendo dois dataframes:

import pandas as pd
df1=pd.DataFrame({'ID':['A', 'B', 'C', 'D', 'E'], 'Date':['2024-01-01', '2024-01-02', '2024-01-03', '2024-01-04', '2024-01-05'], 'Value1':[1, 2, 3, 4, 5], 'Value2':[5, 6, 7, 8, 9]})
df2=pd.DataFrame({'ID':['A', 'B', 'C', 'D'], 'Date':['2024-01-30', '2024-01-30', '2024-01-30', '2024-01-30'], 'Value1':[1, 2, 7, 4], 'Value2':[5, 6, 7, 9]})

Aqui está como df1fica:

  ID        Date  Value1  Value2
0  A  2024-01-01       1       5
1  B  2024-01-02       2       6
2  C  2024-01-03       3       7
3  D  2024-01-04       4       8
4  E  2024-01-05       5       9

Aqui está como df2fica:

  ID        Date  Value1  Value2
0  A  2024-01-30       1       5
1  B  2024-01-30       2       6
2  C  2024-01-30       7       7
3  D  2024-01-30       4       9

Agora meu objetivo é descobrir quais são as duas linhas entre esses dois dataframes que possuem valores diferentes em colunas ['Value1', 'Value2']baseadas em 'ID'coluna. Neste caso, as linhas com 'ID's as 'C'e 'D'. Observe que a 'Date'coluna é diferente, mas não preciso compará-las.

Alguma ideia sobre uma solução elegante sem empacotar todos os dataframes?

2 respostas

Voted

Corralien · Answer 1 · 2024-01-31T04:37:14+08:00

Corralien

2024-01-31T04:37:14+08:002024-01-31T04:37:14+08:00

Você pode usar mergee querypara encontrar as diferenças:

>>> (df1.merge(df2, on='ID', how='inner')  # use outer if needed
        .query('(Value1_x != Value1_y) | (Value2_x != Value2_y)')

  ID      Date_x  Value1_x  Value2_x      Date_y  Value1_y  Value2_y
2  C  2024-01-03         3         7  2024-01-30         7         7
3  D  2024-01-04         4         8  2024-01-30         4         9

O mesmo sem colunas indesejadas:

cols = ['ID', 'Value1', 'Value2']
out = (pd.merge(df1[cols], df2[cols], on='ID', how='inner')
         .query('(Value1_x != Value1_y) | (Value2_x != Value2_y)'))

Saída:

>>> out
  ID  Value1_x  Value2_x  Value1_y  Value2_y
2  C         3         7         7         7
3  D         4         8         4         9

1

stefan_aus_hannover · Answer 2 · 2024-01-31T04:42:34+08:00

Best Answer

stefan_aus_hannover

2024-01-31T04:42:34+08:002024-01-31T04:42:34+08:00

Anti-junção

Consegui isso com um anti joinpara determinar o IDsque não corresponde entre os dois.

outer = df1.merge(df2,how='outer',on=['ID','Value1','Value2'],indicator=True)
anti_join = outer[(outer._merge=='left_only')].drop('_merge',axis=1)
anti_join = anti_join[df1['ID'].isin(df2['ID'])]

1

Como encontrar as linhas que são diferentes em determinadas colunas entre dataframes

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Como encontrar as linhas que são diferentes em determinadas colunas entre dataframes

2 respostas

relate perguntas