Como divido o loop for em 3 quadros de dados individuais?

Question

Swawa

Asked: 2024-10-30 20:08:31 +0800 CST2024-10-30 20:08:31 +0800 CST 2024-10-30 20:08:31 +0800 CST

pandas dataframe como tabela de consulta para outro dataframe de comprimento diferente

772

Tenho um pequeno dataframe pandas contendo dados com apenas algumas linhas e três colunas:

import pandas as pd
df_size = pd.DataFrame([[0.510,0.450,0.540],   
                        [0.899,0.820,1.150],   
                        [1.745,1.587,2.020],   
                        [2.020,1.745,2.405],   
                       ], columns=['diameter_mean', 'diameter_min','diameter_max'])

um segundo dataframe contém uma tabela de pesquisa (muito mais longa):

df_lookup = pd.DataFrame([[0.450,0.021548],
                          [0.510,0.021791],
                          [0.540,0.022038],
                          [0.565,0.022289],
                          [0.695,0.022545],
                          [0.720,0.034321],
                          [0.770,1.292340],
                          [0.820,1.296070],
                          [0.899,1.302340],
                          [1.150,2.311770],
                          [1.361,3.325140],
                          [1.587,4.144621],
                          [1.745,3.498933],
                          [2.020,3.512665],
                          [2.405,3.610773],
                        ], columns=['diameter', 'SMS'])

Isso significa que, para qualquer entrada da tabela de consulta, pode não haver um ponto de dados existente em df_size.

Com base em, df_lookup['diameter']desejo encontrar automaticamente os valores SMS correspondentes para todas as três colunas de df_size['diameter_mean']e df_size['diameter_min']anexar df_size['diameter_max'] os valores encontrados como três novas colunas ['SMS'], ['SMS_min'], ['SMS_max'] ao conjunto de dados dataframe 'df_size'.

Tentei criar as três novas colunas com merge, mas isso causa - como esperado - um valueError:

df_size['SMS'] = df_size.merge(df_lookup, left_on='diameter_mean', right_on='diameter')
df_size['SMS_min'] = df_size.merge(df_lookup, left_on='diameter_min', right_on='diameter')
df_size['SMS_max'] = df_size.merge(df_lookup, left_on='diameter_max', right_on='diameter')

devido a múltiplas colunas que seriam definidas como uma para todas as três linhas de código.

Como alternativa, tentei soluções com applye com map, mas parece que esqueci de algo (aqui, exemplo apenas para a coluna diameter_mean):

df_size['SMS'].apply(lambda df_lookup.SMS: df_lookup['diameter'][(df_size['diameter_mean'])].values[0])

causa um erro de chave.

O df_size pretendido ficaria assim:

df_size
'diameter_mean' 'diameter_min' 'diameter_max' 'SMS'     'SMS_min'    'SMS_max'
0.510           0.450           0.540         0.021791  0.021548     0.022038
0.899           0.820           1.150         1.302340  1.296070     2.311770
1.745           1.587           2.020         3.498933  4.144621     3.512665
2.020           1.745           2.405         3.512665  3.498933     3.610773

A propósito, é necessário que ambos os dataframes tenham comportamento fortemente monotônico em termos do parâmetro de pesquisa (=diâmetro)?

2 respostas

Voted

mozway · Answer 1 · 2024-10-30T20:15:36+08:00

Best Answer

mozway

2024-10-30T20:15:36+08:002024-10-30T20:15:36+08:00

Você pode usar uma série merge_asofcom referências e direções variadas:

tmp = df_size.reset_index()

merges = {'SMS': ('diameter_mean', 'nearest'),
          'SMS_min': ('diameter_min', 'forward'),
          'SMS_max': ('diameter_max', 'backward'),
         }

for k, (c, d) in merges.items():
    df_size[k] = pd.merge_asof(
                      tmp.sort_values(by=c)[['index', c]],
                      df_lookup,
                      left_on=c, right_on='diameter',
                      direction=d
                 ).set_index('index')['SMS']

Saída:

   diameter_mean  diameter_min  diameter_max       SMS   SMS_min   SMS_max
0          0.510         0.450         0.540  0.021791  0.021548  0.022038
1          0.899         0.820         1.150  1.302340  1.296070  2.311770
2          1.745         1.587         2.020  3.498933  4.144621  3.512665
3          2.020         1.745         2.405  3.512665  3.498933  3.610773

1

Cyrille · Answer 2 · 2024-10-30T21:41:37+08:00

Cyrille

2024-10-30T21:41:37+08:002024-10-30T21:41:37+08:00

Outra solução também poderia ser usar .loc

df_1 = df_lookup.set_index('diameter')
df_size = df_size.merge(df_1.loc[df_size['diameter_mean']]['SMS'].rename('SMS_mean'),how='left', left_on='diameter_mean', right_index=True)
df_size = df_size.merge(df_1.loc[df_size['diameter_min']]['SMS'].rename('SMS_min'),how='left', left_on='diameter_min', right_index=True)
df_size = df_size.merge(df_1.loc[df_size['diameter_max']]['SMS'].rename('SMS_max'),how='left', left_on='diameter_max', right_index=True)

Saída:

   diameter_mean  diameter_min  diameter_max  SMS_mean   SMS_min   SMS_max
0          0.510         0.450         0.540  0.021791  0.021548  0.022038
1          0.899         0.820         1.150  1.302340  1.296070  2.311770
2          1.745         1.587         2.020  3.498933  4.144621  3.512665
3          2.020         1.745         2.405  3.512665  3.498933  3.610773

0

pandas dataframe como tabela de consulta para outro dataframe de comprimento diferente

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

pandas dataframe como tabela de consulta para outro dataframe de comprimento diferente

2 respostas

relate perguntas