Como divido o loop for em 3 quadros de dados individuais?

Question

Whitebeard13

Asked: 2025-02-08 00:15:56 +0800 CST2025-02-08 00:15:56 +0800 CST 2025-02-08 00:15:56 +0800 CST

Python Pandas: Agrupar várias colunas e interpolar linearmente os valores da coluna Y com base em outra coluna X

772

Considere o seguinte dataframe pandas

    reference   sicovam     label       id      date        TTM price
0   SCOM_WTI    68801903    WTI Nymex   BBG:CL  2015-01-02  18  52.69
1   SCOM_WTI    68801903    WTI Nymex   BBG:CL  2015-01-02  30  NaN
2   SCOM_WTI    68801903    WTI Nymex   BBG:CL  2015-01-02  49  53.11
3   SCOM_WTI    68801903    WTI Nymex   BBG:CL  2015-01-02  60  NaN
4   SCOM_WTI    68801903    WTI Nymex   BBG:CL  2015-01-02  77  53.69
5   SCOM_WTI    68801903    WTI Nymex   BBG:CL  2015-01-02  90  NaN
6   SCOM_WTI    68801903    WTI Nymex   BBG:CL  2015-01-02  109 54.42
7   SCOM_WTI    68801903    WTI Nymex   BBG:CL  2015-01-02  137 55.15
8   SCOM_WTI    68801903    WTI Nymex   BBG:CL  2015-01-02  171 55.80
9   SCOM_WTI    68801903    WTI Nymex   BBG:CL  2015-01-02  180 NaN
10  SCOM_WTI    68801903    WTI Nymex   BBG:CL  2015-01-05  15  50.04
11  SCOM_WTI    68801903    WTI Nymex   BBG:CL  2015-01-05  30  NaN
12  SCOM_WTI    68801903    WTI Nymex   BBG:CL  2015-01-05  46  50.52
13  SCOM_WTI    68801903    WTI Nymex   BBG:CL  2015-01-05  60  NaN
14  SCOM_WTI    68801903    WTI Nymex   BBG:CL  2015-01-05  74  51.17
15  SCOM_WTI    68801903    WTI Nymex   BBG:CL  2015-01-05  90  NaN
16  SCOM_WTI    68801903    WTI Nymex   BBG:CL  2015-01-05  106 51.95
17  SCOM_WTI    68801903    WTI Nymex   BBG:CL  2015-01-05  134 52.73
18  SCOM_WTI    68801903    WTI Nymex   BBG:CL  2015-01-05  168 53.46
19  SCOM_WTI    68801903    WTI Nymex   BBG:CL  2015-01-05  180 NaN

Após agrupar pelas colunas reference, sicovam, e , gostaria de preencher os valores da coluna por meio de interpolação linear sobre o labelvalor , ou seja, no contexto da fórmula de interpolação linear, e é a variável.iddateNaNpriceTTMpriceyTTMx

Até agora, construí as seguintes linhas.

def intepolate_group(group):
    group["price"] = group["price"].interpolate(method='linear', limit_direction='both', axis=0)
    return group

new_df = df.groupby(["reference","sicovam","label","id","date"])[["TTM","price"]].apply(intepolate_group)

No entanto, o resultado que obtenho é a interpolação linear sobre os números de índice por grupo. Por exemplo, para a parte seguinte do conjunto de dados, obtenho 54.06em vez de 53.99. O que ainda preciso para interpolar sobre a variável TTM?

PS: Quero evitar mascarar via loop (em vez de agrupar) e definir o TTMcomo índice, porque o dataframe é muito grande e esse cenário leva um tempo considerável.

4   SCOM_WTI    68801903    WTI Nymex   BBG:CL  2015-01-02  77  53.69
5   SCOM_WTI    68801903    WTI Nymex   BBG:CL  2015-01-02  90  NaN
6   SCOM_WTI    68801903    WTI Nymex   BBG:CL  2015-01-02  109 54.42

1 respostas

Voted

ouroboros1 · Answer 1 · 2025-02-08T00:59:56+08:00

Best Answer

ouroboros1

2025-02-08T00:59:56+08:002025-02-08T00:59:56+08:00

Aqui está uma abordagem:

cols = ['reference', 'sicovam', 'label', 'id', 'date']

df['price'] = (
    df.set_index('TTM')
    .groupby(cols)['price']
    .transform(lambda x: x.interpolate(method='index'))
    .values
    )

Saída:

df.iloc[4:7]

            reference sicovam  label      id        date  TTM      price
4 SCOM_WTI   68801903     WTI  Nymex  BBG:CL  2015-01-02   77  53.690000
5 SCOM_WTI   68801903     WTI  Nymex  BBG:CL  2015-01-02   90  53.986562
6 SCOM_WTI   68801903     WTI  Nymex  BBG:CL  2015-01-02  109  54.420000

Explicação

Defina a coluna 'TTM' como índice df.set_indexe aplique df.groupby.
Use groupby.transforme use pd.Series.interpolatecom method='index'.
Por fim, encadeie Series.valuespara atribuir o resultado de volta a df['price'].

1

Python Pandas: Agrupar várias colunas e interpolar linearmente os valores da coluna Y com base em outra coluna X

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Python Pandas: Agrupar várias colunas e interpolar linearmente os valores da coluna Y com base em outra coluna X

1 respostas

relate perguntas