Como divido o loop for em 3 quadros de dados individuais?

Question

Andi

Asked: 2024-09-02 03:28:42 +0800 CST2024-09-02 03:28:42 +0800 CST 2024-09-02 03:28:42 +0800 CST

Computação de classificações transversais usando um dataframe de polares organizado

772

Preciso calcular classificações transversais em vários títulos de negociação. Considere o seguinte pl.DataFrameem formato longo (organizado). Ele compreende três símbolos diferentes com preços respectivos, onde cada símbolo também tem um calendário de negociação dedicado (ou seja, local).

df = pl.DataFrame(
    {
        "symbol": [*["symbol1"] * 6, *["symbol2"] * 5, *["symbol3"] * 5],
        "date": [
            "2023-12-30", "2023-12-31", "2024-01-03", "2024-01-04", "2024-01-05", "2024-01-06",
            "2023-12-30", "2024-01-03", "2024-01-04", "2024-01-05", "2024-01-06",
            "2023-12-30", "2023-12-31", "2024-01-03", "2024-01-04", "2024-01-05",
        ],
        "price": [
            100, 105, 110, 115, 120, 125,
            200, 210, 220, 230, 240,
            3000, 3100, 3200, 3300, 3400,
        ],
    }
)

print(df)
shape: (16, 3)
┌─────────┬────────────┬───────┐
│ symbol  ┆ date       ┆ price │
│ ---     ┆ ---        ┆ ---   │
│ str     ┆ str        ┆ i64   │
╞═════════╪════════════╪═══════╡
│ symbol1 ┆ 2023-12-30 ┆ 100   │
│ symbol1 ┆ 2023-12-31 ┆ 105   │
│ symbol1 ┆ 2024-01-03 ┆ 110   │
│ symbol1 ┆ 2024-01-04 ┆ 115   │
│ symbol1 ┆ 2024-01-05 ┆ 120   │
│ …       ┆ …          ┆ …     │
│ symbol3 ┆ 2023-12-30 ┆ 3000  │
│ symbol3 ┆ 2023-12-31 ┆ 3100  │
│ symbol3 ┆ 2024-01-03 ┆ 3200  │
│ symbol3 ┆ 2024-01-04 ┆ 3300  │
│ symbol3 ┆ 2024-01-05 ┆ 3400  │
└─────────┴────────────┴───────┘

O primeiro passo é calcular os retornos periódicos usando pct_changee posteriormente usando pivotpara alinhar os símbolos por data.

returns = df.drop_nulls().with_columns(
    pl.col("price").pct_change(n=2).over("symbol").alias("return")
).pivot(on="symbol", index="date", values="return")

print(returns)
shape: (6, 4)
┌────────────┬──────────┬──────────┬──────────┐
│ date       ┆ symbol1  ┆ symbol2  ┆ symbol3  │
│ ---        ┆ ---      ┆ ---      ┆ ---      │
│ str        ┆ f64      ┆ f64      ┆ f64      │
╞════════════╪══════════╪══════════╪══════════╡
│ 2023-12-30 ┆ null     ┆ null     ┆ null     │
│ 2023-12-31 ┆ null     ┆ null     ┆ null     │
│ 2024-01-03 ┆ 0.1      ┆ null     ┆ 0.066667 │
│ 2024-01-04 ┆ 0.095238 ┆ 0.1      ┆ 0.064516 │
│ 2024-01-05 ┆ 0.090909 ┆ 0.095238 ┆ 0.0625   │
│ 2024-01-06 ┆ 0.086957 ┆ 0.090909 ┆ null     │
└────────────┴──────────┴──────────┴──────────┘

O próximo passo é usar concat_listo create listpara calcular as classificações por linha (decrescente, ou seja, o maior retorno obtém a classificação 1).

ranks = (
    returns.with_columns(all_symbols=pl.concat_list(pl.all().exclude("date")))
    .select(
        pl.all().exclude("all_symbols"),
        pl.col("all_symbols")
        .list.eval(
            pl.element().rank(descending=True, method="ordinal").cast(pl.UInt8)
        )
        .alias("rank"),
    )
)

print(ranks)
shape: (6, 5)
┌────────────┬──────────┬──────────┬──────────┬────────────────────┐
│ date       ┆ symbol1  ┆ symbol2  ┆ symbol3  ┆ rank               │
│ ---        ┆ ---      ┆ ---      ┆ ---      ┆ ---                │
│ str        ┆ f64      ┆ f64      ┆ f64      ┆ list[u8]           │
╞════════════╪══════════╪══════════╪══════════╪════════════════════╡
│ 2023-12-30 ┆ null     ┆ null     ┆ null     ┆ [null, null, null] │
│ 2023-12-31 ┆ null     ┆ null     ┆ null     ┆ [null, null, null] │
│ 2024-01-03 ┆ 0.1      ┆ null     ┆ 0.066667 ┆ [1, null, 2]       │
│ 2024-01-04 ┆ 0.095238 ┆ 0.1      ┆ 0.064516 ┆ [2, 1, 3]          │
│ 2024-01-05 ┆ 0.090909 ┆ 0.095238 ┆ 0.0625   ┆ [2, 1, 3]          │
│ 2024-01-06 ┆ 0.086957 ┆ 0.090909 ┆ null     ┆ [2, 1, null]       │
└────────────┴──────────┴──────────┴──────────┴────────────────────┘

Agora estamos finalmente chegando à pergunta real:
Eu gostaria de desfazer o pivot ranksnovamente e produzir um dataframe organizado. Estou procurando pelas seguintes colunas: symbol, date, return, e rank. Eu estava pensando em criar três novas colunas (basicamente usando explodepara descompactar a lista, mas isso criará apenas novas linhas em vez de colunas).

Além disso, estou pensando se preciso fazer pivot dfem primeiro lugar ou se há uma maneira melhor de operar diretamente no original dfem formato tidy? Na verdade, estou procurando desempenho, pois dfpoderia ter milhões de linhas.

1 respostas

Voted

m-sarabi · Answer 1 · 2024-09-02T04:16:02+08:00

Bem, você pode simplificar o processo sem a necessidade explodee para evitar a necessidade de pivotar e despivotar:

returns = df.drop_nulls().with_columns(
    pl.col("price").pct_change(n=2).over("symbol").alias("return")
)

shape: (16, 4)
┌─────────┬────────────┬───────┬──────────┐
│ symbol  ┆ date       ┆ price ┆ return   │
│ ---     ┆ ---        ┆ ---   ┆ ---      │
│ str     ┆ str        ┆ i64   ┆ f64      │
╞═════════╪════════════╪═══════╪══════════╡
│ symbol1 ┆ 2023-12-30 ┆ 100   ┆ null     │
│ symbol1 ┆ 2023-12-31 ┆ 105   ┆ null     │
│ symbol1 ┆ 2024-01-03 ┆ 110   ┆ 0.1      │
│ symbol1 ┆ 2024-01-04 ┆ 115   ┆ 0.095238 │
│ symbol1 ┆ 2024-01-05 ┆ 120   ┆ 0.090909 │
│ …       ┆ …          ┆ …     ┆ …        │
│ symbol3 ┆ 2023-12-30 ┆ 3000  ┆ null     │
│ symbol3 ┆ 2023-12-31 ┆ 3100  ┆ null     │
│ symbol3 ┆ 2024-01-03 ┆ 3200  ┆ 0.066667 │
│ symbol3 ┆ 2024-01-04 ┆ 3300  ┆ 0.064516 │
│ symbol3 ┆ 2024-01-05 ┆ 3400  ┆ 0.0625   │
└─────────┴────────────┴───────┴──────────┘

Em seguida, classifique os valores de retorno:

ranked_returns = returns.with_columns(
    pl.col("return").rank(descending=True).over("date").cast(pl.UInt8).alias("rank")
)

shape: (16, 5)
┌─────────┬────────────┬───────┬──────────┬──────┐
│ symbol  ┆ date       ┆ price ┆ return   ┆ rank │
│ ---     ┆ ---        ┆ ---   ┆ ---      ┆ ---  │
│ str     ┆ str        ┆ i64   ┆ f64      ┆ u8   │
╞═════════╪════════════╪═══════╪══════════╪══════╡
│ symbol1 ┆ 2023-12-30 ┆ 100   ┆ null     ┆ null │
│ symbol1 ┆ 2023-12-31 ┆ 105   ┆ null     ┆ null │
│ symbol1 ┆ 2024-01-03 ┆ 110   ┆ 0.1      ┆ 1    │
│ symbol1 ┆ 2024-01-04 ┆ 115   ┆ 0.095238 ┆ 2    │
│ symbol1 ┆ 2024-01-05 ┆ 120   ┆ 0.090909 ┆ 2    │
│ …       ┆ …          ┆ …     ┆ …        ┆ …    │
│ symbol3 ┆ 2023-12-30 ┆ 3000  ┆ null     ┆ null │
│ symbol3 ┆ 2023-12-31 ┆ 3100  ┆ null     ┆ null │
│ symbol3 ┆ 2024-01-03 ┆ 3200  ┆ 0.066667 ┆ 2    │
│ symbol3 ┆ 2024-01-04 ┆ 3300  ┆ 0.064516 ┆ 3    │
│ symbol3 ┆ 2024-01-05 ┆ 3400  ┆ 0.0625   ┆ 3    │
└─────────┴────────────┴───────┴──────────┴──────┘

E selecione apenas as colunas symbol, date, return, e rank:

tidy_df = ranked_returns.select(["symbol", "date", "return", "rank"])

shape: (16, 4)
┌─────────┬────────────┬──────────┬──────┐
│ symbol  ┆ date       ┆ return   ┆ rank │
│ ---     ┆ ---        ┆ ---      ┆ ---  │
│ str     ┆ str        ┆ f64      ┆ u8   │
╞═════════╪════════════╪══════════╪══════╡
│ symbol1 ┆ 2023-12-30 ┆ null     ┆ null │
│ symbol1 ┆ 2023-12-31 ┆ null     ┆ null │
│ symbol1 ┆ 2024-01-03 ┆ 0.1      ┆ 1    │
│ symbol1 ┆ 2024-01-04 ┆ 0.095238 ┆ 2    │
│ symbol1 ┆ 2024-01-05 ┆ 0.090909 ┆ 2    │
│ …       ┆ …          ┆ …        ┆ …    │
│ symbol3 ┆ 2023-12-30 ┆ null     ┆ null │
│ symbol3 ┆ 2023-12-31 ┆ null     ┆ null │
│ symbol3 ┆ 2024-01-03 ┆ 0.066667 ┆ 2    │
│ symbol3 ┆ 2024-01-04 ┆ 0.064516 ┆ 3    │
│ symbol3 ┆ 2024-01-05 ┆ 0.0625   ┆ 3    │
└─────────┴────────────┴──────────┴──────┘

Computação de classificações transversais usando um dataframe de polares organizado

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Computação de classificações transversais usando um dataframe de polares organizado

1 respostas

relate perguntas