Como divido o loop for em 3 quadros de dados individuais?

Question

Andi

Asked: 2024-08-26 22:10:19 +0800 CST2024-08-26 22:10:19 +0800 CST 2024-08-26 22:10:19 +0800 CST

Substitua uma célula em uma coluna com base em uma célula em outra coluna em um DataFrame polar

772

Considere o seguinte pl.DataFrame:

import polars as pl

df = pl.DataFrame(
    {
        "symbol": ["s1", "s1", "s2", "s2"],
        "signal": [0, 1, 2, 0],
        "trade": [None, 1, None, -1],
    }
)

shape: (4, 3)
┌────────┬────────┬───────┐
│ symbol ┆ signal ┆ trade │
│ ---    ┆ ---    ┆ ---   │
│ str    ┆ i64    ┆ i64   │
╞════════╪════════╪═══════╡
│ s1     ┆ 0      ┆ null  │
│ s1     ┆ 1      ┆ 1     │
│ s2     ┆ 2      ┆ null  │
│ s2     ┆ 0      ┆ -1    │
└────────┴────────┴───────┘

Agora preciso agrupar o dataframe symbole verificar se a primeira linha de cada grupo da coluna signalnão é igual a 0 (zero). Se for igual a True, preciso substituir a célula correspondente na coluna tradepelo valor na célula em signal.

Aqui está o que estou realmente procurando:

shape: (4, 3)
┌────────┬────────┬───────┐
│ symbol ┆ signal ┆ trade │
│ ---    ┆ ---    ┆ ---   │
│ str    ┆ i64    ┆ i64   │
╞════════╪════════╪═══════╡
│ s1     ┆ 0      ┆ null  │
│ s1     ┆ 1      ┆ 1     │
│ s2     ┆ 2      ┆ 2     │ <- copy value from the ``signal`` column
│ s2     ┆ 0      ┆ -1    │
└────────┴────────┴───────┘

3 respostas

Voted

Hericks · Answer 1 · 2024-08-26T22:16:10+08:00

Best Answer

Hericks

2024-08-26T22:16:10+08:002024-08-26T22:16:10+08:00

Para isso, uma construção quando-então-caso contrário pode ser usada.

Criamos uma condição que avalia Trueexatamente para as primeiras linhas (crie o índice instantaneamente usando pl.int_range) em cada grupo com signalvalor diferente de 0.
Com base nessa condição, selecionamos o valor na coluna signalou trade.

df.with_columns(
    trade=pl.when(
        pl.col("signal") != 0,
        pl.int_range(pl.len()) == 0,
    ).then("signal").otherwise("trade").over("symbol")
)

shape: (4, 3)
┌────────┬────────┬───────┐
│ symbol ┆ signal ┆ trade │
│ ---    ┆ ---    ┆ ---   │
│ str    ┆ i64    ┆ i64   │
╞════════╪════════╪═══════╡
│ s1     ┆ 0      ┆ null  │
│ s1     ┆ 1      ┆ 1     │
│ s2     ┆ 2      ┆ 2     │
│ s2     ┆ 0      ┆ -1    │
└────────┴────────┴───────┘

4

jqurious · Answer 2 · 2024-08-27T00:19:12+08:00

Você pode usar .is_first_distinct()para identificar as linhas desejadas.

df.with_columns(pl.col.symbol.is_first_distinct().alias("checkme"))

shape: (4, 4)
┌────────┬────────┬───────┬─────────┐
│ symbol ┆ signal ┆ trade ┆ checkme │
│ ---    ┆ ---    ┆ ---   ┆ ---     │
│ str    ┆ i64    ┆ i64   ┆ bool    │
╞════════╪════════╪═══════╪═════════╡
│ s1     ┆ 0      ┆ null  ┆ true    │
│ s1     ┆ 1      ┆ 1     ┆ false   │
│ s2     ┆ 2      ┆ null  ┆ true    │
│ s2     ┆ 0      ┆ -1    ┆ false   │
└────────┴────────┴───────┴─────────┘

E use como parte da lógica quando/então:

df.with_columns(
    pl.when(
       pl.col.symbol.is_first_distinct(),
       pl.col.signal != 0
    )
    .then("signal")
    .otherwise("trade")
    .alias("trade")
)

shape: (4, 3)
┌────────┬────────┬───────┐
│ symbol ┆ signal ┆ trade │
│ ---    ┆ ---    ┆ ---   │
│ str    ┆ i64    ┆ i64   │
╞════════╪════════╪═══════╡
│ s1     ┆ 0      ┆ null  │
│ s1     ┆ 1      ┆ 1     │
│ s2     ┆ 2      ┆ 2     │
│ s2     ┆ 0      ┆ -1    │
└────────┴────────┴───────┘

mozway · Answer 3 · 2024-08-26T22:26:39+08:00

mozway

2024-08-26T22:26:39+08:002024-08-26T22:26:39+08:00

Usando o símbolo e :cum_count overwhen

df.with_columns(
    trade=pl.when(
        pl.cum_count('symbol').over('symbol').eq(1),
        pl.col('signal') != 0,
    )
    .then('signal')
    .otherwise('trade')
)

Saída:

┌────────┬────────┬───────┐
│ symbol ┆ signal ┆ trade │
│ ---    ┆ ---    ┆ ---   │
│ str    ┆ i64    ┆ i64   │
╞════════╪════════╪═══════╡
│ s1     ┆ 0      ┆ null  │
│ s1     ┆ 1      ┆ 1     │
│ s2     ┆ 2      ┆ 2     │
│ s2     ┆ 2      ┆ -2    │
└────────┴────────┴───────┘

0

Substitua uma célula em uma coluna com base em uma célula em outra coluna em um DataFrame polar

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Substitua uma célula em uma coluna com base em uma célula em outra coluna em um DataFrame polar

3 respostas

relate perguntas