Como divido o loop for em 3 quadros de dados individuais?

Question

Simon

Asked: 2024-09-26 23:37:24 +0800 CST2024-09-26 23:37:24 +0800 CST 2024-09-26 23:37:24 +0800 CST

Polars Pivot Dataframe conta os IDs únicos cumulativos

772

Tenho um dataframe polars que contém um ID, DATA e SO. Para cada dia, gostaria de contar quantos IDs únicos existem até aquele dia.

import polars as pl
df = (
    pl.DataFrame(
        {
            "DAY": [1,1,1,2,2,2,3,3,3],
            "OS" : ["A","B","A","B","A","B","A","B","A"],
            "ID": ["X","Y","Z","W","X","J","K","L","X"]
        }
    )
)

Saída desejada:

shape: (3, 3)
┌─────┬─────┬─────┐
│ DAY ┆ A   ┆ B   │
│ --- ┆ --- ┆ --- │
│ i64 ┆ i64 ┆ i64 │
╞═════╪═════╪═════╡
│ 1   ┆ 2   ┆ 1   │
│ 2   ┆ 2   ┆ 3   │
│ 3   ┆ 3   ┆ 4   │
└─────┴─────┴─────┘

Deveria ficar assim, porque no dia 1, há 3 valores e 3 IDs. No dia 2, o ID "X" é repetido com o mesmo SO, então, as colunas A permanecem as mesmas, e as outras 2 são diferentes, então adicione 2 a B. No dia 3, o ID X é repetido com A, e as outras 2 são diferentes, então ele soma novamente sobre cada coluna.

Acredito que isso poderia ser resolvido com uma abordagem como a seguinte:

(
    df
    .pivot(
        index="DAY",
        on="OS",
        aggregate_function=(pl.col("ID").cum_sum().unique())
    )
)

1 respostas

Voted

Cameron Riddell · Answer 1 · 2024-09-26T23:56:20+08:00

Best Answer

Cameron Riddell

2024-09-26T23:56:20+08:002024-09-26T23:56:20+08:00

Você pode usar Expr.is_first_distinct para marcar cada uma das primeiras entradas distintas de 'ID'dentro de cada 'OS'. Então você pode pivotar esses resultados e obter sua soma cumulativa.

import polars as pl
df = (
    pl.DataFrame(
        {
            "DAY": [1,1,1,2,2,2,3,3,3],
            "OS" : ["A","B","A","B","A","B","A","B","A"],
            "ID": ["X","Y","Z","W","X","J","K","L","X"]
        }
    )
)

print(
    df
    .with_columns(pl.col('ID').is_first_distinct().over('OS'))
    .pivot(
        index='DAY',
        on='OS',
        aggregate_function=pl.col('ID').sum()
    )
    .with_columns(pl.exclude('DAY').cum_sum())
)
# shape: (3, 3)
# ┌─────┬─────┬─────┐
# │ DAY ┆ A   ┆ B   │
# │ --- ┆ --- ┆ --- │
# │ i64 ┆ u32 ┆ u32 │
# ╞═════╪═════╪═════╡
# │ 1   ┆ 2   ┆ 1   │
# │ 2   ┆ 2   ┆ 3   │
# │ 3   ┆ 3   ┆ 4   │
# └─────┴─────┴─────┘

3

Polars Pivot Dataframe conta os IDs únicos cumulativos

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Polars Pivot Dataframe conta os IDs únicos cumulativos

1 respostas

relate perguntas