polars - obtém o nome da coluna contendo o valor máximo por linha

Question

usdn

Asked: 2024-09-17 06:40:08 +0800 CST2024-09-17 06:40:08 +0800 CST 2024-09-17 06:40:08 +0800 CST

Modo de rolamento em Polars

772

Tenho um data frame de ~100M linhas contendo IDs em diferentes grupos. Alguns deles estão errados (indicados pelo 99). Estou tentando corrigi-los com uma janela de modo de rolagem, semelhante ao exemplo de código abaixo. Existe uma maneira melhor de fazer isso, já que rolling_map() é super lento?

import polars as pl
from scipy import stats

def dummy(input):
    return stats.mode(input)[0]

df = pl.DataFrame({'group': [10, 10, 10, 10, 10, 10, 10, 20, 20, 20, 20],
                   'id': [1, 1, 99, 1, 1, 2, 2, 3, 3, 99, 3]})

df.with_columns(pl.col('id')
                 .rolling_map(function=dummy,
                              window_size=3,
                              min_periods=1,
                              center=True)
                 .over('group')
                 .alias('id_mode'))

shape: (11, 3)
╭───────┬─────┬─────────╮
│ group ┆  id ┆ id_mode │
│   i64 ┆ i64 ┆     i64 │
╞═══════╪═════╪═════════╡
│    10 ┆   1 ┆       1 │
│    10 ┆   1 ┆       1 │
│    10 ┆  99 ┆       1 │
│    10 ┆   1 ┆       1 │
│    10 ┆   1 ┆       1 │
│    10 ┆   2 ┆       2 │
│    10 ┆   2 ┆       2 │
│    20 ┆   3 ┆       3 │
│    20 ┆   3 ┆       3 │
│    20 ┆  99 ┆       3 │
│    20 ┆   3 ┆       3 │
╰───────┴─────┴─────────╯

1 respostas

Voted

jqurious · Answer 1 · 2024-09-17T06:52:19+08:00

Best Answer

jqurious

2024-09-17T06:52:19+08:002024-09-17T06:52:19+08:00

Existem .rolling()métodos de nível de quadro que permanecem na "terra da expressão" .

(df.with_row_index()
   .rolling(group_by="group", index_column="index", period="3i")
   .agg(pl.col("id").mode().first())
)

shape: (11, 3)
┌───────┬───────┬─────┐
│ group ┆ index ┆ id  │
│ ---   ┆ ---   ┆ --- │
│ i64   ┆ u32   ┆ i64 │
╞═══════╪═══════╪═════╡
│ 10    ┆ 0     ┆ 1   │
│ 10    ┆ 1     ┆ 1   │
│ 10    ┆ 2     ┆ 1   │
│ 10    ┆ 3     ┆ 1   │
│ 10    ┆ 4     ┆ 1   │
│ 10    ┆ 5     ┆ 1   │
│ 10    ┆ 6     ┆ 2   │
│ 20    ┆ 7     ┆ 3   │
│ 20    ┆ 8     ┆ 3   │
│ 20    ┆ 9     ┆ 3   │
│ 20    ┆ 10    ┆ 3   │
└───────┴───────┴─────┘

1

Modo de rolamento em Polars

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Modo de rolamento em Polars

1 respostas

relate perguntas