Polars - 获取包含每行最大值的列名称

Question

usdn

Asked: 2024-09-17 06:40:08 +0800 CST2024-09-17 06:40:08 +0800 CST 2024-09-17 06:40:08 +0800 CST

极坐标系中的滚动模式

772

我有一个长度约为 100M 行的数据框，其中包含不同组中的 ID。其中一些是错误的（以 99 表示）。我正尝试使用滚动模式窗口来纠正它们，类似于下面的代码示例。有没有更好的方法来做到这一点，因为 rolling_map() 非常慢？

import polars as pl
from scipy import stats

def dummy(input):
    return stats.mode(input)[0]

df = pl.DataFrame({'group': [10, 10, 10, 10, 10, 10, 10, 20, 20, 20, 20],
                   'id': [1, 1, 99, 1, 1, 2, 2, 3, 3, 99, 3]})

df.with_columns(pl.col('id')
                 .rolling_map(function=dummy,
                              window_size=3,
                              min_periods=1,
                              center=True)
                 .over('group')
                 .alias('id_mode'))

shape: (11, 3)
╭───────┬─────┬─────────╮
│ group ┆  id ┆ id_mode │
│   i64 ┆ i64 ┆     i64 │
╞═══════╪═════╪═════════╡
│    10 ┆   1 ┆       1 │
│    10 ┆   1 ┆       1 │
│    10 ┆  99 ┆       1 │
│    10 ┆   1 ┆       1 │
│    10 ┆   1 ┆       1 │
│    10 ┆   2 ┆       2 │
│    10 ┆   2 ┆       2 │
│    20 ┆   3 ┆       3 │
│    20 ┆   3 ┆       3 │
│    20 ┆  99 ┆       3 │
│    20 ┆   3 ┆       3 │
╰───────┴─────┴─────────╯

1 个回答

Voted

jqurious · Answer 1 · 2024-09-17T06:52:19+08:00

Best Answer

jqurious

2024-09-17T06:52:19+08:002024-09-17T06:52:19+08:00

有一些框架级.rolling()方法停留在“表达领域”。

(df.with_row_index()
   .rolling(group_by="group", index_column="index", period="3i")
   .agg(pl.col("id").mode().first())
)

shape: (11, 3)
┌───────┬───────┬─────┐
│ group ┆ index ┆ id  │
│ ---   ┆ ---   ┆ --- │
│ i64   ┆ u32   ┆ i64 │
╞═══════╪═══════╪═════╡
│ 10    ┆ 0     ┆ 1   │
│ 10    ┆ 1     ┆ 1   │
│ 10    ┆ 2     ┆ 1   │
│ 10    ┆ 3     ┆ 1   │
│ 10    ┆ 4     ┆ 1   │
│ 10    ┆ 5     ┆ 1   │
│ 10    ┆ 6     ┆ 2   │
│ 20    ┆ 7     ┆ 3   │
│ 20    ┆ 8     ┆ 3   │
│ 20    ┆ 9     ┆ 3   │
│ 20    ┆ 10    ┆ 3   │
└───────┴───────┴─────┘

1

极坐标系中的滚动模式

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

极坐标系中的滚动模式

1 个回答

相关问题