如何将 for 循环拆分为 3 个单独的数据框？

Question

Simon

Asked: 2024-09-26 23:37:24 +0800 CST2024-09-26 23:37:24 +0800 CST 2024-09-26 23:37:24 +0800 CST

Polars Pivot Dataframe 计算累计唯一 ID

772

我有一个包含 ID、DATE 和 OS 的 polars 数据框。对于每一天，我想计算出到那一天为止有多少个唯一 ID。

import polars as pl
df = (
    pl.DataFrame(
        {
            "DAY": [1,1,1,2,2,2,3,3,3],
            "OS" : ["A","B","A","B","A","B","A","B","A"],
            "ID": ["X","Y","Z","W","X","J","K","L","X"]
        }
    )
)

期望输出：

shape: (3, 3)
┌─────┬─────┬─────┐
│ DAY ┆ A   ┆ B   │
│ --- ┆ --- ┆ --- │
│ i64 ┆ i64 ┆ i64 │
╞═════╪═════╪═════╡
│ 1   ┆ 2   ┆ 1   │
│ 2   ┆ 2   ┆ 3   │
│ 3   ┆ 3   ┆ 4   │
└─────┴─────┴─────┘

它看起来应该是这样的，因为在第 1 天，有 3 个值和 3 个 ID。在第 2 天，ID“X”使用相同的 OS 重复，因此，列 A 保持不变，而其他 2 个不同，因此将 2 添加到 B。在第 3 天，ID X 与 A 重复，而其他 2 个不同，因此它再次对每列求和。

我认为可以采用以下方法解决：

(
    df
    .pivot(
        index="DAY",
        on="OS",
        aggregate_function=(pl.col("ID").cum_sum().unique())
    )
)

1 个回答

Voted

Cameron Riddell · Answer 1 · 2024-09-26T23:56:20+08:00

Best Answer

Cameron Riddell

2024-09-26T23:56:20+08:002024-09-26T23:56:20+08:00

您可以使用Expr.is_first_distinct'ID'标记每个中的每个第一个不同条目'OS'。然后，您可以旋转这些结果并取其累计和。

import polars as pl
df = (
    pl.DataFrame(
        {
            "DAY": [1,1,1,2,2,2,3,3,3],
            "OS" : ["A","B","A","B","A","B","A","B","A"],
            "ID": ["X","Y","Z","W","X","J","K","L","X"]
        }
    )
)

print(
    df
    .with_columns(pl.col('ID').is_first_distinct().over('OS'))
    .pivot(
        index='DAY',
        on='OS',
        aggregate_function=pl.col('ID').sum()
    )
    .with_columns(pl.exclude('DAY').cum_sum())
)
# shape: (3, 3)
# ┌─────┬─────┬─────┐
# │ DAY ┆ A   ┆ B   │
# │ --- ┆ --- ┆ --- │
# │ i64 ┆ u32 ┆ u32 │
# ╞═════╪═════╪═════╡
# │ 1   ┆ 2   ┆ 1   │
# │ 2   ┆ 2   ┆ 3   │
# │ 3   ┆ 3   ┆ 4   │
# └─────┴─────┴─────┘

3

Polars Pivot Dataframe 计算累计唯一 ID

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

Polars Pivot Dataframe 计算累计唯一 ID

1 个回答

相关问题