AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / coding / 问题 / 77878728
Accepted
FredMaster
FredMaster
Asked: 2024-01-25 17:15:53 +0800 CST2024-01-25 17:15:53 +0800 CST 2024-01-25 17:15:53 +0800 CST

Polars 数据框:重叠组

  • 772

我目前正在从 pandas“转换”为 Polars,因为我真的很喜欢这个 api。这个问题是我之前的问题的一个更普遍的问题(请参阅此处)

我有以下数据框


# Dummy data
df = pl.DataFrame({
    "Buy_Signal": [1, 0, 1, 0, 1, 0, 0], 
    "Returns": [0.01, 0.02, 0.03, 0.02, 0.01, 0.00, -0.01],
})

我想最终Returns对不同间隔的列条件进行聚合 - 由 column 给出Buy_Signal。在上述情况下,长度是从每个 1 到数据帧的末尾。因此,生成的数据框应如下所示

| group     | Returns   |
|------:    |--------:  |
|   u32     |     f64   |
|     1     |    0.01   |
|     1     |    0.02   |
|     1     |    0.03   |
|     1     |    0.02   |
|     1     |    0.01   |
|     1     |     0.0   |
|     1     |   -0.01   |
|     2     |    0.03   |
|     2     |    0.02   |
|     2     |    0.01   |
|     2     |     0.0   |
|     2     |   -0.01   |
|     3     |    0.01   |
|     3     |     0.0   |
|     3     |   -0.01   |

作为我上一个问题的答案发布的一种方法如下:


# Build overlapping group index
idx = df.select(index=
          pl.when(pl.col("Buy_Signal") == 1)
          .then(pl.int_ranges(pl.int_range(pl.len()), pl.len()  ))
).explode(pl.col("index")).drop_nulls().cast(pl.UInt32)

# Join index with original data
df = (df.with_row_index()
    .join(idx, on="index")
    .with_columns(group = (pl.col("index") == pl.col("index").max())
                .shift().cum_sum().backward_fill() + 1)
    .select(["group", "Returns"])
)
df

问:这个问题还有其他好的解决办法吗?

我所说的“好”是指(i)可读和/或(ii)快速。

我的实际问题包含更大的数据集。

谢谢

python
  • 3 3 个回答
  • 50 Views

3 个回答

  • Voted
  1. Best Answer
    Hericks
    2024-01-25T18:36:41+08:002024-01-25T18:36:41+08:00

    为了完整起见,这里有一个不依赖实验功能的替代解决方案。

    (
        df
        .with_columns(
            pl.col("Buy_Signal").cum_sum().alias("group")
        )
        .with_columns(
            pl.int_ranges(pl.col("group").min(), pl.col("group")+1)
        )
        .explode("group")
        .sort("group")
    )
    

    输出。

    shape: (15, 3)
    ┌────────────┬─────────┬───────┐
    │ Buy_Signal ┆ Returns ┆ group │
    │ ---        ┆ ---     ┆ ---   │
    │ i64        ┆ f64     ┆ i64   │
    ╞════════════╪═════════╪═══════╡
    │ 1          ┆ 0.01    ┆ 1     │
    │ 0          ┆ 0.02    ┆ 1     │
    │ 1          ┆ 0.03    ┆ 1     │
    │ 0          ┆ 0.02    ┆ 1     │
    │ 1          ┆ 0.01    ┆ 1     │
    │ …          ┆ …       ┆ …     │
    │ 0          ┆ 0.0     ┆ 2     │
    │ 0          ┆ -0.01   ┆ 2     │
    │ 1          ┆ 0.01    ┆ 3     │
    │ 0          ┆ 0.0     ┆ 3     │
    │ 0          ┆ -0.01   ┆ 3     │
    └────────────┴─────────┴───────┘
    
    • 2
  2. Roman Pekar
    2024-01-25T18:09:23+08:002024-01-25T18:09:23+08:00

    我认为这是使用 的一个很好的案例cumulative_eval()。

    乍一看,您需要对 DataFrame 进行 2 次传递。首先,您需要计算cum_sum以获得正确的分组:

    df = df.with_columns(
            Holdings = pl.col('Buy_Signal').cum_sum()
        ).group_by("Holdings").agg(
            pl.col(["Returns"])).sort("Holdings", descending=True
        )
    
    print(df)
    
    shape: (3, 2)
    ┌──────────┬────────────────────┐
    │ Holdings ┆ Returns            │
    │ ---      ┆ ---                │
    │ i64      ┆ list[f64]          │
    ╞══════════╪════════════════════╡
    │ 3        ┆ [0.01, 0.0, -0.01] │
    │ 2        ┆ [0.03, 0.02]       │
    │ 1        ┆ [0.01, 0.02]       │
    └──────────┴────────────────────┘
    

    请注意,目前我们的 DataFrame 是用 排序的descending=True,这很重要,因为我们希望我们的列表从最大组到最小组聚合。

    现在cumulative_eval(),连同implode():

    df = df.with_columns(
            pl.col("Returns").cumulative_eval(pl.element().explode().implode())
        )
    
    print(df.explode("Returns"))
    
    shape: (15, 2)
    ┌──────────┬─────────┐
    │ Holdings ┆ Returns │
    │ ---      ┆ ---     │
    │ i64      ┆ f64     │
    ╞══════════╪═════════╡
    │ 3        ┆ 0.01    │
    │ 3        ┆ 0.0     │
    │ 3        ┆ -0.01   │
    │ 2        ┆ 0.01    │
    │ …        ┆ …       │
    │ 1        ┆ 0.03    │
    │ 1        ┆ 0.02    │
    │ 1        ┆ 0.01    │
    │ 1        ┆ 0.02    │
    └──────────┴─────────┘
    

    您可以看到结果与您的预期相符。但是,您必须小心性能,因为cumulative_eval文档中有注释:

    警告

    此功能是实验性的,可能会发生变化,但不会被视为重大更改。

    这可能非常慢,因为它的复杂度可能是 O(n^2)。不要将其用于访问所有元素的操作。

    • 1
  3. jqurious
    2024-01-25T20:14:41+08:002024-01-25T20:14:41+08:00

    只是添加一些更多信息,因为我认为问题标题是基于我之前的糟糕措辞:

    我找到了问题的现有定义(这可能是问题的更好标题?)

    Polars 相当于 SQL 的ROWS BETWEEN CURRENT ROW AND UNBOUNDED FOLLOWING 窗口框架。

    ┌────────────┬─────────┐
    │ Buy_Signal ┆ Returns │
    │ ---        ┆ ---     │
    │ i64        ┆ f64     │ # New "group/window" starts when Buy_Signal == 1
    ╞════════════╪═════════╡ # 
    │ 1          ┆ 0.01    │ # ┌─ group 1 ─┐
    │ 0          ┆ 0.02    │ # │           │ 
    │ 1          ┆ 0.03    │ # │           │┌─ group 2 ─┐
    │ 0          ┆ 0.02    │ # │           ││           │ 
    │ 1          ┆ 0.01    │ # │           ││           │┌─ group 3 ─┐
    │ 0          ┆ 0.0     │ # │           ││           ││           │
    │ 0          ┆ -0.01   │ # └───────────┘└───────────┘└───────────┘
    └────────────┴─────────┘
    

    例如使用DuckDB来演示:

    duckdb.sql("""
    from df
    select 
       buy_signal, 
       returns, 
       case when buy_signal = 1
       then
          list(returns) over (rows between current row and unbounded following)
       end as group
    """)
    
    ┌────────────┬─────────┬────────────────────────────────────────────┐
    │ Buy_Signal │ Returns │                   group                    │
    │   int64    │ double  │                  double[]                  │
    ├────────────┼─────────┼────────────────────────────────────────────┤
    │          1 │    0.01 │ [0.01, 0.02, 0.03, 0.02, 0.01, 0.0, -0.01] │
    │          0 │    0.02 │ NULL                                       │
    │          1 │    0.03 │ [0.03, 0.02, 0.01, 0.0, -0.01]             │
    │          0 │    0.02 │ NULL                                       │
    │          1 │    0.01 │ [0.01, 0.0, -0.01]                         │
    │          0 │     0.0 │ NULL                                       │
    │          0 │   -0.01 │ NULL                                       │
    └────────────┴─────────┴────────────────────────────────────────────┘
    
    • 0

相关问题

  • 如何将 for 循环拆分为 3 个单独的数据框?

  • 如何检查 Pandas DataFrame 中的所有浮点列是否近似相等或接近

  • “load_dataset”如何工作,因为它没有检测示例文件?

  • 为什么 pandas.eval() 字符串比较返回 False

  • Python tkinter/ ttkboostrap dateentry 在只读状态下不起作用

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    Vue 3:创建时出错“预期标识符但发现‘导入’”[重复]

    • 1 个回答
  • Marko Smith

    为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍,但在任何 Oracle JVM 上却不行?

    • 1 个回答
  • Marko Smith

    具有指定基础类型但没有枚举器的“枚举类”的用途是什么?

    • 1 个回答
  • Marko Smith

    如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误?

    • 6 个回答
  • Marko Smith

    `(表达式,左值) = 右值` 在 C 或 C++ 中是有效的赋值吗?为什么有些编译器会接受/拒绝它?

    • 3 个回答
  • Marko Smith

    何时应使用 std::inplace_vector 而不是 std::vector?

    • 3 个回答
  • Marko Smith

    在 C++ 中,一个不执行任何操作的空程序需要 204KB 的堆,但在 C 中则不需要

    • 1 个回答
  • Marko Smith

    PowerBI 目前与 BigQuery 不兼容:Simba 驱动程序与 Windows 更新有关

    • 2 个回答
  • Marko Smith

    AdMob:MobileAds.initialize() - 对于某些设备,“java.lang.Integer 无法转换为 java.lang.String”

    • 1 个回答
  • Marko Smith

    我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

    • 1 个回答
  • Martin Hope
    Aleksandr Dubinsky 为什么 InetAddress 上的 switch 模式匹配会失败,并出现“未涵盖所有可能的输入值”? 2024-12-23 06:56:21 +0800 CST
  • Martin Hope
    Phillip Borge 为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍,但在任何 Oracle JVM 上却不行? 2024-12-12 20:46:46 +0800 CST
  • Martin Hope
    Oodini 具有指定基础类型但没有枚举器的“枚举类”的用途是什么? 2024-12-12 06:27:11 +0800 CST
  • Martin Hope
    sleeptightAnsiC `(表达式,左值) = 右值` 在 C 或 C++ 中是有效的赋值吗?为什么有些编译器会接受/拒绝它? 2024-11-09 07:18:53 +0800 CST
  • Martin Hope
    The Mad Gamer 何时应使用 std::inplace_vector 而不是 std::vector? 2024-10-29 23:01:00 +0800 CST
  • Martin Hope
    Chad Feller 在 5.2 版中,bash 条件语句中的 [[ .. ]] 中的分号现在是可选的吗? 2024-10-21 05:50:33 +0800 CST
  • Martin Hope
    Wrench 为什么双破折号 (--) 会导致此 MariaDB 子句评估为 true? 2024-05-05 13:37:20 +0800 CST
  • Martin Hope
    Waket Zheng 为什么 `dict(id=1, **{'id': 2})` 有时会引发 `KeyError: 'id'` 而不是 TypeError? 2024-05-04 14:19:19 +0800 CST
  • Martin Hope
    user924 AdMob:MobileAds.initialize() - 对于某些设备,“java.lang.Integer 无法转换为 java.lang.String” 2024-03-20 03:12:31 +0800 CST
  • Martin Hope
    MarkB 为什么 GCC 生成有条件执行 SIMD 实现的代码? 2024-02-17 06:17:14 +0800 CST

热门标签

python javascript c++ c# java typescript sql reactjs html

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve