Polars - 获取包含每行最大值的列名称

Question

user432299

Asked: 2024-09-11 01:57:42 +0800 CST2024-09-11 01:57:42 +0800 CST 2024-09-11 01:57:42 +0800 CST

Python Polars 样本 N-1（按组 ID 进行替换）

772

我正在开展一个引导项目，需要对 M=N-1 个观测值进行放回抽样，其中 N 是特定组（由 group_id 定义）中唯一观测值的数量。我需要弄清楚如何在极坐标系中执行此操作。有什么解决方案吗？

这是一个展示我想要完成的事情的例子：

# Have:
water_data = {
    'group_id': [1,1,1,1,2,2,2,3,3,3,4,4,4,4,5,5,5],
    'obs_id_within_group': [1,2,3,4,1,2,3,1,2,3,1,2,3,4,1,2,3],
    'N': [4,4,4,4,3,3,3,3,3,3,4,4,4,4,3,3,3],
    'M': [3,3,3,3,2,2,2,2,2,2,3,3,3,3,2,2,2],
    'water_gallons': [12,23,21,11,10,10,10,23,24,25,27,30,17,12,11,14,20],
    'water_source': ['lake','lake','pond','river','lake','glacier','glacier','lake','pond','river','lake','lake','pond','river','river','lake','glacier'],
    'water_acidity': [3,4,5,1,2,4,3,2,3,3,4,6,7,8,8,3,1]
}
df=pl.DataFrame(water_data)
print(df)

# Want to randomly sample with replacement to:
sampled_water_data = {
    'group_id':            [1,1,1,2,2,3,3,4,4,4,5,5],
    'obs_id_within_group': [1,2,2,3,3,3,2,4,1,1,2,1],
    'N': [4,4,4,3,3,3,3,4,4,4,3,3],
    'M': [3,3,3,2,2,2,2,3,3,3,2,2],
    'water_gallons': [12,23,23,10,10,25,24,12,27,27,14,11],
    'water_source': ['lake','lake','lake','glacier','glacier','river','pond','river','lake','lake','lake','river'],
    'water_acidity': [3,4,4,3,3,3,3,8,4,4,5,8]
}
df_sampled=pl.DataFrame(sampled_water_data)
print(df_sampled)

不确定如何从每个组中抽取一个特定的数字。

1 个回答

Voted

Dogbert · Answer 1 · 2024-09-11T02:19:42+08:00

按分组group_id，pl.len() - 1对行进行替换抽样，最后对除之外的所有列进行分解group_id：

df2 = (
    df.group_by("group_id")
    .agg(pl.all().sample(pl.len() - 1, with_replacement=True))
    .explode(pl.all().exclude("group_id"))
)

print(df2)

输出：

shape: (12, 7)
┌──────────┬─────────────────────┬─────┬─────┬───────────────┬──────────────┬───────────────┐
│ group_id ┆ obs_id_within_group ┆ N   ┆ M   ┆ water_gallons ┆ water_source ┆ water_acidity │
│ ---      ┆ ---                 ┆ --- ┆ --- ┆ ---           ┆ ---          ┆ ---           │
│ i64      ┆ i64                 ┆ i64 ┆ i64 ┆ i64           ┆ str          ┆ i64           │
╞══════════╪═════════════════════╪═════╪═════╪═══════════════╪══════════════╪═══════════════╡
│ 3        ┆ 2                   ┆ 3   ┆ 2   ┆ 25            ┆ river        ┆ 2             │
│ 3        ┆ 3                   ┆ 3   ┆ 2   ┆ 25            ┆ lake         ┆ 3             │
│ 5        ┆ 3                   ┆ 3   ┆ 2   ┆ 14            ┆ river        ┆ 3             │
│ 5        ┆ 3                   ┆ 3   ┆ 2   ┆ 14            ┆ lake         ┆ 8             │
│ 1        ┆ 2                   ┆ 4   ┆ 3   ┆ 21            ┆ lake         ┆ 3             │
│ 1        ┆ 2                   ┆ 4   ┆ 3   ┆ 12            ┆ river        ┆ 4             │
│ 1        ┆ 1                   ┆ 4   ┆ 3   ┆ 12            ┆ lake         ┆ 3             │
│ 4        ┆ 2                   ┆ 4   ┆ 3   ┆ 17            ┆ pond         ┆ 6             │
│ 4        ┆ 3                   ┆ 4   ┆ 3   ┆ 30            ┆ river        ┆ 7             │
│ 4        ┆ 1                   ┆ 4   ┆ 3   ┆ 12            ┆ lake         ┆ 8             │
│ 2        ┆ 2                   ┆ 3   ┆ 2   ┆ 10            ┆ glacier      ┆ 2             │
│ 2        ┆ 2                   ┆ 3   ┆ 2   ┆ 10            ┆ lake         ┆ 3             │
└──────────┴─────────────────────┴─────┴─────┴───────────────┴──────────────┴───────────────┘

Python Polars 样本 N-1（按组 ID 进行替换）

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

Python Polars 样本 N-1（按组 ID 进行替换）

1 个回答

相关问题