Galedon

Asked: 2024-11-28 17:39:37 +0800 CST2024-11-28 17:39:37 +0800 CST 2024-11-28 17:39:37 +0800 CST

从数据框生成多个不连续的样本

我正在对一个非常大的数据框进行统计，该数据框取多个随机样本的总和。我希望样本是分离的（两个不同的样本中不应该存在任何数字）。

可能多次使用某些数字的最小示例：

import polars as pl
import numpy as np

df = pl.DataFrame(
    {"a": np.random.random(1000)}
    )

N_samples = 50
N_logs = 20
sums = [
        df.sample(N_logs).select(pl.col("a").sum()).item()
        for _ in range(N_samples)
        ]

如何避免多次使用相同的号码？

1 个回答

Voted

Best Answer

roman

2024-11-28T17:48:03+08:002024-11-28T17:48:03+08:00

您可以使用（默认设置）一次性对它们全部进行采样，with_replacement = False然后汇总为N_samples总和：

(
    df
    .sample(N_samples * N_logs)
    .group_by(pl.int_range(pl.len()) // N_logs)
    .sum()
    .get_column("a")
)

shape: (50,)
Series: 'a' [f64]
[
    9.993712
    10.667377
    9.983055
    7.092786
    10.780031
    …
    9.384218
    8.57084
    10.085927
    12.77378
    10.23612
]

从数据框生成多个不连续的样本

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

从数据框生成多个不连续的样本

1 个回答

相关问题