我正在对一个非常大的数据框进行统计,该数据框取多个随机样本的总和。我希望样本是分离的(两个不同的样本中不应该存在任何数字)。
可能多次使用某些数字的最小示例:
import polars as pl
import numpy as np
df = pl.DataFrame(
{"a": np.random.random(1000)}
)
N_samples = 50
N_logs = 20
sums = [
df.sample(N_logs).select(pl.col("a").sum()).item()
for _ in range(N_samples)
]
如何避免多次使用相同的号码?
您可以使用(默认设置)一次性对它们全部进行采样,
with_replacement = False
然后汇总为N_samples
总和: