如何将 for 循环拆分为 3 个单独的数据框？

Question

sguo

Asked: 2025-02-15 02:43:08 +0800 CST2025-02-15 02:43:08 +0800 CST 2025-02-15 02:43:08 +0800 CST

在将标量计算应用到数据框列之前，我们是否应该预先计算标量？

772

只是好奇选项 (b) 是否比选项 (a) 更有效？乍一看，选项 (a) 的操作将比选项 (b) 多几倍。但我对df中的一百万行进行了一些模拟，选项 (b) 平均只快了一小部分。这是否意味着 Pandas 会自动对选项 (a) 中的所有标量操作进行分组？

（a）变量 a、b、c、d、e、f 都是标量。

    df['val2'] = (a*b+c*d)*df['val1']*e/f

（二）

    x = (a*b+c*d)*e/f
    df['val2'] = df['val1']*x

1 个回答

Voted

mozway · Answer 1 · 2025-02-15T03:42:29+08:00

是的，最好预先计算x。实际上重要的是运算符优先级和执行运算的顺序。

假设s您的系列，运行时(a*b+c*d)*s*e/f您将对整个系列执行两次乘法和一次除法。如果您预先计算或使用(a*b+c*d)*e/f*s，则只有一个涉及系列的运算。

例子：

%timeit x*s
1.19 ms ± 73.9 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)

%timeit (a*b+c*d)*s*e/f
3.45 ms ± 133 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

%timeit s*(a*b+c*d)*e/f
3.63 ms ± 84.6 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

# now let's force the scalar operation to be grouped
%timeit s*((a*b+c*d)*e/f)
1.21 ms ± 29.2 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)

%timeit (a*b+c*d)*e/f*s
1.14 ms ± 80.6 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)

设置：

s = pd.Series(np.arange(1_000_000))
a=b=c=d=e=f=2
x = (a*b+c*d)*e/f

在初始阶段(a*b+c*d)*df['val1']*e/f，操作的顺序或操作如下：

a*b       # ab      #
c*d       # cd      # scalars
ab + cd   # abcd    #
s * abcd  # sabcd      #
e * sabcd # esabcd     # Series
esabcd / f             #

在将标量计算应用到数据框列之前，我们是否应该预先计算标量？

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

在将标量计算应用到数据框列之前，我们是否应该预先计算标量？

1 个回答

相关问题