如何将 for 循环拆分为 3 个单独的数据框？

Question

django.seolpyo.com

Asked: 2024-12-18 09:09:05 +0800 CST2024-12-18 09:09:05 +0800 CST 2024-12-18 09:09:05 +0800 CST

将每个部分确定的值相乘

772

我处于需要将几列乘以与间隔相对应的值的情况。

我正在使用 Pandas，但我使用 for 循环来获取值，如下所示。

我认为有比这更好的方法，有人可以给我一些建议吗？

样本：

import pandas as pd

d = {
    5: 5,
    4: 7,
    3: 2,
    2: -4,
    1: -5,
}
def mul(value):
    if value < 1: return value * 0.01
    elif 5 < value: return value * 20
    for k, v in d.items():
        if value <= k:
            val = value * v
            break
    return val

a = [
    {'a': 5, 'b': 10, 'c': 2},
    {'a': 4, 'b': 0.5, 'c': 4},
    {'a': 3.5, 'b': 1.5, 'c': 5},
    {'a': 2.1, 'b': 5, 'c': 6},
    {'a': 0.1, 'b': 1, 'c': 7},
]

df = pd.DataFrame(a)
a = []
b = []
for i in df.values:
    a.append(mul(i[0]))
    b.append(mul(i[1]))
df['a1'] = a
df['b1'] = b
print(df.head())

"""
     a     b     c      a1       b1
0  5.0  10.0   2.0  25.000  200.000
1  4.0   0.5   4.0  20.000    0.005
2  3.5   1.5   5.0  17.500    7.500
3  2.1   5.0   6.0  10.500   25.000
4  0.1   1.0   7.0   0.001    5.000
"""

2 个回答

Voted

Panda Kim · Answer 1 · 2024-12-18T09:37:04+08:00

Panda Kim

2024-12-18T09:37:04+08:002024-12-18T09:37:04+08:00

代码

使用切割

bins = [float('-inf')] + list(d.keys())

out = pd.concat([
    df,
    df.apply(lambda x: pd.cut(x, bins=bins, labels=d.values()))
      .astype('float')
      .mul(df)
      .add_suffix('1')
], axis=1)

出去：

     a    b    a1    b1
0  5.0  2.0  25.0  -8.0
1  4.0  0.5  28.0  -2.5
2  3.5  1.5  24.5  -6.0
3  2.1  5.0   4.2  25.0
4  1.0  1.0  -5.0  -5.0

1

mozway · Answer 2 · 2024-12-18T11:02:14+08:00

已编辑问题的更新答案

自从问题被编辑以来，逻辑发生了很大变化，您无法轻松地将操作矢量化。值的映射在很大程度上取决于函数的内部逻辑mul，而这里取决于字典中键的顺序。

如果没有矢量化，你可以将代码简化为：

cols = ['a', 'b']
out = df.join(df[cols].map(mul).add_suffix('1'))

输出：

     a     b  c      a1       b1
0  5.0  10.0  2  25.000  200.000
1  4.0   0.5  4  20.000    0.005
2  3.5   1.5  5  17.500    7.500
3  2.1   5.0  6  10.500   25.000
4  0.1   1.0  7   0.001    5.000

最初问题的原始答案

这正是numpy.searchsorted正在做的事情，只需将其与整数数组索引结合起来：

import numpy as np

k = np.array(list(d))          # array([1, 2, 3, 4, 5])
v = np.array(list(d.values())) # array([-5, -4,  2,  7,  5])

out = df.mul(v[np.searchsorted(k, df)])

注意：中的键d必须已排序。此外，这使用side='left'的默认参数searchsorted。

输出：

      a     b
0  25.0  -8.0
1  28.0  -2.5
2  24.5  -6.0
3   4.2  25.0
4  -5.0  -5.0

要合并到原始 DataFrame 中，请执行以下join操作：

out = df.join(df.mul(v[np.searchsorted(k, df)]).add_suffix('1'))

输出：

     a    b    a1    b1
0  5.0  2.0  25.0  -8.0
1  4.0  0.5  28.0  -2.5
2  3.5  1.5  24.5  -6.0
3  2.1  5.0   4.2  25.0
4  1.0  1.0  -5.0  -5.0

中间（匹配值的索引k）：

# np.searchsorted(k, df)
array([[4, 1],
       [3, 0],
       [3, 1],
       [2, 4],
       [0, 0]])

将每个部分确定的值相乘

已编辑问题的更新答案

最初问题的原始答案

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

将每个部分确定的值相乘

2 个回答

已编辑问题的更新答案

最初问题的原始答案

相关问题