如何将 for 循环拆分为 3 个单独的数据框？

Question

user24758287

Asked: 2024-09-11 12:30:00 +0800 CST2024-09-11 12:30:00 +0800 CST 2024-09-11 12:30:00 +0800 CST

如何根据列名提取值并将其放入极坐标中的另一列中？

772

我想在 python 的 Polars 库中根据另一列的名称在一列中填充一个值（我通过扩展变量的列名获得了以下 DF）：

输入：

姓名	平均的	中位数	问题 1	多变的
苹果	2	3	4	平均的
苹果	2	3	4	中位数
苹果	2	3	4	问题 1
香蕉	1	5	10	平均的
香蕉	1	5	10	中位数
香蕉	1	5	10	问题 1

预期输出：

姓名	平均的	中位数	问题 1	多变的	价值
苹果	2	3	4	平均的	2
苹果	2	3	4	中位数	3
苹果	2	3	4	问题 1	4
香蕉	1	5	10	平均的	1
香蕉	1	5	10	中位数	5
香蕉	1	5	10	问题 1	10

您可以在此处生成输入表：

test = pl.DataFrame(
    {
        "Name": ["Apple","Apple","Apple","Banana","Banana","Banana"],
        "Average": [2,2,2,1,1,1],
        "Median": [3,3,3,5,5,5],
        "Q1": [4,4,4,10,10,10],
        "Variable":["Average","Median","Q1","Average","Median","Q1"]
    }
)

我尝试过：

df = df.with_columns(value = pl.col(f"{pl.col.variable}"))

但这并不奏效，因为极坐标将参数视为函数 (?)。有人知道怎么做吗？

注意：我还尝试过转置数据框，但这不仅计算成本高昂，而且也不起作用！因为它会将 DF 转置为 5 行长的 DF。我需要的是 (名称 * 变量数) 行长的 DF。

也就是说，例如，我有 3 个不同的名称（比如，苹果、香蕉和火龙果），并且有 3 个变量（平均值、中位数、Q1），那么我的 DF 应该有 9 行长！

2 个回答

Voted

Roman Pekar · Answer 1 · 2024-09-11T14:50:25+08:00

您可以使用

when/then()检查列的值是否Variable与列名相同。
coalesce()选择第一个非空结果。

cols = [x for x in df.schema if x not in ("Name", "Variable")]

df.with_columns(
    value = pl.coalesce(
        pl.when(pl.col.Variable == col).then(pl.col(col))
        for col in cols
    )
)

┌────────┬─────────┬────────┬─────┬──────────┬───────┐
│ Name   ┆ Average ┆ Median ┆ Q1  ┆ Variable ┆ value │
│ ---    ┆ ---     ┆ ---    ┆ --- ┆ ---      ┆ ---   │
│ str    ┆ i64     ┆ i64    ┆ i64 ┆ str      ┆ i64   │
╞════════╪═════════╪════════╪═════╪══════════╪═══════╡
│ Apple  ┆ 2       ┆ 3      ┆ 4   ┆ Average  ┆ 2     │
│ Apple  ┆ 2       ┆ 3      ┆ 4   ┆ Median   ┆ 3     │
│ Apple  ┆ 2       ┆ 3      ┆ 4   ┆ Q1       ┆ 4     │
│ Banana ┆ 3       ┆ 5      ┆ 10  ┆ Average  ┆ 3     │
│ Banana ┆ 3       ┆ 5      ┆ 10  ┆ Median   ┆ 5     │
│ Banana ┆ 3       ┆ 5      ┆ 10  ┆ Q1       ┆ 10    │
└────────┴─────────┴────────┴─────┴──────────┴───────┘

hide1nbush · Answer 2 · 2024-09-11T12:51:58+08:00

hide1nbush

2024-09-11T12:51:58+08:002024-09-11T12:51:58+08:00

您可以通过映射polars.when()来利用此功能。polars.then()

例如，

variable_columns = ["Q1", "Average", "Median"]

expressions = [
    pl.when(pl.col("Variable") == col_name).then(pl.col(col_name))
    for col_name in variable_columns
]

combined_expr = pl.fold(expressions[0], lambda acc, x: acc.or_(x), expressions[1:])

df = df.with_columns(combined_expr.alias("Value"))

1

如何根据列名提取值并将其放入极坐标中的另一列中？

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

如何根据列名提取值并将其放入极坐标中的另一列中？

2 个回答

相关问题