如何将 for 循环拆分为 3 个单独的数据框？

Question

DJDuque

Asked: 2024-08-26 16:27:52 +0800 CST2024-08-26 16:27:52 +0800 CST 2024-08-26 16:27:52 +0800 CST

如何按条件过滤唯一性

772

假设我有一个如下数据集：

data = {
    "a": [1, 4, 2, 4, 7, 4],
    "b": [4, 2, 3, 3, 0, 2],
    "c": ["a", "b", "c", "d", "e", "f"],
}

并且我只想保留由和a + b的单个组合唯一描述的行。我设法破解了这一点：ab

df = (
    pl.DataFrame(data)
    .with_columns(sum_ab=pl.col("a") + pl.col("b"))
    .group_by("sum_ab")
    .agg(pl.col("a"), pl.col("b"), pl.col("c"))
    .filter(
        (pl.col("a").list.unique().list.len() == 1)
        & (pl.col("b").list.unique().list.len() == 1)
    )
    .explode(["a", "b", "c"])
    .select("a", "b", "c")
)

"""
shape: (2, 3)
┌─────┬─────┬─────┐
│ a   ┆ b   ┆ c   │
│ --- ┆ --- ┆ --- │
│ i64 ┆ i64 ┆ str │
╞═════╪═════╪═════╡
│ 4   ┆ 2   ┆ b   │
│ 4   ┆ 2   ┆ f   │
└─────┴─────┴─────┘
"""

有人能建议一种更好的方法来实现同样的效果吗？我花了一些功夫才弄清楚这个逻辑，所以我想有一种更直接/更优雅的方法可以获得相同的结果。

2 个回答

Voted

Roman Pekar · Answer 1 · 2024-08-26T16:34:56+08:00

Best Answer

Roman Pekar

2024-08-26T16:34:56+08:002024-08-26T16:34:56+08:00

.struct()将a和合并b为一列，以便我们检查唯一性。
n_unique()检查唯一性。
over()将计算限制在范围内a + b。

df.filter(
    pl.struct("a","b").n_unique().over(pl.col.a + pl.col.b) == 1
)

┌─────┬─────┬─────┐
│ a   ┆ b   ┆ c   │
│ --- ┆ --- ┆ --- │
│ i64 ┆ i64 ┆ str │
╞═════╪═════╪═════╡
│ 4   ┆ 2   ┆ b   │
│ 4   ┆ 2   ┆ f   │
└─────┴─────┴─────┘

如果您需要将其扩展到更大的列数，那么您可以使用它sum_horizontal()来使其更加通用：

columns = ["a","b"]

df.filter(
    pl.struct(columns).n_unique().over(pl.sum_horizontal(columns)) == 1
)

4

Dean MacGregor · Answer 2 · 2024-08-26T23:11:58+08:00

Dean MacGregor

2024-08-26T23:11:58+08:002024-08-26T23:11:58+08:00

起始价

df = pl.DataFrame(
    {
    "a": [1, 4, 2, 4, 7, 4],
    "b": [4, 2, 3, 3, 0, 2],
    "c": ["a", "b", "c", "d", "e", "f"],
}
)

您可以使用来over简化 group_by 和 explodes，否则这没什么不同。它还使用pl.all_horizontal而不是&和生成器（因此您可以轻松添加更多列）。

(
    df
    .with_columns(ab=pl.col('a')+pl.col('b'))
    .filter(
        pl.all_horizontal((pl.col(x).n_unique()==1).over('ab') for x in ['a','b'])
        )
    .drop('ab')    
)

需要注意的是，这会将 2+4 和 4+2 视为唯一组合，但我不知道这是否有意。

1

如何按条件过滤唯一性

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

如何按条件过滤唯一性

2 个回答

相关问题