如何将 for 循环拆分为 3 个单独的数据框？

Question

lzill

Asked: 2024-08-30 18:28:46 +0800 CST2024-08-30 18:28:46 +0800 CST 2024-08-30 18:28:46 +0800 CST

极坐标中的条件重复数据删除

772

我有一个数据集，想从中删除重复的条目。我使用的 lazyframe 结构如下：

df = pl.from_repr("""
┌──────┬────────────┬──────────────────┬───────┐
│ id   ┆ title      ┆ type             ┆ type2 │
│ ---  ┆ ---        ┆ ---              ┆ ---   │
│ i64  ┆ str        ┆ str              ┆ i64   │
╞══════╪════════════╪══════════════════╪═══════╡
│ 1001 ┆ Research A ┆ journal article  ┆ 35    │
│ 1002 ┆ Research B ┆ book chapter     ┆ 41    │
│ 1003 ┆ Research C ┆ journal article  ┆ 35    │
│ 1004 ┆ Research D ┆ conference paper ┆ 42    │
│ 1001 ┆ Research E ┆ journal article  ┆ 35    │
│ 1002 ┆ Research F ┆ journal article  ┆ 41    │
│ 1003 ┆ Research G ┆                  ┆ 41    │
│ 1002 ┆ Research I ┆ book chapter     ┆ 41    │
│ 1003 ┆ Research J ┆ journal article  ┆ 35    │
└──────┴────────────┴──────────────────┴───────┘
""")

我想删除具有相同的条目id，但实际上存在不同的情况：

重复项具有相同的内容type（例如 1001）：保留第一个。
重复项具有不同的type：丢弃以空字符串（“”）作为类型的重复项，然后仅保留符合以下type和对的条目type2：

dict_df = pl.DataFrame({
    "type": ['journal article', 'book chapter', 'book chapter'],
    "type2": [35, 41, 42]
})

预期输出

id[i64]	标题[字符串]	类型[str]	类型2[i64]
1001	研究A	期刊文章	三十五
1002	研究B	书章节	41
1003	研究C	期刊文章	三十五
1004	研究方向	会议论文	四十二

1001：相同类型，保留第一个
1002：不同类型，保留第一次出现的带有 {'book chapter': 41} 的条目
1003：不同类型，丢弃类型为空的条目并保留第一个匹配项
1004：不是重复的

我尝试了很多方法，主要是使用 pl.when() 表达式，但我无法找到过滤组的方法。

(
    df
    .sort('type', descending=True)
    .group_by("id")
    .agg([
        pl.when(pl.col("type").n_unique() > 1)
        .then( ... )
        .otherwise(pl.all().first())
    ])
)

2 个回答

Voted

orlp · Answer 1 · 2024-08-30T18:48:34+08:00

Best Answer

orlp

2024-08-30T18:48:34+08:002024-08-30T18:48:34+08:00

创建一个偏好表，表明您对每个组合的期望程度：

preference = pl.DataFrame({
    "type": ["journal article", "book chapter", "book chapter"],
    "iris_type": [35, 41, 42],
    "preference": [0, 1, 2]
})

将偏好表与您的数据表连接起来：

joined = df.lazy().join(preference.lazy(), on=["type", "iris_type"], how="left")

根据偏好对连接表进行排序，选择每个组中的第一个并删除偏好列：

out = (
    joined.sort("preference", descending=True, nulls_last=True)
        .group_by("id")
        .first()
        .drop("preference")
        .collect()
)

3

Roman Pekar · Answer 2 · 2024-08-30T18:48:12+08:00

您也许可以在GroupBy上下文中应用您的逻辑，但您也可以先预先过滤 DataFrame，这样您就只拥有您想要保留的行：

(
    df
    .join(dict_df.with_row_index(), on=["type","type2"], how="left")
    .filter(
        (pl.col.type.n_unique().over("id") == 1) |
        ((pl.col.type != "") & (pl.col.index.is_not_null()))
    )
    .drop("index")
    .unique("id", keep="first", maintain_order=True)
    # alternatively,
    # .group_by("id").first()
)

┌──────┬────────────┬──────────────────┬───────┐
│ id   ┆ title      ┆ type             ┆ type2 │
│ ---  ┆ ---        ┆ ---              ┆ ---   │
│ i64  ┆ str        ┆ str              ┆ i64   │
╞══════╪════════════╪══════════════════╪═══════╡
│ 1001 ┆ Research A ┆ journal article  ┆ 35    │
│ 1003 ┆ Research C ┆ journal article  ┆ 35    │
│ 1004 ┆ Research D ┆ conference paper ┆ 42    │
│ 1002 ┆ Research F ┆ journal article  ┆ 35    │
└──────┴────────────┴──────────────────┴───────┘

极坐标中的条件重复数据删除

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

如果 T 既不可构造、不可复制、也不可移动，那么我可以拥有 std::optional<T> 吗？

为什么我可以定义一个 constinit 的 std::string 实例？如果对象需要动态初始化，constinit 不是被禁止的吗？

如何分配以后放置的新“如同新”

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

将 NULL 和 nullptr 传递给模板参数有什么区别？

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

极坐标中的条件重复数据删除

2 个回答

相关问题