如何将 for 循环拆分为 3 个单独的数据框？

Question

Евгения

Asked: 2024-10-29 16:44:55 +0800 CST2024-10-29 16:44:55 +0800 CST 2024-10-29 16:44:55 +0800 CST

根据具有特定名称的列的条件过滤行

772

我有一个数据框：

df = pd.DataFrame({"ID": ["ID1", "ID2", "ID3",
                                "ID4", "ID5"],
                   "Item": ["Item1", "Item2", "Item3",
                                    "Item4","Item5"],
                   "Catalog1": ["cat1", "1Cat12", "Cat35",
                                    "1cat3","Cat5"],
                   "Catalog2": ["Cat11", "Cat12", "Cat35",
                                    "1Cat1","2cat5"],
                   "Catalog3": ["cat6", "Ccat2", "1Cat9",
                                    "1cat3","Cat7"],
                   "Price": ["716", "599", "4400",
                                    "150","139"]})

我需要找到所有在名称以 Catalog 开头的列中包含字符串“cat1”或“Cat1”的行（这些列的数量可能有所不同，因此我不能只列出它们）。

我试过：

filter_col = [col for col in df if col.startswith('Catalog')]

df_res = df.loc[(filter_col.str.contains('(?i)cat1'))]

但我犯了错误：

AttributeError：'list' 对象没有属性 'str'

4 个回答

Voted

Ram · Answer 1 · 2024-10-29T16:57:35+08:00

Best Answer

Ram

2024-10-29T16:57:35+08:002024-10-29T16:57:35+08:00

在您的代码中，filter_col 是一个列表。您不能将 str 与它一起使用。您可以使用 pandas 函数来更快地执行操作。

以下是解决该问题的代码：

import pandas as pd

# Create the DataFrame
df = pd.DataFrame({"ID": ["ID1", "ID2", "ID3", "ID4", "ID5"],
                   "Item": ["Item1", "Item2", "Item3", "Item4","Item5"],
                   "Catalog1": ["cat1", "1Cat12", "Cat35", "1cat3","Cat5"],
                   "Catalog2": ["Cat11", "Cat12", "Cat35", "1Cat1","2cat5"],
                   "Catalog3": ["cat6", "Ccat2", "1Cat9", "1cat3","Cat7"],
                   "Price": ["716", "599", "4400", "150","139"]})

# Define the search strings
search_strings = ["cat1", "Cat1"]

# Filter the DataFrame
filtered_df = df[df.filter(like='Catalog').apply(lambda row: 
row.str.contains('|'.join(search_strings), case=False).any(), axis=1)]

print(filtered_df)

4

yellow_dot · Answer 2 · 2024-10-29T16:59:33+08:00

yellow_dot

2024-10-29T16:59:33+08:002024-10-29T16:59:33+08:00

我不知道你的原始数据有多大，但是对于下面的代码：

df.loc[[row for row in df.index if df.loc[row].str.contains('(?i)cat1').sum()]]

您将获得结果：

    ID      Item    Catalog1    Catalog2    Catalog3    Price
0   ID1     Item1   cat1        Cat11       cat6        716
1   ID2     Item2   1Cat12      Cat12       Ccat2       599
3   ID4     Item4   1cat3       1Cat1       1cat3       150

我发现的问题是您想.str直接使用列表的方法，这会导致错误。但是，您可以在pd.Series我的代码中使用它。

4

ThomasIsCoding · Answer 3 · 2024-10-29T17:31:10+08:00

ThomasIsCoding

2024-10-29T17:31:10+08:002024-10-29T17:31:10+08:00

也许你可以pd.Series在使用之前尝试一下str.contains，例如，

df[list(map(lambda x: any(pd.Series(x).str.contains("(?i)cat1")),df.filter(like = "Catalog").values))]

这样你就会得到

    ID   Item Catalog1 Catalog2 Catalog3 Price
0  ID1  Item1     cat1    Cat11     cat6   716
1  ID2  Item2   1Cat12    Cat12    Ccat2   599
3  ID4  Item4    1cat3    1Cat1    1cat3   150

1

amance · Answer 4 · 2024-10-29T22:23:48+08:00

amance

2024-10-29T22:23:48+08:002024-10-29T22:23:48+08:00

搜索每一列的简短一行。

df[df.apply(lambda x: x.str.contains('cat1', case=False)).any(axis=1)]

结果：

    ID   Item Catalog1 Catalog2 Catalog3 Price
0  ID1  Item1     cat1    Cat11     cat6   716
1  ID2  Item2   1Cat12    Cat12    Ccat2   599
3  ID4  Item4    1cat3    1Cat1    1cat3   150

0

根据具有特定名称的列的条件过滤行

为什么要通过 where 子句中绑定的通用特征来约束单位类型（如 `where () : Trait<…>`）？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

如果 T 既不可构造、不可复制、也不可移动，那么我可以拥有 std::optional<T> 吗？

为什么我可以定义一个 constinit 的 std::string 实例？如果对象需要动态初始化，constinit 不是被禁止的吗？

如何分配以后放置的新“如同新”

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

根据具有特定名称的列的条件过滤行

4 个回答

相关问题