如何将 for 循环拆分为 3 个单独的数据框？

Question

ViSa

Asked: 2024-11-06 22:16:00 +0800 CST2024-11-06 22:16:00 +0800 CST 2024-11-06 22:16:00 +0800 CST

如何根据 Pandas 中的部分列名选择列范围？

772

我有 pandas 数据框，我正在尝试选择多列（列范围从开始Test到Bio Ref）。选择必须从列开始Test到名称以开头的任何列Bio。以下是示例数据框。

实际上它可以包含：

列之前的任意数量的列Test，
Test&之间的任意列数Bio Ref，如 2、3、4、5 等。
之后有任意数量的列Bio Ref。
Bio Ref列中可以包含后缀，但Bio Ref始终作为列名的开头。

df_chunk = pd.DataFrame({
    'Waste':[None,None],
    'Test':['something', 'something'],
    '2':[None,None],
    '3':[None,None],
    'Bio Ref':['2-50','15-100'],
    'None':[None,None]})

df_chunk

   Waste         Test      2       3  Bio Ref  None
0   None    something   None    None     2-50  None
1   None    something   None    None   15-100  None

我已尝试过以下有效的代码：

df_chunk.columns.str.startswith('Bio')

df_chunk[df_chunk.columns[pd.Series(df_chunk.columns).str.startswith('Bio')==1]]

问题：但是当我尝试使用它们进行多列选择时，它不起作用：

df_chunk.loc[:, 'Test':df_chunk.columns.str.startswith('Bio')]

2 个回答

Voted

mozway · Answer 1 · 2024-11-06T22:20:56+08:00

Best Answer

mozway

2024-11-06T22:20:56+08:002024-11-06T22:20:56+08:00

您可以为布尔索引创建掩码：

m1 = np.maximum.accumulate(df_chunk.columns=='Test')
# array([False,  True,  True,  True,  True,  True])
m2 = np.maximum.accumulate(df_chunk.columns.str.startswith('Bio')[::-1])[::-1]
# array([ True,  True,  True,  True,  True, False])

# m1 & m2
# array([False,  True,  True,  True,  True, False])

out = df_chunk.loc[:, (m1&m2)]

或者识别正确的名称来构建切片：

start = 'Test'
end = next(iter(df_chunk.columns[df_chunk.columns.str.startswith('Bio')]), None)

out = df_chunk.loc[:, slice(start, end)]

输出：

        Test     2     3 Bio Ref
0  something  None  None    2-50
1  something  None  None  15-100

1

Timur Shtatland · Answer 2 · 2024-11-06T23:48:22+08:00

Timur Shtatland

2024-11-06T23:48:22+08:002024-11-06T23:48:22+08:00

re.match从标准库中使用re如下：

import re
import pandas as pd
idxs = [i for i, el in enumerate(df_chunk.columns)
        if el == 'Test' or re.match(r'^Bio', el)]
df_subset = df_chunk.iloc[:, idxs[0] : (idxs[1]+1) ]

输出：

        Test     2     3 Bio Ref
0  something  None  None    2-50
1  something  None  None  15-100

感谢wjandrea建议使用iloc。

参见：

pandas loc vs. iloc vs. at vs. iat？

0

如何根据 Pandas 中的部分列名选择列范围？

参见：

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

如果 T 既不可构造、不可复制、也不可移动，那么我可以拥有 std::optional<T> 吗？

为什么我可以定义一个 constinit 的 std::string 实例？如果对象需要动态初始化，constinit 不是被禁止的吗？

如何分配以后放置的新“如同新”

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

将 NULL 和 nullptr 传递给模板参数有什么区别？

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

如何根据 Pandas 中的部分列名选择列范围？

2 个回答

参见：

相关问题