从重复行中提取字符串，删除重复项，给出字符串计数[重复]

Question

FreelanceConsultant

Asked: 2024-07-05 21:50:03 +0800 CST2024-07-05 21:50:03 +0800 CST 2024-07-05 21:50:03 +0800 CST

如何使用索引从 Pandas DataFrame 中选择行？

772

我正在尝试使用整数索引值从 Pandas DataFrame 中选择行。

这不起作用，并且我获得了索引错误。

这表明，按索引选择行隐式地会导致reset_index()被调用，尽管我可能错了
下面的例子解释了为什么我观察到的行为表明了这一点

import pandas

data = {
    'number': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'fruit': 3 * ['apple'] + 3 * ['pear'] + 2 * ['banana'] + ['pear'] + ['apple'],
    'color': 3 * ['red', 'green', 'blue'] + ['red'],
    'letter': 5 * ['A', 'B'],
}
df = pandas.DataFrame(data)
df

df_selected = df[df['fruit'] == 'pear']
df_selected

df_selected.index
Index([3, 4, 5, 8], dtype='int64')

这当然表明我有一个 DataFrame，其索引包含值 3、4、5 和 8。

我现在想使用整数索引选择 DataFrame 中从第一次出现“pear”到最后一次出现的所有行：

我认为使用以下语法应该可以实现：

FIRST = 3
LAST = 8
df_selected[FIRST:LAST+1]

但我错了：

打印时（显示 DataFrame 到stdout或 Jupyter Notebook Cell）索引显示值3, 4, 5, 8。
当使用语法df_selected[A:B]或df_selected.iloc[A:B]整数参数按索引进行选择时A，它们B被解释为df_selected.reset_index()已被调用
我这样说是因为调用reset_index()会产生以下输出

这意味着按索引选择时使用的正确范围是df_selected.iloc[0:3+1]

我知道这是一个非常基本的问题，但我希望有人可以给我指出正确的方向，让我理解为什么会出现这样的行为，如果有特殊的原因的话。

1 个回答

Voted

mozway · Answer 1 · 2024-07-05T21:54:55+08:00

您应该使用loc按标签进行选择：

FIRST = 3
LAST = 8

df_selected = df[df['fruit'] == 'pear']
out = df.loc[FIRST:LAST]

或者：

idx = df[df['fruit'] == 'pear'].index
out = df.loc[idx.min():idx.max()]

注意：由于loc包括两端，因此您不需要+1。

输出：

   number   fruit  color letter
3       4    pear    red      B
4       5    pear  green      A
5       6    pear   blue      B
6       7  banana    red      A
7       8  banana  green      B
8       9    pear   blue      A

当使用时df_selected[1:2]，其行为类似于iloc并从第四到第九个位置进行选择（因此仅选择带有标签的行8）。

选择

如果您的目标是选择第一个和最后一个匹配之间的所有值，那么您也可以使用布尔索引：

m = df['fruit'].eq('pear')
out = df[m.cummax()&m[::-1].cummax()]

怎么运行的：

   number   fruit  color letter      m  m.cummax()  m[::-1].cummax()      &
0       1   apple    red      A  False       False              True  False
1       2   apple  green      B  False       False              True  False
2       3   apple   blue      A  False       False              True  False
3       4    pear    red      B   True        True              True   True
4       5    pear  green      A   True        True              True   True
5       6    pear   blue      B   True        True              True   True
6       7  banana    red      A  False        True              True   True
7       8  banana  green      B  False        True              True   True
8       9    pear   blue      A   True        True              True   True
9      10   apple    red      B  False        True             False  False

如何使用索引从 Pandas DataFrame 中选择行？

选择

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

如何使用索引从 Pandas DataFrame 中选择行？

1 个回答

选择

相关问题