从重复行中提取字符串，删除重复项，给出字符串计数[重复]

Question

Giampaolo Levorato

Asked: 2024-08-21 20:30:15 +0800 CST2024-08-21 20:30:15 +0800 CST 2024-08-21 20:30:15 +0800 CST

如何对同一记录中以相同单词开头的列求和

772

我创建了以下熊猫数据框：

ds = {'col1' : [1,1,1,1,1,1,1,2,2,2,2,3,3,3,3,3,4,4,4,4,4,4,4,4,4],
      'feature1' : [1,1,1,1,1,1,1,2,2,2,2,3,3,3,3,3,4,4,4,4,4,4,4,4,4],
      'col2' : [12,3,4,5,4,3,2,3,4,6,7,8,3,3,65,4,3,2,32,1,2,3,4,5,32],
      
      }

df = pd.DataFrame(data=ds)

数据框如下所示：

print(df)
    col1  feature1  col2
0      1         1    12
1      1         1     3
2      1         1     4
3      1         1     5
4      1         1     4
5      1         1     3
6      1         1     2
7      2         2     3
8      2         2     4
9      2         2     6
10     2         2     7
11     3         3     8
12     3         3     3
13     3         3     3
14     3         3    65
15     3         3     4
16     4         4     3
17     4         4     2
18     4         4    32
19     4         4     1
20     4         4     2
21     4         4     3
22     4         4     4
23     4         4     5
24     4         4    32

我需要创建一个新列（称为sumOfCols），它是名称以开头的列中包含的值的总和col（在上面的示例中，该列feature1不会包含在计算中）。

生成的数据框如下所示：

有人能帮帮我吗？提前谢谢了。

3 个回答

Voted

e-motta · Answer 1 · 2024-08-21T20:36:02+08:00

您可以filter使用正则表达式来访问列，sum然后axis=1：

df["sumOfCols"] = df.filter(regex="^col").sum(axis=1)

    col1  feature1  col2  sumOfCols
0      1         1    12         13
1      1         1     3          4
2      1         1     4          5
3      1         1     5          6
4      1         1     4          5
5      1         1     3          4
6      1         1     2          3
7      2         2     3          5
8      2         2     4          6
9      2         2     6          8
10     2         2     7          9
11     3         3     8         11
12     3         3     3          6
13     3         3     3          6
14     3         3    65         68
15     3         3     4          7
16     4         4     3          7
17     4         4     2          6
18     4         4    32         36
19     4         4     1          5
20     4         4     2          6
21     4         4     3          7
22     4         4     4          8
23     4         4     5          9
24     4         4    32         36

PaulS · Answer 2 · 2024-08-21T20:41:22+08:00

另一个可能的解决方案：

df.assign(sumOfCols = df[[col for col in df if col.startswith('col')]].sum(1))

或者，

df['sumOfCols'] = df.loc[:,df.columns.str.startswith('col')].sum(1)

输出：

    col1  feature1  col2  sumOfCols
0      1         1    12         13
1      1         1     3          4
2      1         1     4          5
3      1         1     5          6
4      1         1     4          5
5      1         1     3          4
6      1         1     2          3
7      2         2     3          5
8      2         2     4          6
9      2         2     6          8
10     2         2     7          9
11     3         3     8         11
12     3         3     3          6
13     3         3     3          6
14     3         3    65         68
15     3         3     4          7
16     4         4     3          7
17     4         4     2          6
18     4         4    32         36
19     4         4     1          5
20     4         4     2          6
21     4         4     3          7
22     4         4     4          8
23     4         4     5          9
24     4         4    32         36

ArchAngelPwn · Answer 3 · 2024-08-21T21:17:00+08:00

ArchAngelPwn

2024-08-21T21:17:00+08:002024-08-21T21:17:00+08:00

如果您不想使用 RegEx 或者希望它看起来更易读，还有一种方法可以实现这一点

columns_to_ignore = df.columns[~df.columns.str.startswith('col')].to_list()

df["sumOfCols"] = df.drop(columns=columns_to_ignore).sum(axis = 1)

这将动态获取所有不以“col”开头的列的列表，然后将它们从沿列轴的汇总聚合中删除。

1

如何对同一记录中以相同单词开头的列求和

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

如何对同一记录中以相同单词开头的列求和

3 个回答

相关问题