从重复行中提取字符串，删除重复项，给出字符串计数[重复]

Question

Ishigami

Asked: 2025-01-22 16:52:55 +0800 CST2025-01-22 16:52:55 +0800 CST 2025-01-22 16:52:55 +0800 CST

如何在数据框中生成一个新列来指示具有正结果的列？

772

我有一个如下数据框：

ID   f_1   f_2   f_3
1    1     0     1
2    0     1     1
3    1     1     0
4    1     0     1
5    0     1     1

我完全不知道如何开始。而且我的原始数据框相当大（约 1M 行），因此非常希望有一种快速的方法。

我想生成一个新列Result，记录f其中包含 1 的一对，即

ID   f_1   f_2   f_3   Result
1    1     0     1     1_3
2    0     1     1     2_3
3    1     1     0     1_2
4    1     0     1     1_3
5    0     1     1     2_3

1 个回答

Voted

mozway · Answer 1 · 2025-01-22T16:54:57+08:00

您可以在使用/dot重命名列后使用产品：str.replacestr.removeprefix

tmp = df.drop(columns='ID')
df['Result'] = (tmp @ tmp.columns.str.replace('^f', '', regex=True)).str[1:]

# variant
df['Result'] = (tmp @ tmp.columns.str.removeprefix('f')).str[1:]

另外，还有一个更经典的 pandas 方法（速度慢得多），包括重塑（melt）、过滤（使用query）和groupby.agg：

df['Result'] = (df.melt('ID', ignore_index=False).query('value == 1')
                  .groupby(level=0)['variable']
                  .agg(lambda x: '_'.join(x.str.extract('_(\d+)', expand=False)))
               )

或者使用stack：

s = df.drop(columns='ID').stack()
df['Result'] = (s[s==1].reset_index(-1).groupby(level=0)['level_1']
                .agg(lambda x: '_'.join(x.str.extract('_(\d+)', expand=False)))
               )

输出：

   ID  f_1  f_2  f_3 Result
0   1    1    0    1    1_3
1   2    0    1    1    2_3
2   3    1    1    0    1_2
3   4    1    0    1    1_3
4   5    0    1    1    2_3

时间安排

在 20K 行上：

# dot product
2.96 ms ± 161 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

# melt + groupby.agg
965 ms ± 59.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

# stack + groupby.agg
928 ms ± 43.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

在 1M 行上：

# dot product
359 ms ± 56.8 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

# melt/stack + groupby.agg
did not run under a few minutes

如何在数据框中生成一个新列来指示具有正结果的列？

时间安排

重新格式化数字，在固定位置插入分隔符

为什么 C++20 概念会导致循环约束错误，而老式的 SFINAE 不会？

VScode 自动卸载扩展的问题（Material 主题）

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

如何在数据框中生成一个新列来指示具有正结果的列？

1 个回答

时间安排

相关问题