从重复行中提取字符串，删除重复项，给出字符串计数[重复]

Question

Mike

Asked: 2025-01-20 20:08:07 +0800 CST2025-01-20 20:08:07 +0800 CST 2025-01-20 20:08:07 +0800 CST

根据条件根据第二个数据框逐行更新/更改值

772

我有一个像这样的条件数据框，其中大约有 300 行

pd.DataFrame({"PERSONALNR":["000009461","000009461"],"PERIODE":["202401","202402"],"MANDANT":["LB","LB"],"DA":["01","01"]})

其中“PERSONALNR”和“PERIODE”是我需要满足的条件，并且需要在第二个数据框中替换值“MANDANT”和“DA”

我想要替换的数据框与此类似，其中约有 110k 行

pd.DataFrame({"PERSONALNR":["000009461","000009461"],"PERIODE":["202401","202402"],"MANDANT":["LB","LB"],"DA":["01","01"], "KSTBEZ":["Springer pool","bla bla"]})

我想到的解决方案如下：

for row in POOL.itertuples():
    LA.loc[(LA.PERSONALNR==row.PERSONALNR)&(LA.PERIODE==row.PERIODE)&(LA.DA=="01")&(LA.KSTBEZ.str.contains("pool")),["MANDANT","DA"]]=[row.MANDANT,row.DA]

我的解决方案对于上面的数据框来说效果很好——大约需要 10 秒钟左右才能完成，但我需要在具有 100 万行的数据框中执行相同的操作——大约需要 10 分钟......

谁能想出更好的解决办法？

1 个回答

Voted

mozway · Answer 1 · 2025-01-20T20:15:59+08:00

假设 POOL 中没有重复的 PERSONALNR/PERIODE 组合。

您可以使用merge和布尔索引：

mask = LA['DA'].eq('01') & LA['KSTBEZ'].str.contains('pool')
tmp = (LA[['PERSONALNR', 'PERIODE']].reset_index()
       .merge(POOL, on=['PERSONALNR', 'PERIODE'], how='left')
       .set_index('index')
      )

LA.loc[mask, ['MANDANT', 'DA']] = tmp.loc[mask, ['MANDANT', 'DA']]

输出（使用 POOL 中的 MANDANT/DA 值尾随进行x演示）：

  PERSONALNR PERIODE MANDANT   DA         KSTBEZ
0  000009461  202401     LBx  01x  Springer pool
1  000009461  202402      LB   01        bla bla

为什么我们需要`reset_index`/ `set_index`？

之后merge，索引丢失，这将无法与掩码正确对齐或无法分配给输入LA。

例子：

LA = pd.DataFrame({'PERSONALNR': ['000009461', '000009461'],
                   'PERIODE': ['202401', '202402'],
                   'MANDANT': ['LB', 'LB'],
                   'DA': ['01', '01'],
                   'KSTBEZ': ['Springer pool', 'bla bla']},
                  index=[2, 0]) # Note the non-range index
POOL = pd.DataFrame({'PERSONALNR': ['000009461', '000009461'],
                     'PERIODE': ['202401', '202402'],
                     'MANDANT': ['LBx', 'LBx'],
                     'DA': ['01x', '01x']})

mask = LA['DA'].eq('01') & LA['KSTBEZ'].str.contains('pool')
tmp = (LA[['PERSONALNR', 'PERIODE']]#.reset_index()
       .merge(POOL, on=['PERSONALNR', 'PERIODE'], how='left')
       #.set_index('index')
      )

LA.loc[mask, ['MANDANT', 'DA']] = tmp.loc[mask, ['MANDANT', 'DA']]

输出：

IndexingError: Unalignable boolean Series provided as indexer (index of the boolean Series and of the indexed object do not match).

根据条件根据第二个数据框逐行更新/更改值

为什么我们需要`reset_index`/ `set_index`？

重新格式化数字，在固定位置插入分隔符

为什么 C++20 概念会导致循环约束错误，而老式的 SFINAE 不会？

VScode 自动卸载扩展的问题（Material 主题）

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

根据条件根据第二个数据框逐行更新/更改值

1 个回答

为什么我们需要reset_index/ set_index？

相关问题

为什么我们需要`reset_index`/ `set_index`？