从重复行中提取字符串，删除重复项，给出字符串计数[重复]

Question

Bera

Asked: 2024-11-22 02:26:59 +0800 CST2024-11-22 02:26:59 +0800 CST 2024-11-22 02:26:59 +0800 CST

通过其他列中的最大值获取某一列的值

772

我有 df:

import pandas as pd
data = {"id_1":["a","b","c"],
        "id_2":["q","w","e"],
        "val_1":[1,2,3],
        "val_2":[2,0,0]}
df = pd.DataFrame(data)

#   id_1 id_2  val_1  val_2
# 0    a    q      1      2
# 1    b    w      2      0
# 2    c    e      3      0

val_1我想比较和val_2列的值。如果val_1大于val_2（它们永远不会相同），我想用的值填充新列id_1，否则用的值填充新列id_2。要创建：

  id_1 id_2  val_1  val_2 max_id
0    a    q      1      2      q
1    b    w      2      0      b
2    c    e      3      0      c

max_id第一行是 q 因为val_2>val_1......

我可以通过以下方式获得最大值： df[["val_1", "val_2"]].max(axis=1)

并从中获取 ID 的列名：

index_map = {0:"id_1", 1:"id_2"}
df.apply(lambda x: [x.val_1, x.val_2].index(max([x.val_1, x.val_2])), axis=1).map(index_map)
# 0    id_2
# 1    id_1
# 2    id_1

但后来我的想法就消失了。

1 个回答

Voted

mozway · Answer 1 · 2024-11-22T02:29:58+08:00

由于您有两列，因此一种简单的方法是使用where：

df['max_id'] = df['id_1'].where(df['val_1'].gt(df['val_2']), df['id_2'])

如果您想要推广到任意数量的 id /值对，您可以组合idxmax并索引查找：

idx, cols = pd.factorize(df.filter(like='val_').idxmax(axis=1)
                           .str.replace('val_', 'id_'))
df['max_id'] = df.reindex(cols, axis=1).to_numpy()[np.arange(len(df)), idx]

或者使用wide_to_long：

tmp = pd.wide_to_long(df.reset_index(), stubnames=['id', 'val'],
                      i='index', j='col', sep='_')
df['max_id'] = (tmp.loc[tmp.groupby(level='index')['val'].idxmax(), 'id']
                   .droplevel('col')
               )

或者，如果列已经按正确顺序排序（1,2,3 ...; 1,2,3 ...），使用numpy：

ids = df.filter(like='id_').to_numpy()
vals = df.filter(like='val_').to_numpy()

df['max_id'] = ids[np.arange(ids.shape[0]), np.argmax(vals, axis=1)]

输出：

  id_1 id_2  val_1  val_2 max_id
0    a    q      1      2      q
1    b    w      2      0      b
2    c    e      3      0      c

中间体：

# idxmax + factorize approach:

  id_1 id_2  val_1  val_2 idxmax str.replace
0    a    q      1      2  val_2        id_2
1    b    w      2      0  val_1        id_1
2    c    e      3      0  val_1        id_1

# wide_to_long output:

          id  val
index col        
0     1    a    1
1     1    b    2    # max from index = 1
2     1    c    3    # max from index = 2
0     2    q    2    # max from index = 0
1     2    w    0
2     2    e    0

通过其他列中的最大值获取某一列的值

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

通过其他列中的最大值获取某一列的值

1 个回答

相关问题