如何将 for 循环拆分为 3 个单独的数据框？

Question

Giampaolo Levorato

Asked: 2024-11-12 03:39:46 +0800 CST2024-11-12 03:39:46 +0800 CST 2024-11-12 03:39:46 +0800 CST

在 Pandas 中计算行中的元素数量并创建列计数器

772

我创建了以下熊猫数据框：

import pandas as pd

ds = {'col1' : ['A','A','B','C','C','D'],
      'col2' : ['A','B','C','D','D','A']}

df = pd.DataFrame(data=ds)

数据框如下所示：

print(df)

  col1 col2
0    A    A
1    A    B
2    B    C
3    C    D
4    C    D
5    D    A

col1和中的可能值col2有A、B和C。D

我需要创建 4 个新列，称为：

countA：计算A每行/记录中有多少个
countB：计算B每行/记录中有多少个
countC：计算C每行/记录中有多少个
countD：计算D每行/记录中有多少个

因此，从上面的例子来看，生成的数据框将如下所示：

有人能帮帮我吗？

4 个回答

Voted

ThomasIsCoding · Answer 1 · 2024-11-12T03:52:53+08:00

ThomasIsCoding

2024-11-12T03:52:53+08:002024-11-12T03:52:53+08:00

也许这对你有用

from numpy import unique

for k in unique(df.values):
    df['count'+k] = df.eq(k).sum(axis=1)

由此得出

  col1 col2  countA  countB  countC  countD
0    A    A       2       0       0       0
1    A    B       1       1       0       0
2    B    C       0       1       1       0
3    C    D       0       0       1       1
4    C    D       0       0       1       1
5    D    A       1       0       0       1

6

rhug123 · Answer 2 · 2024-11-12T04:30:09+08:00

Best Answer

rhug123

2024-11-12T04:30:09+08:002024-11-12T04:30:09+08:00

这是一种使用的方法pd.get_dummies()

df.join(pd.get_dummies(df,prefix='',prefix_sep='').T.groupby(level=0).sum().T.rename('count{}'.format,axis=1))

这是一种使用的方法value_counts()

df.join(df.stack().groupby(level=0).value_counts().unstack(fill_value = 0).rename('count{}'.format,axis=1))

输出：

  col1 col2  countA  countB  countC  countD
0    A    A       2       0       0       0
1    A    B       1       1       0       0
2    B    C       0       1       1       0
3    C    D       0       0       1       1
4    C    D       0       0       1       1
5    D    A       1       0       0       1

2

mozway · Answer 3 · 2024-11-12T12:06:01+08:00

mozway

2024-11-12T12:06:01+08:002024-11-12T12:06:01+08:00

保持简单，您可以使用stack+droplevel来获取一个系列，然后crosstab进行计数和join输出，可选择在之后add_prefix重命名列：

# reshape to 1D
s = df.stack().droplevel(-1)

# count and add to original
out = df.join(pd.crosstab(s.index, s).add_prefix('count'))

输出：

  col1 col2  countA  countB  countC  countD
0    A    A       2       0       0       0
1    A    B       1       1       0       0
2    B    C       0       1       1       0
3    C    D       0       0       1       1
4    C    D       0       0       1       1
5    D    A       1       0       0       1

1

yellow_dot · Answer 4 · 2024-11-12T15:31:14+08:00

yellow_dot

2024-11-12T15:31:14+08:002024-11-12T15:31:14+08:00

您可以将整列与特定字母进行比较，将布尔值转换为 int，然后对每个字母的所得系列求和。例如：

将 pandas 导入为 pd

ds = {'col1' : ['A','A','B','C','C','D'],
      'col2' : ['A','B','C','D','D','A']}

df = pd.DataFrame(data=ds)

to_count = ['col1', 'col2']
for letter in ['A', 'B', 'C', 'D']:
    df[f'count_{letter}'] = sum([(df[col] == letter).astype(int) for col in to_count])

返回：

    col1 col2 count_A count_B count_C count_D
0   A   A   2   0   0   0
1   A   B   1   1   0   0
2   B   C   0   1   1   0
3   C   D   0   0   1   1
4   C   D   0   0   1   1
5   D   A   1   0   0   1

0

在 Pandas 中计算行中的元素数量并创建列计数器

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

在 Pandas 中计算行中的元素数量并创建列计数器

4 个回答

相关问题