如何将 for 循环拆分为 3 个单独的数据框？

Question

Raptor

Asked: 2024-08-21 14:12:35 +0800 CST2024-08-21 14:12:35 +0800 CST 2024-08-21 14:12:35 +0800 CST

如何使用自定义函数在 DataFrame 上使用 apply()？

772

我有以下 Pandas 数据框：

import pandas as pd
from collections import Counter
print(sentences)

输出是（是的，列名是0）：

              0
0             A
1             B
2             C
3             D
4            EEE
...         ...
462064467    FGH
462064468    QRS
462064469    EEE
462064470   VWXYZ
462064471    !!!

[462064472 rows x 1 columns]

我有一个自定义函数来检查列中的内容的0长度是否大于 1（仅作为示例）：

def is_more_than_one_character(t):
    if len(t) > 1:
        return True
    else:
        return False

我像这样应用该函数：

counter = Counter(sentences.apply(is_more_than_one_character))

我希望计算每个长度 > 1 的字符串的出现次数。以下是示例输出print(counter)：

[(EEE, 2), (FGH, 1), (QRS, 1), (!!!, 1)...]

但目前，输出是：

[(False, 460686058), (True, 1378414)]

我错过了什么？我想我已经接近答案了。提前致谢。

2 个回答

Voted

mozway · Answer 1 · 2024-08-21T14:20:53+08:00

Best Answer

mozway

2024-08-21T14:20:53+08:002024-08-21T14:20:53+08:00

您可以使用布尔索引进行过滤str.len，然后传递给value_counts：

out = sentences.loc[sentences[0].str.len()>1, 0].value_counts()

或者计算所有内容，然后过滤键：

out = sentences[0].value_counts()
out = out[out.index.str.len()>1]

输出：

0
EEE      2
FGH      1
QRS      1
VWXYZ    1
!!!      1
Name: count, dtype: int64

如果您确实需要使用您的功能和原始方法：

out = Counter(sentences.loc[sentences[0].apply(is_more_than_one_character), 0])

或者对函数进行矢量化：

from numpy import vectorize

@vectorize
def is_more_than_one_character(t):
    if len(t) > 1:
        return True
    else:
        return False
    
s = sentences[0]
out = Counter(s[is_more_than_one_character(s)])

或者，实际上，因为无论如何你都必须循环，所以最好使用纯 python：

out = Counter(filter(is_more_than_one_character, sentences[0]))

输出：

Counter({'EEE': 2, 'FGH': 1, 'QRS': 1, 'VWXYZ': 1, '!!!': 1})

3

Karan Shishoo · Answer 2 · 2024-08-21T14:19:43+08:00

Karan Shishoo

2024-08-21T14:19:43+08:002024-08-21T14:19:43+08:00

您可以制作一个掩码来过滤掉所有长度为 1 的字符串，然后使用 value_counts 获取每个剩余字符串的计数，如下所示 -

mask = (sentences['0'].str.len() > 1))
sentences = sentences.loc[mask]
print(sentences['0'].value_counts())

1

如何使用自定义函数在 DataFrame 上使用 apply()？

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

如何使用自定义函数在 DataFrame 上使用 apply()？

2 个回答

相关问题