Como divido o loop for em 3 quadros de dados individuais?

Question

Raptor

Asked: 2024-08-21 14:12:35 +0800 CST2024-08-21 14:12:35 +0800 CST 2024-08-21 14:12:35 +0800 CST

Como usar apply() no DataFrame usando uma função personalizada?

772

Eu tenho o seguinte DataFrame do Pandas:

import pandas as pd
from collections import Counter
print(sentences)

a saída é (sim, o nome da coluna é 0):

              0
0             A
1             B
2             C
3             D
4            EEE
...         ...
462064467    FGH
462064468    QRS
462064469    EEE
462064470   VWXYZ
462064471    !!!

[462064472 rows x 1 columns]

Eu tenho uma função personalizada para verificar se o conteúdo da coluna 0tem comprimento> 1 ou não (apenas um exemplo):

def is_more_than_one_character(t):
    if len(t) > 1:
        return True
    else:
        return False

E eu aplico a função assim:

counter = Counter(sentences.apply(is_more_than_one_character))

Desejo contar a ocorrência de cada string com comprimento> 1. Aqui está o exemplo de saída de print(counter):

[(EEE, 2), (FGH, 1), (QRS, 1), (!!!, 1)...]

mas atualmente, a saída é:

[(False, 460686058), (True, 1378414)]

O que eu perdi? Acho que estou perto. Desde já, obrigado.

2 respostas

Voted

mozway · Answer 1 · 2024-08-21T14:20:53+08:00

Best Answer

mozway

2024-08-21T14:20:53+08:002024-08-21T14:20:53+08:00

Você pode filtrar com str.lenindexação booleana e passar para value_counts:

out = sentences.loc[sentences[0].str.len()>1, 0].value_counts()

Ou conte tudo e filtre as chaves:

out = sentences[0].value_counts()
out = out[out.index.str.len()>1]

Saída:

0
EEE      2
FGH      1
QRS      1
VWXYZ    1
!!!      1
Name: count, dtype: int64

Se você realmente precisa usar sua função e abordagem original:

out = Counter(sentences.loc[sentences[0].apply(is_more_than_one_character), 0])

Ou vetorizando a função:

from numpy import vectorize

@vectorize
def is_more_than_one_character(t):
    if len(t) > 1:
        return True
    else:
        return False
    
s = sentences[0]
out = Counter(s[is_more_than_one_character(s)])

Ou, na verdade, já que você terá que fazer um loop de qualquer maneira, é melhor usar python puro:

out = Counter(filter(is_more_than_one_character, sentences[0]))

Saída:

Counter({'EEE': 2, 'FGH': 1, 'QRS': 1, 'VWXYZ': 1, '!!!': 1})

3

Karan Shishoo · Answer 2 · 2024-08-21T14:19:43+08:00

Karan Shishoo

2024-08-21T14:19:43+08:002024-08-21T14:19:43+08:00

Você pode criar uma máscara para filtrar todas as strings de comprimento 1 e, em seguida, usar value_counts para obter as contagens de cada string restante como -

mask = (sentences['0'].str.len() > 1))
sentences = sentences.loc[mask]
print(sentences['0'].value_counts())

1

Como usar apply() no DataFrame usando uma função personalizada?

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Como usar apply() no DataFrame usando uma função personalizada?

2 respostas

relate perguntas