Como divido o loop for em 3 quadros de dados individuais?

Question

principal-ideal-domain

Asked: 2024-01-19 05:17:01 +0800 CST2024-01-19 05:17:01 +0800 CST 2024-01-19 05:17:01 +0800 CST

Extraindo o número máximo de strings do DataFrame (e alguns valores NaN)

772

Veja o DataFrame:

import pandas as pd
import numpy as np
data=pd.DataFrame(['random 15 numbers 128 and 12 letters','12-5','page 65'],columns=['text'])

Quero extrair todos os números das strings e escrever o número máximo em uma nova coluna. Consegui isso com este código:

data['list']=data['text'].str.extractall('(\d+)').unstack().values.tolist()
data['max']=data['list'].apply(lambda row:max([int(x) for x in row if x is not np.nan]))

Isso resulta neste DataFrame:

Primeira pergunta: existe uma maneira mais elegante de fazer isso?

Meu problema real: meu código funciona apenas se não houver NaNvalor no meu DataFrame original. Como você adaptaria o código nesse caso? O resultado deve ser uma NaNcoluna para cada NaNvalor com o índice correto. Substitua a datalinha de definição pelo seguinte para fazer o problema aparecer:

data=pd.DataFrame(['random 15 numbers 128 and 12 letters','12-5','page 65',np.nan],columns=['text'])

Além disso, quero lidar com o código com entradas que não são NaNsenão strings sem número. Nesse caso, a lista intermediária deve estar vazia e a última linha deve estar NaN(esta última coisa é fácil de conseguir manipulando a última linha).

1 respostas

Voted

mozway · Answer 1 · 2024-01-19T05:35:50+08:00

Best Answer

mozway

2024-01-19T05:35:50+08:002024-01-19T05:35:50+08:00

Não use uma lista como intermediária, vá diretamente com groupby.max:

data['max'] = (data['text']
              .str.extractall('(\d+)')[0]
              .astype(int)
              .groupby(level=0).max()
              )

Saída:

                                   text    max
0  random 15 numbers 128 and 12 letters  128.0
1                                  12-5   12.0
2                               page 65   65.0
3                                   NaN    NaN

Se você precisar da lista e do máximo:

g = (data['text']
     .str.extractall('(\d+)')[0]
     .astype(int)
     .groupby(level=0)
     )

data['list'] = g.agg(list)
data['max'] = g.max()

Saída:

                                   text           list    max
0  random 15 numbers 128 and 12 letters  [15, 128, 12]  128.0
1                                  12-5        [12, 5]   12.0
2                               page 65           [65]   65.0
3                                   NaN            NaN    NaN

1

Extraindo o número máximo de strings do DataFrame (e alguns valores NaN)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Extraindo o número máximo de strings do DataFrame (e alguns valores NaN)

1 respostas

relate perguntas