Como divido o loop for em 3 quadros de dados individuais?

Question

eazyezy

Asked: 2024-08-27 03:25:11 +0800 CST2024-08-27 03:25:11 +0800 CST 2024-08-27 03:25:11 +0800 CST

Mesclar linhas multilinhas no dataframe do pandas com base no padrão regex

772

Tenho um dataframe de coluna única semelhante a este:

cat = { 'cat': ['a','b','c-','        -d','e']}
df = pd.DataFrame(cat)

>>> print(df)
          cat
0           a
1           b
2          c-
3          -d
4           e

Preciso mesclar as linhas 2 e 3:

          cat
0           a
1           b
2          cd
3          e

Estou tentando usar regex, já que esses dados multilinhas são sempre do formato "-\n {8}-". No entanto, isso não funciona:

df['cat'] = df['cat'].str.replace("-\n {8}-","",flags=re.M)

Não consigo usar nenhuma técnica de agrupamento, então estou meio travado. Obrigado por qualquer sugestão.

3 respostas

Voted

mozway · Answer 1 · 2024-08-27T04:08:40+08:00

Best Answer

mozway

2024-08-27T04:08:40+08:002024-08-27T04:08:40+08:00

Você pode usar uma groupbyabordagem identificando as strings que terminam -ou começam com {8}-:

m1 = df['cat'].str.endswith('-')
m2 = df['cat'].str.match(' {8}-')
group = (~(m1.shift(fill_value=False) & m2)).cumsum().rename()

out = (df['cat'].groupby(group)
       .agg(lambda x: ''.join(x).replace('-        -', ''))
       .to_frame()
      )

Saída:

  cat
1   a
2   b
3  cd
4   e

Intermediários:

          cat     m1     m2  group
0           a  False  False      1
1           b  False  False      2
2          c-   True  False      3
3          -d  False   True      3
4           e  False  False      4

Ou sem pandas, jointodas as strings com um separador personalizado (por exemplo \n, substituir splitnovamente):

import re

out = pd.DataFrame({'col': re.sub(r'-\n {8}-', '', '\n'.join(df['cat']))
                             .split('\n')})

Saída:

  col
0   a
1   b
2  cd
3   e

1

Andrej Kesely · Answer 2 · 2024-08-27T04:09:43+08:00

Andrej Kesely

2024-08-27T04:09:43+08:002024-08-27T04:09:43+08:00

Eu faria assim:

Concatenar strings "cat" deslocadas por um/não deslocadas
Procure seu padrão regex nos valores recém-criados
Filtrar/atualizar o dataframe
Substituir os valores multilinha por uma string vazia

tmp = df["cat"].shift() + df["cat"]
m = tmp.str.contains(r"-\s{8,}-").eq(True)

df = df[~m.shift(-1).eq(True)]
df.update(tmp[m])

df["cat"] = df["cat"].str.replace(r"-\s{8,}-", "", regex=True)

print(df)

Impressões:

  cat
0   a
1   b
3  cd
4   e

1

PaulS · Answer 3 · 2024-08-27T04:37:39+08:00

PaulS

2024-08-27T04:37:39+08:002024-08-27T04:37:39+08:00

Outra solução possível, que se baseia nos seguintes passos:

Ele atualiza o valor na célula no índice da linha ne na coluna cat. Este novo valor é calculado adicionando o valor atual em catao valor na próxima linha ( n+1) da catcoluna, usando uma string vazia para preencher quaisquer valores ausentes. O resultado é então limpo removendo quaisquer ocorrências do padrão '-\n {8}-', e o valor do índice da linha ndesta série limpa é atribuído de volta a df.loc[n, 'cat'].
Em seguida, ele remove a linha no índice n+1do dataframe e redefine o índice para garantir que ele seja contínuo, descartando o índice antigo.

n = 2

df.loc[n, 'cat'] = (df['cat'].add(df['cat'].shift(-1), fill_value='')
                    .str.replace(r'-\n {8}-', '', regex=True).iloc[n])
df.drop(df.index[n+1]).reset_index(drop=True)

Saída:

  cat
0   a
1   b
2  cd
3   e

1

Mesclar linhas multilinhas no dataframe do pandas com base no padrão regex

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Mesclar linhas multilinhas no dataframe do pandas com base no padrão regex

3 respostas

relate perguntas