Preenchendo valores ausentes no dataframe do Pandas usando outro dataframe

Question

Totura

Asked: 2025-04-04 10:30:57 +0800 CST2025-04-04 10:30:57 +0800 CST 2025-04-04 10:30:57 +0800 CST

Expressão regular Python para pesquisa de texto

772

Estou tentando extrair o texto desejado de um conjunto de texto fornecido. Criei a função abaixo.

   def extract_name(title):
        matches = re.findall(r'\b[A-Z0-9\s&.,()-]+(?:\s*\(\d\))?\b', title)
        return ', '.join(matches) if matches else None

Mas, ele produz indesejados (, ,para alguns títulos. Por exemplo, meus títulos são como abaixo.

THETA COMMERCIALS (2005) LIMITED, TEST CONNECTIONS LTD (In Relation), NANO CARE LIMITED (In Relation)

Resultado esperado:THETA COMMERCIALS (2005) LIMITED, TEST CONNECTIONS LTD, NANO CARE LIMITED

3 respostas

Voted

rich neadle · Answer 1 · 2025-04-04T11:09:31+08:00

Em vez de usar re.findall(), recomendo que você use re.sub(), para remover as partes indesejadas. Com esse padrão, você pode definir explicitamente o que deseja manter e o que não deseja manter, e pode adicionar outras alternativas para refletir isso.

Neste padrão, você combina (e captura) primeiro o que você quer manter, e então combina o que você NÃO quer manter. Você substitui o que você quer manter por si mesmo (a correspondência), e você NÃO SUBSTITUI o que você NÃO quer manter, ou seja, efetivamente o que você NÃO quer manter é deletado. Regex sempre combina da esquerda para a direita, então a segunda alternativa só será correspondida se a primeira alternativa não corresponder primeiro.

PADRÃO REGEX (tipo Python):

([ ]?\(\d+\))|[ ]?\([^)]*\)

Demonstração do Regex: https://regex101.com/r/Peu1Fw/4

CÓDIGO PYTHON (com módulo re ):

title = 'THETA COMMERCIALS (2005) LIMITED, TEST CONNECTIONS LTD (In Relation), NANO CARE LIMITED (In Relation)'

import re
pattern = r'([ ]?\(\d+\))|[ ]?\([^)]*\)'
replacement = r'\1'
updated_title = re.sub(pattern, replacement, title)

print(f'OLD: "{title}"')
print(f'NEW: "{updated_title}"')
print('EXP: "THETA COMMERCIALS (2005) LIMITED, TEST CONNECTIONS LTD, NANO CARE LIMITED"')

RESULTADO:

OLD: "THETA COMMERCIALS (2005) LIMITED, TEST CONNECTIONS LTD (In Relation), NANO CARE LIMITED (In Relation)"
NEW: "THETA COMMERCIALS (2005) LIMITED, TEST CONNECTIONS LTD, NANO CARE LIMITED"
EXP: "THETA COMMERCIALS (2005) LIMITED, TEST CONNECTIONS LTD, NANO CARE LIMITED"

NOTAS SOBRE O PADRÃO REGEX:

Comece a primeira alternativa para capturar o que você deseja manter:
(Comece o primeiro grupo de captura (...), grupo 1. Referido como \1na sequência de substituição .
- [ ]?Corresponde a um caractere de espaço literal 0 ou 1 vez ( ?)
- \(Correspondência literal(
- \d+Corresponda o dígito 1 ou mais vezes ( +).
- \)Correspondência literal)
)Fim do grupo 1 ( \1).
|OU em alteração , ...|....
Comece a segunda alternativa* para corresponder ao que você deseja excluir:
[ ]?Corresponde a um caractere de espaço literal 0 ou 1 vez (?
\(Correspondência literal(
[^)]* Classe de caractere negado [^...] . Corresponde a qualquer caractere que não seja um literal )0 ou mais vezes ( *). NOTA: Isso significa que parênteses vazios serão correspondidos e, portanto, excluídos da string atualizada.
\)Correspondência literal)

PADRÃO REGEX ATUALIZADO Este padrão atualizado remove um caractere de espaço, se houver, antes ou depois da string que queremos remover.

Por exemplo, se a string que queremos remover, (In relation), estiver no início da string de teste seguida por um espaço, por exemplo(In Relation) THETA COMMERCIALS (2005) LIMITED, TEST CONNECTIONS LTD(In Relation), NANO CARE LIMITED(In Relation)

PADRÃO REGEX (tipo Python):

([ ]?\(\d+\))|([ ])?(?(2)\([^)]*\)|\([^)]*\)[ ]?)

Demonstração do Regex: https://regex101.com/r/Peu1Fw/6

Pergunta: qual seria a melhor maneira de remover um espaço antes ou depois (não ambos) da string que queremos remover em Python ou com regex (versão Python)?

sln · Answer 2 · 2025-04-05T03:54:17+08:00

sln

2025-04-05T03:54:17+08:002025-04-05T03:54:17+08:00

Isso requer apenas que a primeira letra seja uma letra maiúscula, número.
O meio/fim pode ser qualquer um dos caracteres de classe com dígitos opcionais entre parênteses.

\b[A-Z0-9](?:[A-Z0-9\s&.-](?:\s*\(\d+\))?)*\b

https://regex101.com/r/0xVjur/1

\b 
[A-Z0-9] 
(?:
   [A-Z0-9\s&.-] 
   (?:
      \s* \( \d+ \) 
   )?
)*
\b

A expressão regular alternativa substitui \spor espaço e tabulação na classe. E converte o
limite da palavra final para também verificar se há um parêntese de fechamento final para permitir
o número final entre parênteses.

\b[A-Z0-9-](?:[A-Z0-9 \t&.-](?:\s*\(\d+\))?)*(?:\b|(?<=\)))

https://regex101.com/r/n83nVu/1

1

user11595058 · Answer 3 · 2025-04-04T11:22:26+08:00

user11595058

2025-04-04T11:22:26+08:002025-04-04T11:22:26+08:00

este funcionará, capturando qualquer letra alfabética dentro de parênteses, removendo-a do texto e eliminando quaisquer espaços depois ou antes.

.\(([A-Z-a-z].*?)\)

 def extract_name(title):
          name = re.sub(r'.\(([A-Z-a-z].*?)\)', '', title)
          return name.strip()

0

Expressão regular Python para pesquisa de texto

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Expressão regular Python para pesquisa de texto

3 respostas

relate perguntas