Regex: Corresponde até "," mas não se "," estiver entre colchetes

Question

InStackOfHelp

Asked: 2025-03-06 15:35:21 +0800 CST2025-03-06 15:35:21 +0800 CST 2025-03-06 15:35:21 +0800 CST

Como faço para remover uma palavra que precede um caractere, bem como o próprio caractere

772

Estou usando IMPORTXML para pegar alguns dados e então regex para extrair algum texto. A parte que quero extrair é um nome.

Ele sempre vem depois de "Nome Completo:" (menos as aspas). Depois do nome, sempre há uma palavra seguida por dois pontos. Essa palavra pode ser Pronúncia, Linguística, Tipo ou qualquer outra coisa.

O mais próximo que posso chegar é esta fórmula:

=IFERROR(REGEXEXTRACT(REGEXREPLACE(JOIN(" ", IMPORTXML(B13, "//div[@id='meta']")), "\s+", " "), "Full Name:\s*([A-Za-z]+(?:[-'\s][A-Za-z]+)*)"), "")

Infelizmente, isso ainda deixa a última palavra.

Então se você tem por exemplo:

Nome completo: Abraham Lincoln Apelido: Honest Abe.

Eu só quero que ele retire Abraham Lincoln. Essa fórmula, como eu tenho, gera:

Abraham Lincoln Apelido

Outros exemplos:

Nome completo: John Smith-Rogers Acabamento:
Nome completo: David Ben-Williams Prelúdio:
Nome completo: Sean O'Brian Apelido:
Nome completo: D'Andre Ayton Hora:
Nome completo: Andy Van Slyke Nome:

Saídas respectivas:

John Smith-Rogers
David Ben-Williams
Sean O'Brian
D'André Ayton
Andy Van Slyke

Para um exemplo ao vivo: https://www.baseball-reference.com/players/l/lopezal01.shtml

A fórmula deve produzir: Alfonso Ramon Lopez

https://www.baseball-reference.com/players/r/ruthba01.shtml

A fórmula deve produzir: George Herman Ruth

O que mais preciso fazer tendo em mente que quero ter certeza de que nomes como O'Brien e Smith-Rogers não sejam afetados?

4 respostas

Voted

EL SRY · Answer 1 · 2025-03-06T16:18:39+08:00

EL SRY

2025-03-06T16:18:39+08:002025-03-06T16:18:39+08:00

Considerando os exemplos fornecidos a seguir, criei uma solução que pode funcionar para você.

Experimente esta expressão regular:

=IFERROR(REGEXEXTRACT(REGEXREPLACE(JOIN(" ", IMPORTXML(B18, "//div[@id='meta']")), "\s+", " "), "Full Name:\s(.*?)(?:\s\w+:|\sView)"), "")

** ATUALIZAÇÃO: Com o site de exemplo fornecido, a fórmula atualizada acima usa um padrão regex que obtém a(s) palavra(s) que começa(m) com "Nome completo:" e termina com a palavra "Exibir" ou outros dois pontos :(ao mesmo tempo em que desconsidera a palavra anterior)

Referência: Regexextract

1

DuesserBaest · Answer 2 · 2025-03-06T15:52:23+08:00

DuesserBaest

2025-03-06T15:52:23+08:002025-03-06T15:52:23+08:00

Tente combinar:

^Full Name: ([^:]+?) \w+:$

e substituindo por:

$1

Veja: regex101

Explicação

CORRESPONDER:

^Full Name: : A string começa com o literal "Nome Completo: "
( ... ): então capture tudo para o grupo 1 que
- [^:]+?: não é dois pontos (preguiçosamente) e certifique-se de que
\w+:$: sucedido por um espaço e uma palavra seguida por dois pontos.

SUBSTITUIR:

$1: Substituir pelo Nome Completo.

0

TheMaster · Answer 3 · 2025-03-06T16:11:58+08:00

TheMaster

2025-03-06T16:11:58+08:002025-03-06T16:11:58+08:00

=REGEXEXTRACT(A1,"Full Name:\s+(.*?)\s+[^:\s]+:")

Full Name:Literal Full Nameseguido de dois pontos literais:
\s+Um ou mais espaços
(.*?)Grupo de captura 1 para capturar qualquer personagem preguiçosamente.
\s+Um ou mais espaços
"[^:\s]+:Qualquer caractere que não seja dois pontos :ou um sespaço seguido por dois pontos literais:

0

rockinfreakshow · Answer 4 · 2025-03-06T17:13:35+08:00

Best Answer

rockinfreakshow

2025-03-06T17:13:35+08:002025-03-06T17:13:35+08:00

Esta abordagem usa uma ligeira variação do dado xpath-query, que então extrai o Nome Completo

=let(Σ,tocol(importxml(A2,"//*[@id='meta']/*")),
 +sort(regexextract(Σ,"Full Name: (.+)")))

0

Como faço para remover uma palavra que precede um caractere, bem como o próprio caractere

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Como faço para remover uma palavra que precede um caractere, bem como o próprio caractere

4 respostas

relate perguntas