正则表达式：匹配直到“，”，但如果“，”在括号内则不匹配

Question

InStackOfHelp

Asked: 2025-03-06 15:35:21 +0800 CST2025-03-06 15:35:21 +0800 CST 2025-03-06 15:35:21 +0800 CST

如何删除字符前面的单词以及字符本身

772

我正在使用 IMPORTXML 来获取一些数据，然后使用正则表达式来提取一些文本。我想要提取的部分是姓名。

它总是跟在“全名：”（减去引号）后面。名字后面总是有一个单词，后面跟着另一个冒号。这个单词可以是发音、语言学、类型，或者其他任何词。

我能得到的最接近的公式是这个：

=IFERROR(REGEXEXTRACT(REGEXREPLACE(JOIN(" ", IMPORTXML(B13, "//div[@id='meta']")), "\s+", " "), "Full Name:\s*([A-Za-z]+(?:[-'\s][A-Za-z]+)*)"), "")

不幸的是，最后一句话还是留下来了。

例如如果你有：

全名：亚伯拉罕·林肯昵称：诚实的亚伯。

我只想让它拉出亚伯拉罕·林肯。我有这个公式输出：

亚伯拉罕·林肯昵称

其他示例：

全名： John Smith-Rogers 完成：
全名：David Ben-Williams 序言：
全名：Sean O'Brian 昵称：
全名： D'Andre Ayton 时间：
全名：Andy Van Slyke 姓名：

各自的输出：

约翰·史密斯-罗杰斯
戴维·本·威廉姆斯
肖恩·奥布莱恩
安德烈·艾顿
安迪·范·斯莱克

实例： https://www.baseball-reference.com/players/l/lopezal01.shtml

公式应输出：Alfonso Ramon Lopez

https://www.baseball-reference.com/players/r/ruthba01.shtml

公式应输出：George Herman Ruth

我还需要做什么才能确保 O'Brien 和 Smith-Rogers 这样的名字不受影响？

4 个回答

Voted

EL SRY · Answer 1 · 2025-03-06T16:18:39+08:00

EL SRY

2025-03-06T16:18:39+08:002025-03-06T16:18:39+08:00

根据您提供的以下示例，我设计了一个可能对您有用的解决方案。

尝试这个正则表达式：

=IFERROR(REGEXEXTRACT(REGEXREPLACE(JOIN(" ", IMPORTXML(B18, "//div[@id='meta']")), "\s+", " "), "Full Name:\s(.*?)(?:\s\w+:|\sView)"), "")

**更新：对于给定的示例网站，上述更新后的公式使用正则表达式模式，获取以“全名：”开头并以单词“View”或另一个冒号结尾的单词:（同时也忽略它之前的单词）

参考： Regexextract

1

DuesserBaest · Answer 2 · 2025-03-06T15:52:23+08:00

DuesserBaest

2025-03-06T15:52:23+08:002025-03-06T15:52:23+08:00

尝试匹配：

^Full Name: ([^:]+?) \w+:$

并替换为：

$1

参见：regex101

解释

匹配：

^Full Name: ：字符串以文字“全名：”开头
( ... )：然后将所有内容捕获到第 1 组
- [^:]+?: 不是冒号（懒惰），并确保它
\w+:$：后面跟着一个空格和一个冒号的单词。

代替：

$1：替换为全名。

0

TheMaster · Answer 3 · 2025-03-06T16:11:58+08:00

TheMaster

2025-03-06T16:11:58+08:002025-03-06T16:11:58+08:00

=REGEXEXTRACT(A1,"Full Name:\s+(.*?)\s+[^:\s]+:")

Full Name:文字Full Name后跟文字冒号:
\s+一个或多个空格
(.*?)捕获组 1 可延迟捕获任意字符。
\s+一个或多个空格
"[^:\s]+:任何非冒号的字符:，或s空格后跟文字冒号:

0

rockinfreakshow · Answer 4 · 2025-03-06T17:13:35+08:00

Best Answer

rockinfreakshow

2025-03-06T17:13:35+08:002025-03-06T17:13:35+08:00

这种方法使用 given 的略微变体xpath-query，然后提取全名

=let(Σ,tocol(importxml(A2,"//*[@id='meta']/*")),
 +sort(regexextract(Σ,"Full Name: (.+)")))

0

如何删除字符前面的单词以及字符本身

重新格式化数字，在固定位置插入分隔符

为什么 C++20 概念会导致循环约束错误，而老式的 SFINAE 不会？

VScode 自动卸载扩展的问题（Material 主题）

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

如何删除字符前面的单词以及字符本身

4 个回答

相关问题