我经常混淆 Bash 3.x shell glob:
? # Match any single character.
* # Match any string of characters (up until the asterisk).
[set] # Match any character in set (but not the entire set itself).
[!set] # Match any character not in set.
使用正则表达式(尤其是PCRE)。
我的问题是为什么不将这些视为“Bash 正则表达式”(就像我们有“JavaScript 正则表达式”一样)?
为什么不将这些视为正则表达式的另一种“方言”?
当然,这将是非正统的,但我不确定没有任何形式上的逻辑理由不这样做。
文件名通配模式和正则表达式在一定程度上有语法重叠,但它们以根本不同的方式工作。
正则表达式
e
将匹配(输入)字符串hello
,而文件名通配模式则e
不会。通配符模式是隐式锚定的,因此通配符模式e
相当于看起来像 的正则表达式^e$
,但它们的应用可能不同(正则表达式将匹配文本中的完整行,而通配符模式通常会匹配单个文件名)。文件名通配模式也没有任何特殊字符来限定前一个表达式,例如正则表达式中的
*
或在正则表达式中。例如,某些 shell 显然会添加其中的一些内容,例如启用。?
(...)
|
bash
shopt -s extglob
通配符模式与正则表达式有不同的用途。正则表达式主要用于从文本中选择/匹配字符串,而文件名通配模式主要(但不限于)用于匹配文件名或从目录生成现有名称列表。通配符模式用于匹配eg中的字符串
case ... esac
,但 POSIX shell 从不使用正则表达式从目录生成名称列表,除非使用该功能进行扩展。两种类型的模式都由 POSIX 标准定义:
在 globbing 模式中,标准开始时说
正则表达式有几种“方言”,例如您提到的 PCRE,但文件名通配模式不能真正说是其中之一。
有几种模式语言类似于 shell 的文件名通配模式,例如在 SQL 查询中使用的模式
LIKE
。这些都非常简单,通常作为匹配字符串位的便捷方式提供。相比之下,正则表达式要复杂得多。您提到“
bash
正则表达式”。bash
shell支持正则表达式,但不支持文件名匹配。在 内[[ ... ]]
,=~
运算符执行左侧字符串与右侧正则表达式的正则表达式匹配。shell 以这种方式支持的正则表达式类型bash
是标准的扩展正则表达式集。有关这方面的更多信息,请参阅bash
系统手册。Glob 和正则表达式是两种不同的模式语言。某些模式的语义存在一些重叠的事实并不意味着一个模式必然是另一个模式的“方言”。每个使用过两者的人都会认识到相似之处,但保持名称不同会减少混淆的可能性。
在相关的注释中,我发现这么多类型的正则表达式(至少是基本的、扩展的和带有变体的 Perl)具有非常相似的名称,这很不幸。根据我的经验,大多数人都没有限定他们的意思,有时会造成不必要的混淆。如果这些口味被赋予了更多不同的名称,那么在没有误解的情况下谈论它们可能会更容易。