我正在尝试恢复我生锈的 shell 脚本编写技能,但我遇到了 case 语句的问题。我在下面的程序中的目标是评估用户提供的字符串是以大写字母还是小写字母开头:
# practicing case statements
echo "enter a string"
read yourstring
echo -e "your string is $yourstring\n"
case "$yourstring" in
[A-Z]* )
echo "your string begins with a Capital Letter"
;;
[a-z]* )
echo "your string begins with a lowercase letter"
;;
*)
echo "your string did not begin with an English letter"
;;
esac
myvar=nope
case $myvar in
N*)
echo "begins with CAPITAL 'N'"
;;
n*)
echo "begins with lowercase 'n'"
;;
*)
echo "hahahaha"
;;
esac
当我输入一个以小写字母开头的字符串(例如,没有引号的“mystring”)时,case 语句将我的输入与第一个 case 匹配,并通知我该字符串以大写字母开头。我写了第二个 case 语句,看看我是否犯了一些明显的语法或逻辑错误(也许我仍然是),但我没有同样的问题。第二种情况结构正确地告诉我 $myvar 保存的字符串以小写字母开头。
我尝试使用引号将 $yourstring 括在 case 语句的第一行,并且我尝试过不使用引号。我阅读了“shopt”选项并确认“nocasematch”已关闭。(为了更好的衡量,我打开它并再次尝试,但我仍然没有从我的第一个 case 语句中得到正确的结果。)我还尝试使用 sh 和 bash 运行脚本,但输出是相同的。(我用“sh ./case1.sh”和“bash ./case1.sh”显式调用shell,因为我没有设置执行位。复制文件并在新文件上设置执行位并没有改变输出.)
虽然我不了解使用“-x”调试选项运行 shell 的所有输出,但输出显示了 shell 从第一个“case”行到按照第一个模式执行命令的过程。我将此解释为第一个模式与输入字符串匹配,但我不确定为什么。
当我切换前两个模式(和相应命令)的顺序时,case 语句对小写字母成功,但错误地将“MYSTRING”报告为以小写字母开头。由于检测到任何字母匹配首先出现的模式,我认为我有一个逻辑错误......但我不确定是什么。
我在 unix.com 上发现了“pludi”的一篇文章,其中建议“对小写和大写字符的测试是 [az] 和 [AZ]。这不再适用于某些语言环境和/或 Linux 发行版。” (见https://www.unix.com/shell-programming-and-scripting-128929-example-switch-case-bash.html)果然,用 [[:upper:]] 和 [[ :lower:]] 解决了这个问题。
我在 Fedora 31 上,我的语言环境输出如下:
LANG=en_US.UTF-8
LC_CTYPE="en_US.UTF-8"
LC_NUMERIC="en_US.UTF-8"
LC_TIME="en_US.UTF-8"
LC_COLLATE="en_US.UTF-8"
LC_MONETARY="en_US.UTF-8"
LC_MESSAGES="en_US.UTF-8"
LC_PAPER="en_US.UTF-8"
LC_NAME="en_US.UTF-8"
LC_ADDRESS="en_US.UTF-8"
LC_TELEPHONE="en_US.UTF-8"
LC_MEASUREMENT="en_US.UTF-8"
LC_IDENTIFICATION="en_US.UTF-8"
LC_ALL=
我想知道我是否不了解字符范围,或者不了解模式匹配在 case 语句中的工作原理,或者底层的 shell 功能是否发生了变化(以及为什么?)。如果有人有耐心,我将不胜感激;我也很乐意阅读相关文档。谢谢!
一个简单的答案,毫无疑问其他人可以取代。
字符集排序现在根据所使用的语言环境而有所不同。引入语言环境的概念是为了支持不同的民族和他们的不同语言。正如您从输出中看到的那样,
locale
现在解决了几个不同的领域 - 不仅仅是排序规则。在您的情况下,它是美国,并且出于排序和整理目的,字母表是 AaBbCc...Zz 或 A=a、B=b、C=c 等(我忘了哪个,而且我不在计算机上我可以验证另一个)。语言环境非常复杂,在某些语言环境中,就排序和整理而言,可能存在不可见的字符。相同的字符可以根据使用的语言环境进行不同的排序。
如您所见,识别小写字符的正确方法是使用
[[:lower:]]
; 这将在必要时包括重音字符,甚至包括不同字母(希腊语、西里尔语等)中的小写字符。如果您想要经典排序,您可以通过设置恢复每个应用程序甚至每个命令
LC_ALL=C
。举一个人为的例子,字典顺序和 ASCII 顺序之间一直存在着一场持久战。
需很长时间。
从 Unicode 的角度来看,字符应该按照当地习俗按照字典顺序进行排序,因此 a A b B ... 表示美国字母(ASCII 字母)。这通常与 en_US.utf-8 语言环境中的 [a-zA-Z] 范围相匹配。国际化通常同意这一点。
从程序员的角度来看,由于是 C 语言,[az] 应该只匹配从 97 到 122 的 ascii 字符作为一个字节值。[AZ] 也是如此。这通常会将字符的 C 语言定义匹配为一个字节。一些脚本编写者想要使用这个定义。
这场战斗不时地从一种解释转移到另一种解释。
有时 [az] 范围变成 only
abcdefghijklmnopqrstuvwxyz
。有时它会转移到
aAbBcCdDeEfFgGhHiIjJkKlLmMnNoOpPqQrRsStTuUvVwWxXyYz
.或者其他一些更复杂的列表。
细节很复杂。历史悠久。战斗仍在激烈进行。
因此,您可能会得到(测试字符串
book
):如果您测试字符串
úber
(在 en_US.UTF-8 中),您将得到:以及字符串
Úber
。所以,结果是多种多样的。
您还可以设置 LC_ALL=C 来强制解释
a-z
只有小写字母(并且A-Z
只有大写字母)。这将冻结用于仅来自的排序规则C
。如果语言环境更改,则不会更改。更健壮的脚本,但适应性较差的脚本。还有一个选项可以使用
[[:lower:]]
,但同样,它保证是仅在 C 语言环境中的 ASCII 范围 az。它可能会在 POSIX 的未来版本(但尚未在 2020 年发布)中强制执行到所有语言环境。总而言之,确保没有外部决定(来自 Unix 规范的 shell 开发人员)会改变代码范围的唯一安全方法是: