Mac OS X：从 python 脚本中更改 $PATH

Question

Zulakis

Asked: 2024-07-03 19:59:01 +0800 CST2024-07-03 19:59:01 +0800 CST 2024-07-03 19:59:01 +0800 CST

sort 如何比较字符串？

我希望 bash sort 能够像这样比较字符串：

出于某种原因，这似乎不是事实。

让我们接受以下输入：

a
b
.
-

这是由 bash sort 排序的

-
.
a
b

现在，输入

b.de
bb.de

我期望排序结果如下：

b.de
bb.de

因为第一个字符是相等的，并且对于第二个字符来说，.它在前面b（如在第一个测试中所见）。

由于某种原因，情况并非如此，字符串的排序如下：

bb.de
b.de

为什么会sort出现这样的行为？有没有办法让它表现得“如预期”？

我已经使用 python 测试了同样的例子，python 的排序与预期一致。

Jasen · Answer 1 · 2024-07-03T21:07:59+08:00

Best Answer

Jasen

默认情况下，排序会进行区域感知排序，即使用您所在地区的词典编纂规则。请参阅 strcoll(3)

ltrace(3) 给了我这个：

strcoll("b.de", "bb.de") = 20

定位感知比较似乎将字符串拆分成单词并对其进行排序。由于单词从不以“.”开头，因此 sort 会看到长度为 0 的单词并将其放在列表的开头。但是“.”在单词中是被允许的，例如：“Jr.”“Ph.D”

如果您需要按字节比较，请导出 LC_COLLATE=C 或 LC_COLLATE=POSIX

Matthew Ife · Answer 2 · 2024-07-03T20:22:59+08:00

Matthew Ife

我检查了该coreutils包，如果你不提供任何参数，它看起来（最终）使用 Cstrcmp例程。唯一不正确的情况是行中的值可以解释为整数。

其手册页指出：

在 glibc 中，与大多数其他实现一样，返回值是从 s1 中最后一个比较的字节中减去 s2 中最后一个比较的字节的算术结果。（如果两个字符相等，则该差为 0。）

这意味着和strcmp确实已经到达最后一个字符。bb.deb.de

也就是说if 'd' < 'e'（至少以 ascii 表示）哪个if 100 < 101是正确的。