过去几十年来公认的观点是,解析ls
( [1] , [2] ) 的输出从来都不是一个好主意。例如,如果我想将文件的修改日期及其名称保存到 shell 变量中,则这不是正确的方法:
$ ls -l file
-rw-r--r-- 1 terdon terdon 0 Aug 15 19:16 file
$ foo=$(ls -l file | awk '{print $9,$6,$7,$8}')
$ echo "$foo"
file Aug 15 19:16
只要文件名稍有不同,该方法就会失败:
$ ls -l file*
-rw-r--r-- 1 terdon terdon 0 Aug 15 19:16 'file with spaces'
$ foo=$(ls -l file* | awk '{print $9,$6,$7,$8}')
$ echo "$foo"
file Aug 15 19:16
如果文件的修改日期与今天不接近,情况会变得更糟,因为这可能会更改时间格式:
$ ls -l
total 0
-rw-r--r-- 1 terdon terdon 0 Aug 15 19:21 file
-rw-r--r-- 1 terdon terdon 0 Aug 15 2018 'file with spaces'
然而,较新版本的 GNU coreutilsls
有两个选项,可以组合起来设置特定的时间格式并生成 NULL 界定的输出:
--time-style=TIME_STYLE
time/date format with -l; see TIME_STYLE below
[...]
--zero end each output line with NUL, not newline
[...]
The TIME_STYLE argument can be full-iso, long-iso, iso, locale, or
+FORMAT. FORMAT is interpreted like in date(1). If FORMAT is FOR‐
MAT1<newline>FORMAT2, then FORMAT1 applies to non-recent files and
FORMAT2 to recent files. TIME_STYLE prefixed with 'posix-' takes ef‐
fect only outside the POSIX locale. Also the TIME_STYLE environment
variable sets the default style to use.
这里再次是设置了这些选项的文件(每行输出末尾的零被替换为#
换行符,以稍微提高可读性):
$ ls -l --zero --time-style=long-iso -- *
-rw-r--r--+ 1 terdon terdon 0 2023-08-16 21:35 a file with a
newline#
-rw-r--r--+ 1 terdon terdon 0 2023-08-15 19:16 file#
-rw-r--r--+ 1 terdon terdon 0 2018-08-15 12:00 file with spaces#
ls
有了这些可用的选项,我可以做许多传统上有害的事情。例如:
将最近修改的文件名放入变量中:
$ touch 'a file with a'$'\n''newline' $ last=$(ls -tr --zero | tail -z -n1) bash: warning: command substitution: ignored null byte in input $ printf -- 'LAST: "%s"\n' "$last" LAST: "a file with a newline"
引发这个问题的例子。另一个问题,在 Ask Ubuntu 上,OP 想要打印文件名和修改日期。有人使用和 一个巧妙的技巧发布了答案,如果我们添加到,它似乎非常强大:
ls
awk
--zero
ls
$ output=$(ls -l --zero --time-style=long-iso -- * | awk 'BEGIN{RS="\0"}{ t=index($0,$7); print substr($0,t+6), $6 }') $ printf 'Output: "%s"\n' "$output" Output: "a file with a newline 2023-08-16"
我找不到一个可以打破这两个例子的名字。所以,我的问题是:
- 是否存在上述两个示例之一会失败的情况?也许有一些奇怪的地方?
- 如果不是,这是否意味着现代版本的 GNU
ls
实际上可以安全地使用任意文件名?
--zero
确实有很大帮助,但这里使用的方式仍然不安全。ls
其输出格式本身以及问题中用于解析输出的命令都 存在问题。--zero
实际上在 ParsingLs wiki 页面中提到过,但他们在示例中没有使用长格式(可能是因为这里的问题!)。此答案中的许多问题是由 Stéphane Chazelas 在评论中提出的。首先,
ls -l
这是一个问题,因为它仍然愉快地按原样打印包含空格的用户/组名称,弄乱了列数(--zero
这里并不重要):至少,您需要
--numeric-uid-gid
/-n
,它将 UID 和 GID 打印为数字,或者-go
完全忽略它们。两者也都包含其他长格式字段。ls
还将列出参数中出现的任何目录的内容,因此您可能-d
还需要 。我认为其他列不能包含空格或 NUL,所以
可能是安全的。或许。
它仍然不是最容易解析的,因为如果有多个文件,它会用空格填充列,而不是仅使用一个作为字段分隔符,因此您不能在输出上使用 eg
cut
。--zero
即使输出到带有和省略 UID 和 GID 的管道时,也会发生这种情况,因为文件大小和链接计数的宽度可能会有所不同:文件名没有填充到右侧(这样做会很奇怪),因此可以安全地假设时间戳和文件名之间只有一个空格。
--time-style=long-iso
不包括 UTC 偏移量,这意味着日期可能不明确。最坏的情况是,在夏令时结束时创建的两个文件可能会显示日期顺序错误的情况。(ls
如果要求的话,仍然会正确地对它们进行排序,但输出会令人困惑。)--full-time
/--time-style=full-iso
(或自定义格式)在这方面会更好,并且显式设置TZ=UTC0
将使日期更容易作为字符串进行比较:如果除了常规文件之外还有其他东西,情况会变得更糟。在很多情况下可能不是问题,但无论如何:
对于设备文件,
ls
不打印其大小,而是打印主/次设备编号。用逗号和空格分隔,使列数与其他文件不同。您可以通过逗号区分这两个变体,但这会使解析更加痛苦。然后是符号链接,其长格式打印为
link name -> link target
,但没有什么可说链接或目标名称本身可以包含->
...好吧,我想从技术上讲,大小字段告诉了链接名称的长度(以字节为单位,而不是字符)......
在这种情况下,
--quoting-style=shell-escape-always
实际上会比 更好--zero
,因为它会打印两个单独引用的内容,并在内部转义一些特殊或不可打印的字符$''
:即使使用 shell,解析它也不是很有趣。
如果我们可以明确选择我们想要的字段,那就更好了,但我没有看到
ls
这样的选项。GNU find 有-printf
我认为可以产生安全输出的功能,如果你只想按时间ls
排序,则不需要打印时间戳,只需ls --zero
使用-t
//即可。见下文。(zsh 本身可以做到这一点,但 Bash 不太好。)-u
-c
如果你想要时间戳和文件名,类似的事情
find ./* -printf '%TY-%Tm-%Td %TT %p\0'
应该做,尽管默认情况下它会递归到子目录,所以如果你不想要它,你将不得不做一些事情。也许只是添加-prune
到最后。也--
没有帮助find
,所以你需要./
前缀。也许
stat --printf
会更容易。在问题中使用的命令中,
last=$(ls -tr --zero | tail -z -n1)
其本身在 Bash 中是不安全的,因为命令替换会在忽略最后的 NL 后删除尾随换行符。正如Ed Morton 指出的那样,无论其输出有多安全,至少特定的 AWK 命令会被破坏ls
。我认为 AWK 不太适合具有固定数量字段的输入,其中最后一个字段本身可以包含字段分隔符。Perl
split()
有一个额外的参数来限制要生成的字段数量,但当某些(不是全部)字段分隔符可以是多个空格时,使用该参数不太容易。天真的人split/ +/, $_, 6
会吃掉文件名中的前导空格。您可以构建一个正则表达式来处理该问题和设备节点问题,但这开始就像将圆钉强行插入方孔中一样,并且不能解决符号链接输出问题。如果没有长格式输出,
ls --zero
应该只给出以 NUL 结尾的原始文件名,因此输出应该是安全且易于解析的。对于
$n
最旧的文件,维基页面有:对于只有一个,您可以使用
read -rd ''
would do,正如评论中提到的:如果您要
ls
专门依赖 GNU 的输出,则意味着您依赖 GNU Coreutils 包。这意味着您可以使用另一个 Coreutils 实用程序,即stat
. Stat 具有格式字符串,用于以所需的方式获取有关对象的信息。例如以以下形式打印当前目录的修改时间
MMM DD HH:MM
:该命令以十进制整数形式
stat --format=%Y .
获取对象的修改时间,表示自纪元以来熟悉的秒数。.
我们使用
@
前缀作为-d
参数date
(GNU Coreutils 的一个功能date
)对其进行插值,然后使用strftime
代码以所需的格式获取时间。遗憾的是
stat
没有使用strftime
内置方法来格式化日期。如果我们想要获取多个信息字段,包括修改时间,而不需要多次调用stat
,我们必须让它打印多字段行,然后我们必须解析该行。这仍然是比抓取 的输出更好的措施ls
。如果最大效率并不重要(如果重要的话,我们为什么要在 Bash 中编码),我们可能会遭受多次调用stat
.评论中提出了
stat
不能用于发现修改时间最早的文件的声明。确实stat
单独做不到,但实际上stat
结合 shell 通配符扩展也可以做到,依赖ls -1t
.该文件可以追溯到相当早以前:
现在我们遇到的问题是,如果名称包含换行符,则会弄乱排序。我们可以用
ls
.例如,我们可以将名称读入 Bash 数组,然后将时间戳与数组索引一起打印,而不是名称。从输出中,
sort -n | head -1
我们获得一个项目,其第二个字段为我们提供了最近最少修改的文件名称的数组索引。我们可以完全回避处理具有编码空格和换行符的输出的问题,
ls
而我们必须以某种方式解析该输出。array[29]
将保存 遇到的第 30 个文件*.txt
,无论该名称由什么字符组成。我们的sort
工作不受此影响,因为它看不到该名称。因此,为了回答这个问题,GNU ls 有一些功能可以更安全地解析其输出,但是在 shell 语言中安全地解析输出仍然不容易。
GNU ls 可以被 C 程序安全地使用,该程序使用
popen("ls ...", "r")
正确的选项ls
和 正确的解析逻辑。规则“不要抓取
ls
”的输出是在脚本编写的上下文中。鉴于问题中最后一个示例的代码:
并发布了该
ls
命令的示例输出(#<newline>
替换 NUL 以提高可见性):看起来应该
$7
是时间戳。如果是这样,那么t=index($0,$7)
对于超过 1 个单词的用户名/组将会失败,例如:从那时起,您的时间戳将位于
$8
(或更高的数字,具体取决于用户名和/或组中有多少个单词),而不是$7
。鉴于用户名/组不能包含
:
,您可以通过仅查找:
行中的第一个而不是查找特定字段来解决该问题:或者使用 GNU awk (你可能正在使用它
RS='\0'
)将第三个参数设置为match()
: