在awk中的两行之间减去相同的列

Question

cheersmate

Asked: 2024-07-02 15:53:05 +0800 CST2024-07-02 15:53:05 +0800 CST 2024-07-02 15:53:05 +0800 CST

使用 du -sch 查找很多文件

772

我的文件夹结构很大，需要获取某个子集的大小。我需要计数的目录是通过特定的子目录来定义的：

find . \( -iname a -or ... \) -printf "\"%h\"\n" | xargs -- du -sch | sort -rh

在某种程度上，这种方法效果很好。但是当文件夹太多时，结果中会出现多个总数（使用echo而不是duwithxargs会显示输出被分成多行，即调用du）。

这可能是由某些缓冲区限制引起的。有什么方法可以解决这个问题，以便我在输出中只得到一个总大小？

2 个回答

Voted

Marcus Müller · Answer 1 · 2024-07-02T16:08:43+08:00

Best Answer

Marcus Müller

2024-07-02T16:08:43+08:002024-07-02T16:08:43+08:00

您的引用没有意义，的输出find不会被 shell 解释；也不会使用\n作为分隔符；您应该始终使用\0零字节作为分隔符并使用xargs；-0零字节永远不能成为文件名或路径的一部分！

无论如何，这可能无法解决当前的问题：

命令行具有最大长度；因此，单次调用du并带有很多参数可能根本不可能。

如果您有 GNU coreutils du（如果您使用的是成熟的 Linux，您可能du --version会这样做），您可以使用du --files0-from=它从文件中读取文件，或者具体地说，从标准输入中读取文件，当使用-文件名时：

find . \( CRITERIA \) -printf '%h\0' | du -sch --files0-from=- | sort -rh

Stéphane 指出，在处理文件之前删除重复项更有意义：

find . \( CRITERIA \) -printf '%h\0' | LC_ALL=C sort -zu | du -sch --files0-from=-

LC_ALL=C指示 sort 使用“默认的英语-UNIX 语言环境”进行排序。这通常是一个好主意，可以避免根据用户的语言进行不同的排序。

5

Kaz · Answer 2 · 2024-07-05T18:57:23+08:00

我会像这样在TXR Lispalpha中解决这个问题。假设我们要查找的目录具有名为和的子目录beta的特征gamma：

(let* ((dirs (glob* "**/{alpha,beta,gamma}/"))
       (total 0)
       (sizes (each ((d dirs))
                (ftw (dir-name d)
                     (lambda (path type stat . others)
                       (inc total stat.blocks)
                       nil)))))
  (prinl (* 512 total)))

因为我们使用双星**和括号扩展，所以我们必须使用glob*函数；该glob函数是同名 POSIX C 库函数的近乎直接的包装器；glob*在此基础上实现了附加功能。

我们的 glob 模式中的尾部斜杠确保仅匹配目录；文件或其他命名的对象gamma不计算在内。

一旦我们确定了匹配的目录，我们就会遍历它们的父目录（在的帮助下dir-name），并使用递归处理每一个目录ftw，通过将它们的总块数乘以 512 来加总访问的对象大小。

仅计算一次重复的 inode（指向同一文件的硬链接）：

(let* ((dirs (glob* "**/{alpha,beta,gamma}/"))
       (ihash (hash))
       (total 0)
       (sizes (each ((d dirs))
                (ftw (dir-name d)
                     (lambda (path type stat . others)
                       (when (test-set [ihash stat.ino])
                         (inc total stat.blocks))
                       nil)))))
  (prinl (* 512 total)))

这不仅是在存在硬链接的情况下才有必要，而且在出现同一个目录不止一次的情况下也有可能。假设我们有path/to/gamma和path/to/beta。它们的父目录是同一个目录；我们最终会处理两次。可以改进代码以避免这种情况，但 inode 哈希至少可以防止重复计算。

使用 du -sch 查找很多文件

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

使用 du -sch 查找很多文件

2 个回答

相关问题