检查某个文件夹是否存在于某个目录中

Question

Asked: 2018-02-27 09:25:17 +0800 CST2018-02-27 09:25:17 +0800 CST 2018-02-27 09:25:17 +0800 CST

以正确的顺序将大量文件集中在一起

772

我有大约 15,000 个名为file_1.pdb,file_2.pdb等的文件。我可以通过以下操作按顺序排列其中的几千个：

cat file_{1..2000}.pdb >> file_all.pdb

但是，如果我对 15,000 个文件执行此操作，则会收到错误消息

-bash: /bin/cat: Argument list too long

我已经看到通过这样做解决了这个问题，find . -name xx -exec xx但这不会保留文件加入的顺序。我怎样才能做到这一点？

6 个回答

Voted

Kusalananda · Answer 1 · 2018-02-27T09:33:16+08:00

使用find,sort和xargs:

find . -maxdepth 1 -type f -name 'file_*.pdb' -print0 |
sort -zV |
xargs -0 cat >all.pdb

该find命令找到所有相关文件，然后将它们的路径名打印出来，以sort执行“版本排序”以使它们以正确的顺序排列（如果文件名中的数字已被零填充到我们不需要的固定宽度-V）。xargs获取这个排序路径名列表，并cat尽可能大批量地在这些路径名上运行。

即使文件名包含奇怪的字符（例如换行符和空格），这也应该有效。我们使用-print0withfind给出以sortnul 结尾的名称进行排序，并sort使用-z. 也使用其标志xargs读取以 nul 结尾的名称。-0

请注意，我将结果写入名称与模式不匹配的文件file_*.pdb。

上述解决方案对某些实用程序使用了一些非标准标志。这些实用程序的 GNU 实现以及至少 OpenBSD 和 macOS 实现都支持这些功能。

使用的非标准标志是

-maxdepth 1,find只进入最顶层目录，不进入子目录。POSIXly，使用find . ! -name . -prune ...
-print0, 以find输出以 nul 结尾的路径名（POSIX 考虑过但拒绝了）。可以-exec printf '%s\0' {} +改用。
-z, 制作sort以 nul 结尾的记录。没有 POSIX 等价性。
-V, 进行sort排序，例如200在之后3。没有 POSIX 等价性，但如果文件名具有固定前缀，则可以用文件名特定部分的数字排序替换。
-0, 以xargs读取以 nul 结尾的记录。没有 POSIX 等价性。POSIXly，需要以xargs.

如果路径名表现良好，并且目录结构是扁平的（没有子目录），那么可以不用这些标志，除了-Vwith sort。

Stéphane Chazelas · Answer 2 · 2018-02-27T09:52:09+08:00

使用zsh（该{1..15000}运算符来自哪里）：

autoload zargs # best in ~/.zshrc
zargs file_{1..15000}.pdb -- cat > file_all.pdb

file_<digits>.pdb或按数字顺序排列所有文件：

zargs file_<->.pdb(n) -- cat > file_all.pdb

（其中<x-y>是一个匹配十进制数 x 到 y 的全局运算符。没有xnor y，它是任何十进制数。等效于extendedglob's[0-9]##或kshglob's +([0-9])（一个或多个数字））。

使用ksh93, 使用其内置cat命令（因此不受execve()系统调用限制的影响，因为没有执行）：

command /opt/ast/bin/cat file_{1..15000}.pdb > file_all.pdb

使用bash// zsh（ksh93支持zsh's{x..y}并printf内置）：

printf '%s\n' file_{1..15000}.pdb | xargs cat > file_all.pdb

在 GNU 系统或兼容系统上，您还可以使用seq：

seq -f 'file_%.17g.pdb' 15000 | xargs cat > file_all.pdb

对于xargs基于 - 的解决方案，必须特别注意包含空格、单引号或双引号或反斜杠的文件名。

像 for 一样-It's a trickier filename - 12.pdb，使用：

seq -f "\"./-It's a trickier filename - %.17g.pdb\"" 15000 |
  xargs cat > file_all.pdb

OmnipotentEntity · Answer 3 · 2018-02-27T10:54:23+08:00

for 循环是可能的，而且非常简单。

for i in file_{1..15000}.pdb; do cat $i >> file_all.pdb; done

缺点是你调用cat了很多次。但是，如果您不记得到底如何做这些事情，find并且调用开销在您的情况下还不错，那么值得牢记。

LarryC · Answer 4 · 2018-02-27T12:12:00+08:00

seq 1 15000 | awk '{print "file_"$0".dat"}' | xargs cat > file_all.pdb

Hastur · Answer 5 · 2018-02-28T03:08:57+08:00

前提

对于具有特定名称格式^[¹^,²^]的15k 文件，您不应该出现该错误。

如果您从另一个目录运行该扩展并且您必须添加每个文件的路径，那么您的命令的大小会更大，当然它可能会发生。

解决方案从该目录运行命令。

(cd That/Directory ; cat file_{1..2000}.pdb >> file_all.pdb )

最佳解决方案如果相反，我猜错了，而您从文件所在的目录运行它...
恕我直言，最好的解决方案是Stéphane Chazelas 的解决方案：

seq -f 'file_%.17g.pdb' 15000 | xargs cat > file_all.pdb

使用 printf 或 seq；对 15k 个文件进行了测试，只有它们的编号在预缓存中，它甚至是更快的文件（目前，除了文件所在目录中的 OP 文件）。

多说几句

您应该能够更长时间地传递给您的 shell 命令行。
您的命令行长度为 213914 个字符，包含 15003 个单词
cat file_{1..15000}.pdb " > file_all.pdb" | wc

...即使为每个字添加 8 个字节，也远远低于内核 3.13.0 上报告的 2097142 (2.1M)或报告为“我们实际上可以执行的最大命令长度”ARG_MAX的稍小 2088232的 333 938 字节 (0.3M)使用“通过xargs --show-limits

看看你的系统的输出

getconf ARG_MAX
xargs --show-limits

懒惰引导解决方案

在这种情况下，我更喜欢使用块，即使通常会出现一个省时的解决方案。
逻辑（如果有的话）是我懒得写 1...1000 1001..2000 等等...
所以我要求一个脚本为我做。
只有在我检查了输出的正确性之后，我才会将其重定向到脚本。

...但懒惰是一种心态。
由于我对xargs（我真的应该在xargs这里使用）过敏并且我不想检查如何使用它，所以我按时完成重新发明轮子，如下面的示例（tl; dr）。

请注意，由于文件名是受控的（没有空格、换行符...），您可以轻松地使用下面的脚本。

tl;博士

版本 1：作为可选参数传递第一个文件号，最后一个，块大小，输出文件

#!/bin/bash
StartN=${1:-1}          # First file number
EndN=${2:-15000}        # Last file number
BlockN=${3:-100}        # files in a Block 
OutFile=${4:-"all.pdb"} # Output file name

CurrentStart=$StartN 
for i in $(seq $StartN $BlockN $EndN)
do 
  CurrentEnd=$i ;  
    cat $(seq -f file_%.17g.pdb $CurrentStart $CurrentEnd)  >> $OutFile;
  CurrentStart=$(( CurrentEnd + 1 )) 
done
# Here you may need to do a last iteration for the part cut from seq
[[ $EndN -ge $CurrentStart ]] && 
    cat $(seq -f file_%.17g.pdb $CurrentStart $EndN)  >> $OutFile;

版本 2

调用 bash 进行扩展（在我的测试中慢了约 20%）。

#!/bin/bash
StartN=${1:-1}          # First file number
EndN=${2:-15000}        # Last file number
BlockN=${3:-100}        # files in a Block 
OutFile=${4:-"all.pdb"} # Output file name

CurrentStart=$StartN 
for i in $(seq $StartN $BlockN $EndN)
do 
  CurrentEnd=$i ;
    echo  cat file_{$CurrentStart..$CurrentEnd}.pdb | /bin/bash  >> $OutFile;
  CurrentStart=$(( CurrentEnd + 1 )) 
done
# Here you may need to do a last iteration for the part cut from seq
[[ $EndN -ge $CurrentStart ]] && 
    echo  cat file_{$CurrentStart..$EndN}.pdb | /bin/bash  >> $OutFile;

当然，您可以继续前进并完全摆脱seq ^{[ 3 ]}（来自 coreutils）并直接使用 bash 中的变量，或者使用 python，或者编译 ac 程序来完成它^{[ 4 ]} ...

glglgl · Answer 6 · 2018-02-28T06:51:16+08:00

另一种方法可能是

(cat file_{1..499}.pdb; cat file_{500..999}.pdb; cat file_{1000..1499}.pdb; cat file_{1500..2000}.pdb) >> file_all.pdb

以正确的顺序将大量文件集中在一起

前提

多说几句

懒惰引导解决方案

tl;博士

版本 1：作为可选参数传递第一个文件号，最后一个，块大小，输出文件

版本 2

如何将 GPG 私钥和公钥导出到文件

ssh 无法协商：“找不到匹配的密码”，正在拒绝 cbc

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

如何卸载内核模块“nvidia-drm”？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

以正确的顺序将大量文件集中在一起

6 个回答

前提

多说几句

懒惰引导解决方案

tl;博士

版本 1：作为可选参数传递第一个文件号，最后一个，块大小，输出文件

版本 2

相关问题