我目前正在使用 rclone从互联网档案中下载数据集- 它需要较新版本的 rclone,我在 ubuntu 服务器上运行 v1.60.1-DEV。Rclone 比 IA 客户端更快,也更可靠。理想情况下,我尝试在不同的系统上运行单独的实例,我设法加快速度,不重叠就好了。
我当前尝试下载的数据集分为 9 个 zip 文件,0-9 在根目录中,下层目录和上层目录的每个 zip 文件都标有 az。
我想要做的是仅下载0-9.zip 而不从根目录单独指定文件。
我现在正在运行“小写”文件夹,每个文件的下载时间超过 12 小时,假设它会在其余文件完成之前完成。
我已将 rclone 配置为使用 IA 作为远程,因此我可以使用命令rclone sync IS:stack-exchange-images stack-exchange-images
来下载整个 repo,并且 rclone sync IS:stack-exchange-images/lower stack-exchange-images/lower
对于小写文件,假设校验和检查将捕获已下载的文件。
我如何才能排除“upper”和“lower”子目录并仅下载根目录中的文件?
我做了一些实验 -过滤器似乎是“最佳”方法。与任何 rclone 命令一样,值得先使用试运行选项运行这些命令。您还可以使用
rclone ls
速度更快的命令测试这些过滤器。clone sync -p IS:stack-exchange-images stack-exchange-images/ --exclude=/*/
假设我想排除特定目录,下面的命令会起作用。这对于选择性排除来说很好。
rclone sync -p IS:stack-exchange-images stack-exchange-images/ --exclude=/upper/ --exclude=/lower