Atualmente estou usando o rclone para baixar um conjunto de dados do arquivo da Internet - ele precisa de uma versão mais recente do rclone e estou executando a v1.60.1-DEV no servidor Ubuntu. O Rclone é mais rápido e um pouco mais confiável que o cliente IA. E me permite baixar vários arquivos de uma vez. Idealmente, estou tentando executar instâncias separadas em vários sistemas. Consigo acelerar um pouco as coisas e não sobrepor seria bom.
O conjunto de dados que estou tentando baixar no momento está dividido em 9 arquivos zip, 0-9 nos diretórios raiz, diretórios inferior e superior com arquivos zip rotulados como az cada.
O que eu gostaria de fazer é baixar apenas 0-9.zip sem especificar individualmente os arquivos da raiz.
O que estou fazendo agora com downloads de mais de 12 horas por arquivo é executar a pasta 'minúscula', presumindo que isso seria feito antes do resto.
Eu configurei o rclone para usar IA como controle remoto, então tenho o comando rclone sync IS:stack-exchange-images stack-exchange-images
para baixar o repositório inteiro e rclone sync IS:stack-exchange-images/lower stack-exchange-images/lower
para os arquivos em minúsculas, presumindo que a verificação da soma de verificação capturará os arquivos que já foram baixados.
Como posso excluir os subdiretórios 'superiores' e 'inferiores' e baixar apenas arquivos nos diretórios raiz?
Fiz alguns experimentos - e os filtros parecem ser a 'melhor' maneira de fazer isso. Como acontece com qualquer comando rclone, vale a pena executá-los primeiro com a opção de simulação. Você também pode testar esses filtros usando o
rclone ls
comando que é muito mais rápido.clone sync -p IS:stack-exchange-images stack-exchange-images/ --exclude=/*/
Hipoteticamente, se eu quisesse excluir diretórios específicos, o comando abaixo funcionaria. Isso seria bom para exclusões seletivas .
rclone sync -p IS:stack-exchange-images stack-exchange-images/ --exclude=/upper/ --exclude=/lower