我刚刚开始使用 GCS 作为我的 Web 服务器的备份。一台服务器有 120 万张 JPEGS (3.5TB),所有这些都在 10 小时左右的时间里完美地重新同步。
另一个有 250 万张 JPEGS(不过只是缩略图/预览 - 总共 300GB)。我第一次这样做时,“构建同步状态”很快就通过了所有 250 万。几分钟。虽然我的会话被打断了(wifi 掉线了),当我通过 SSH 尝试再次运行它时,“在源列表中”提示很快就超过了 10000、20000、30000。然后几乎停止了。半个小时后,也只有三十万了。我知道它必须弄清楚目标也有哪些文件,但我认为这不会显着减慢“在源列表中......”的回声?
它是否表明我的文件系统有问题,如果是,我应该检查什么?
还是出于某种原因,这是预期的行为?
尝试将 gsutil rsync 与 200 万个文件一起使用到一个存储桶是一个坏主意吗?我找不到谷歌关于一个桶里可以有多少文件的指导方针,所以我假设它是数十亿/无限?
FWIW 文件都在嵌套的子目录中,任何一个目录中的文件不超过 2000 个。
谢谢
编辑:我使用的确切命令是:
gsutil -m rsync -r /var/www/ gs://mybucketname/var/www
我发现改变
至
在 /gsutil/gslib/commands/rsync.py 中有很大的不同。感谢 GS 团队的 Mike 的帮助 - 这个简单的更改已经在 github 上推出:
https://github.com/GoogleCloudPlatform/gsutil/commit/a6dcc7aa7706bf9deea3b1d243ecf048a06a64f2