我使用Download Accelerator Plus在 tar.gz 中下载了一个 120 GB 的数据集,并使用以下命令将其解压缩:
tar -xvzf train_val2018.tar.gz
提取后的数据集应包含略多于 8,142 个文件夹和正好 461,939 个图像文件。
当我打开提取的文件夹时,它确实包含数据集的一部分。但是,其中很大一部分丢失了 - 它仅包含 3,542 个文件夹和 179,689 个文件。
在 Ubuntu 上使用文件资源管理器或内置文件提取器 GUI 来提取它只会变得更糟。我也在 Windows 上尝试过各种应用程序,例如 WinZip、WinRAR 和 7Zip。这些都不起作用,但他们的问题是他们在如此大的数据集上存在内存问题。
文件是否已损坏?该文件的大小与他们在数据集网站中提到的大小相同,并且我已经使用 DAP 下载了几个较大的文件,并且从未遇到过损坏问题。出于这个原因,我想知道内置提取器是否有一些限制或其他问题。
我指的数据集是iNaturalist 2018 Contest Dataset。
是的。该网站还提供了一个工具供您检查自己。从链接中,我看到了 4 个校验和,其中第一个是供您下载的。
如果您得到不同的结果,则您的下载已损坏。
是的,当然可以。如果您阅读他们有检查步骤:
如果您不想手动比较 md5sum,您可以创建一个包含以下内容的文件 md5sum-db(名称可以是任何您喜欢的名称):
在压缩数据库所在的文件夹中输入并运行:
如果哈希检查匹配,您将收到以下输出:
别的
检查 gz 文件的另一种方法是使用测试它:
注意:此方法不能确保存档中包含的数据的完整性。