我们在 Ubuntu 14.04 机器上有 3 个文件夹,每个文件夹包含 250K 张图片,每个文件夹大小为 2KB-30KB,预计每个目录会增长到 1M 文件。
在尝试将应用程序扩展到多台服务器时,我们正在研究 Glusterfs 以实现共享存储。由于 ext4 上 250K 文件不是问题,因此 glusterfs 似乎有问题。试图复制文件会使机器完全崩溃。
我希望将文件划分为 2 个级别的目录:
mkdir -p {000..255}/{000..255}
/000/000/filename
/001/000/filename
/001/001/filename
...
这听起来像是一个可行的好方法吗?整个结构稍后将包含数百万个文件。这会让 glusterfs 在生产中可靠且性能良好,托管数百万个文件吗?
使用 GlusterFS 存储和访问大量非常小的文件是许多实现面临的困难,而且您似乎已经走上了解决问题的好道路:将文件分成单独的目录。
您可以实施这样的解决方案。只需创建一堆目录,为每个目录中可以放置的文件数量选择一个限制,并希望您不会用完放置文件的地方。在您的示例中,您正在创建 65k+ 目录,因此这不会很快成为问题。
另一种选择是根据创建文件的日期创建目录。例如,如果文件
cust_logo_xad.png
是今天创建的,它将存储在这里:如果您托管不同实体(客户、部门等)的数据,您可以根据所有权分离文件,为实体分配某种唯一 ID。例如:
除此之外,最好查看GlusterFS 文档以调整存储集群以托管小文件。 至少要确保:
mkfs
选项)如果可以(如果还没有),最好创建一个数据库作为文件的索引,而不是一直扫描(例如
ls
)或搜索(例如find
)文件。