我正在使用安装在 的远程并行文件系统 (CephFS) /mnt/mycephfs/
,其中包含大量小文件 (200 GB+)。我的应用程序在这些文件上进行训练,但/mnt/mycephfs/
由于并行文件系统争用和网络延迟,直接从中读取速度很慢。
我正在寻找一个基于 FUSE 的解决方案,它可以:1. 获取应用程序所需的文件列表。2. 预取并缓存这些文件到本地挂载点(例如/mnt/prefetched/
),而无需复制整个远程存储(因为我的本地 RAM 和磁盘空间有限)。
期望的行为:• 如果文件(例如/mnt/mycephfs/file
)已缓存在/mnt/prefetched/file
,则应从缓存中提供该文件。• 如果未缓存,解决方案应获取该文件(以及预取列表中的其他文件),将其缓存在/mnt/prefetched/
,然后从那里提供该文件。
是否存在现有的工具或框架支持使用 FUSE 进行这种选择性缓存和预取?