AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / server / 问题 / 116213
Accepted
harald
harald
Asked: 2010-02-25 04:33:44 +0800 CST2010-02-25 04:33:44 +0800 CST 2010-02-25 04:33:44 +0800 CST

同步存储服务器

  • 772

我们有一个存储服务器,目前有大约 20TB 的媒体文件,我们希望与第二个存储服务器同步,用于备份和故障转移。事实是:

  • 我们目前存储了大约 9.000.000 个文件
  • 文件大小从几 KB 到 1 GB
  • 只需要单向同步
  • 文件没有得到更新,也没有删除——只有新文件要同步
  • 存储服务器正在运行 open-e,它们作为 NFS 卷安装在网络中

目前我们只在第三台服务器上使用普通的 rsync 来执行同步。

我想知道,对于如此大量的文件是否有更好的工具——商业的还是开源的?

非常感谢,

backup rsync storage failover
  • 2 2 个回答
  • 780 Views

2 个回答

  • Voted
  1. Best Answer
    Jim
    2010-02-25T08:51:27+08:002010-02-25T08:51:27+08:00

    如果您只是使用手卷脚本检查文件创建时间(可能还有大小)并将其与已同步到备份服务器的文件列表(或注册表)进行比较,您可能会看到性能有所提高。

    当检查一个或两个文件属性可能就足够时,Rsync 可能会花费大量时间检查所有文件中的更改。

    我们做了类似的事情,但规模要小得多,以在两台服务器之间同步照片。我编写了一个 bash 脚本,该脚本维护一个排序的文件注册表,这些注册表与文件创建时间和文件大小连接在一起。每次脚本运行时,它都会检查我们从中同步的服务器(源服务器)并生成一个排序的文件列表,其中包含创建时间和文件大小。然后,我使用comm命令比较这两个注册表并仅打印出现在源服务器上的那些条目。这是必须同步到新服务器的文件列表。

    然后我只是 scp 新文件。我有一些陷阱,锁定和节流,这样它就不会压倒东西,但它可以工作并且非常快。

    好消息是,如果您在两个地方都已经有很多文件,则不必同步所有内容即可开始。只需在目标服务器上创建一个初始注册表,然后 cron 启动脚本,它将从该点开始同步。如果您最终需要同步一个您从未想过的文件,您所要做的就是在源服务器上触摸它(更改日期信息),它将在下一次计划运行时同步。

    所以对于一个看起来像这样的目录:

    -rw-r----- 1 example example  38801 2010-01-21 11:45 1.JPG
    -rw-r----- 1 example example  38801 2010-01-21 11:45 2.JPG
    -rw-r----- 1 example example 757638 2010-01-21 11:45 3.JPG
    -rw-r----- 1 example example  16218 2010-01-22 15:07 9.JPG
    

    此列表由脚本转换为如下所示的注册表文件:

    1.JPG_2010-01-21_11:45_38801
    2.JPG_2010-01-21_11:45_38801
    3.JPG_2010-01-21_11:45_757638
    9.JPG_2010-01-22_15:07_16218
    

    我将该注册表(源服务器的文件)存储在目标服务器上。每次 cron 作业在目标服务器上运行时,我都会使用相同格式创建源服务器上当前文件的列表。假设列表中出现了一些新文件,10.JPG 和 11.JPG。

    -rw-r----- 1 example example  38801 2010-01-21 11:45 1.JPG
    -rw-r----- 1 example example  38801 2010-01-21 11:45 2.JPG
    -rw-r----- 1 example example 757638 2010-01-21 11:45 3.JPG
    -rw-r----- 1 example example  16218 2010-01-22 15:07 9.JPG
    -rw-r----- 1 example example  16218 2010-02-24 11:00 10.JPG
    -rw-r----- 1 example example  16218 2010-02-24 11:00 11.JPG
    

    当前文件注册表将如下所示:

    1.JPG_2010-01-21_11:45_38801
    2.JPG_2010-01-21_11:45_38801
    3.JPG_2010-01-21_11:45_757638
    9.JPG_2010-01-22_15:07_16218
    10.JPG_2010_02_24_11:00_16218
    11.JPG_2010_02_24_11:00_16218
    

    对旧注册表和当前注册表运行comm并删除第一个字段(需要复制的文件),如下所示:

    comm -23 ${CURRENT_REG} ${OLD_REG} | cut -d'_' -f1 > ${SYNC_LIST}
    

    将生成需要复制(我使用 scp)到备份(目标)服务器的文件列表(每行一个):

    10.JPG
    11.JPG
    

    然后,您只需通过循环处理该文件列表。

    上面的comm命令基本上是在告诉我只存在于第一个文件中的所有内容。它进行的比较也非常快。毕竟只是比较文本文件中的行。即使该文件非常大。幸运的是,您已经使用有关文件的一些基本元数据填充了该文本文件,并且通过comm非常快速地比较了这些数据。

    将元数据填充到列表中的好处在于,它将允许文件在同步之间发生更改的情况。假设有新版本的文件出现,或者旧版本有问题。文件的名称将存在于旧注册表中,但其元数据(文件创建时间戳和大小)会有所不同。因此,当前文件注册表将显示该差异,并且comm比较将表明该信息仅存在于第一个文件中。当您创建要复制的文件列表时,该文件名将在那里,并且您的复制命令将覆盖具有相同名称的过时文件。

    剩下的只是细节:

    • 使用文件锁定/信号量,这样如果上次运行的脚本在下次运行时没有完成,您就不会让脚本自行运行。
    • 使用临时文件存储当前文件列表和进程列表,然后在脚本退出时使用陷阱清理它们。
    • 完成后,将当前文件列表复制到旧文件列表上,以便为下一次比较做好准备,但只有在注册表中有文件时才这样做(否则,您将复制一个空注册表并同步所有内容下次)。

    希望有帮助。这非常适合我们的情况,但与所有事情一样,在您的组织或设置的限制下可能无法正常工作。祝你好运,至少它可能会给你一些想法。

    • 3
  2. 3dinfluence
    2010-02-25T07:52:30+08:002010-02-25T07:52:30+08:00

    以下是一些可供研究的选项。

    如果您不需要同时访问两个副本,请查看DBRD 。这是由于文件系统限制而不是 DBRD 的限制,如果需要,有一些变通方法可以访问第二个副本。但是该项目最近被内核接受,因此对它的支持应该非常简单。

    另一种选择是文件系统,例如GlusterFS。可以设置一个 2 节点复制配置。我认为这将是理想的,因为它应该允许更好的故障转移和可扩展性。MondoDB 也对使用他们的 GridFS 的这类东西感兴趣,但它有点新。

    • 1

相关问题

  • 总大小(磁盘)与总大小(媒体)

  • 社区对备份解决方案的意见

  • 无法读取不同 LTO-3 驱动器上的 LTO-3 磁带

  • 使用 TSM 备份时跳过硬链接

  • 使用 rsync 维护名称更改的目录的副本

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    新安装后 postgres 的默认超级用户用户名/密码是什么?

    • 5 个回答
  • Marko Smith

    SFTP 使用什么端口?

    • 6 个回答
  • Marko Smith

    从 IP 地址解析主机名

    • 8 个回答
  • Marko Smith

    如何按大小对 du -h 输出进行排序

    • 30 个回答
  • Marko Smith

    命令行列出 Windows Active Directory 组中的用户?

    • 9 个回答
  • Marko Smith

    什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同?

    • 3 个回答
  • Marko Smith

    如何确定bash变量是否为空?

    • 15 个回答
  • Martin Hope
    MikeN 在 Nginx 中,如何在维护子域的同时将所有 http 请求重写为 https? 2009-09-22 06:04:43 +0800 CST
  • Martin Hope
    Tom Feiner 如何按大小对 du -h 输出进行排序 2009-02-26 05:42:42 +0800 CST
  • Martin Hope
    0x89 bash中的双方括号和单方括号有什么区别? 2009-08-10 13:11:51 +0800 CST
  • Martin Hope
    Kyle Brandt IPv4 子网如何工作? 2009-08-05 06:05:31 +0800 CST
  • Martin Hope
    Noah Goodrich 什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同? 2009-05-19 18:24:42 +0800 CST
  • Martin Hope
    Brent 如何确定bash变量是否为空? 2009-05-13 09:54:48 +0800 CST
  • Martin Hope
    cletus 您如何找到在 Windows 中打开文件的进程? 2009-05-01 16:47:16 +0800 CST

热门标签

linux nginx windows networking ubuntu domain-name-system amazon-web-services active-directory apache-2.4 ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve