我们正在为迁移旧服务器设置新服务器。
基本上,我们将拥有一台 Windows Server(2003 或 2008),在 RAID 5 上运行 6 个以上的虚拟服务器(Windows 和 Linux 开发、应用程序、数据库和几个测试工作站)。
我们还需要集中数据(文件和 SVN 存储库),因此需要一个文件服务器。由于我们没有任何管理经验,也从未做过备份,您是否有虚拟化文件服务器的经验?最好在物理盒子上运行它们?任何关于运行它的建议都将受到欢迎。
关于我们的备份策略,目前概述的是:
注意:由于资金限制,目前磁带备份对我们来说不是一种选择。
- 每周对 RAID 5 上的单独备份服务器进行一次完整备份(请参阅备份服务器应该使用 RAID 吗?)和外部驱动器(有点像穷人的磁带驱动器)
- 每日差异备份
- 计划每月对在线服务进行备份
你觉得这种做法合理吗?我敢肯定,我们肯定缺少很多方面。
最后,我们担心的是如何备份虚拟机。一种简单的方法是简单地备份everithing(正如其中一个问题所建议的那样,我找不到wich ...)。
您对 vbox 中包含的数据有何建议?也应该备份(“以防万一……”),还是直接备份虚拟映像是安全的?
如果它用作附加信息,我们计划使用 BackupExec。
感谢您抽出宝贵时间阅读本文。
----- 2009/08/04 更新 -----
由于健康原因,我无法继续回答这个问题。感谢那些回答我问题的人,这是一个很大的帮助。
这是我们现在草拟的备份计划,现在我们有了更多的背景:由于我们是一家小公司(来自南美洲),现在我们买不起磁带驱动器。
如果它不是异地和离线,我现在 bacukp 不是 bacukp,但我们正在努力获得更好的资金限制策略:
数据丢失窗口:1 天/8 小时。恢复时间:1 天/8 小时。要备份的东西:所有(数据和服务器安装)
- 每日:每天对物理备份服务器进行差异备份,可能使用 BackupExec。有人提议使用其中一个支持 sata 的外部存储集线器。另一个建议将其上传到存储服务,同时我们可以获得磁带。我们现在没有选择离开现场的选项(所以数据丢失窗口是“假的”)
- 每周:使用外部 1TB 驱动器进行完整备份。
- 每月/每年:与每周相同。我们有存储这些备份的问题
我们希望保持简单,但我认为我们正在通过所有这些日常策略来克服异地备份泄漏的复杂性。
我的标准备份建议:
备份的全部意义在于能够恢复。除非您完全有信心可以取回您的资料,否则您的备份毫无用处。您在备份解决方案中实施的所有内容都应该从“我如何从中恢复?”的角度出发。
磁带并不昂贵,而且它的优点是它比磁盘耐用得多。更少的活动部件,没有持续的电流通过它,所有的好东西。如果它拯救了你一次,那么在我的书中它已经为自己付出了代价。
除了“您可以承受损失多少数据”之外,您还需要考虑“在 DR 场景的情况下您可以承受多长时间的停机?” 3 天的恢复时间是 3 天的业务损失。您应该用一只手的手指计算恢复时间(以小时为单位)。
但是,如果您允许自己对此过于偏执,您很快就会赚到愚蠢的钱,因此您应该考虑将服务器分成 2 或 3 批。那些你绝对需要现在回来才能继续你的核心业务功能,而那些你可以推迟到核心业务回来之后。将大量投资投入到第一批中,确保您有完整记录的恢复过程(用于操作系统、应用程序和数据),一只手绑在背后的盲人麻风猴可以遵循。 打印并装订副本并将其保存在防火保险箱中- 如果您拥有的只是电子副本并且丢失或损坏,那么您就完蛋了。但是不要认为这意味着您可以对第二批内容松懈,只是您可以推迟将它们取回或花费更长的时间(例如,将它们放在较慢的媒体上)。
具体示例:您的核心文件服务器肯定会进入第一批。您的人力资源服务器进入第二批。这对 HR 人员来说很重要,但是如果没有 HR 系统,您的核心业务功能是否可以应付一时之间?是的,我想他们会的。
让您的备份解决方案简单而乏味。我经常看到人们实施花哨或复杂的备份解决方案,但最终变得过于复杂、繁琐且不可靠。备份很无聊,因为备份应该很无聊。它们越简单,恢复就越容易。你想要一个“我 Og,Og 点击按钮,Og 取回数据”的方法。 在那里保留一个日常手动元素。 这有助于建立演练,可以避免有人忘记更换磁带或在池中旋转 HD 的情况。如果发生这种情况,您可以在事后解雇负责人,但您猜怎么着?您仍然处于丢失一个月数据的位置。
关键问题是您准备丢失多少数据?1个月?一天?6个小时?5 分钟?
随着数据丢失窗口变小,它变得更加昂贵。
缺口,
我强烈建议您看一下 O'Reilly 的“Backup & Recovery”一书。
http://oreilly.com/catalog/9780596102463
它将向您解释诸如“单点故障”之类的术语以及备份关键系统的一般策略。
这是一本适合任何人书架的好书。
如果您没有专业知识,我不建议单独使用 raid 作为备份系统。冗余更重要。由 5 个驱动器组成的 RAID 系统总体上比 5 个独立驱动器的故障率要高得多。如果备份系统出现故障,一切都会停止,直到构建和测试新系统。如果 raid 控制器发生故障,一切都将消失。如果比奇偶校验失败的驱动器多,则一切都消失了。您经常被锁定在同一个控制器中,需要您购买备用控制器,否则将花费时间来查找并在需要时用同一个控制器替换它。您在某种程度上被锁定在磁盘大小和型号上。如果驱动器使用单独的磁盘出现故障,您可以用同样的钱购买更新、更大的驱动器。
另一种选择是购买 5 - 1 TB 外部 sata 驱动器,每个 90 美元 - 总成本 450 美元
不需要机器,不需要raid卡,没有raid配置,每个驱动器可以是不同的品牌、型号和大小。
旋转驱动器,使用磁带将异地存储在您公司的银行保险箱中。您可能有大量的潜在数据丢失窗口,但这可以通过在每个备份计划中备份两个或更多磁盘和磁带和/或在实时系统上添加快照/日志来缓解。
如果您可以将数据划分为公共数据和机密数据,您可以将工作站中的额外空间用于公共备份池。在每个工作站中放置一个 TB,并从每个工作站分配 500mb 到备份池。将此区域用于公共数据备份副本或加密的私人备份数据。
这是最容易和最快的恢复设置。Bacula 非常适合这种备份方式。我见过和使用过的最好的设置是实时 raid 系统,其本地备份用于每小时记录的差异备份,然后写入外部磁盘 - 在本地工作站上加密备用空间以实现冗余,并每天录制用于异地存储。
Raid 对活动系统有意义。将您的 raid 5 升级到 raid 60 或任何最适合您的数据和负载的东西。然后使用实时系统上的额外空间来存储快照备份。本地磁盘备份是最快的,意味着系统为备份事务锁定的时间最短。然后可以在午餐时间和白天的低使用点将这些快照备份到外部设备或磁带上。
根据需要为每种数据类型、目录、文件等创建不同频率的备份计划。尽可能经常在本地备份,最好是每个文件写入。(日志)尽快从系统中获取本地备份。(至少每天)尽可能多地复制备份数据。(通常5个就足够了)
我建议在物理机器上运行文件服务器,因为它的 I/O 可能非常繁重。能够在不关闭所有 VM 的情况下热插拔死驱动器也很不错。不过,这取决于您的具体设置。
您的备份计划听起来很合理,但取决于您能承受多少损失。看起来您的大部分备份(每月备份除外)都在现场,这意味着如果建筑物被烧毁或被破坏,您最多会丢失一个月。
如果您将外部驱动器带回家,则必须将其保留在家里,直到备份到期之前,否则它就不是真正的异地备份,是吗?如果你对此有纪律,你最多会失去一个星期。最好轮换一组三个外部硬盘,这样您将始终在现场拥有最旧的一个,而在场外拥有最新的一个。
不要忘记定期测试和记录您的备份;您需要放心,您的每个备份系统都可以正确恢复。您需要文档,以便您的一位同事可以恢复数据。您还需要有关如何重建整个服务器的文档。如果一个失败了,你就会有太多的想法来记住每一个细节。
题外话:碰巧,我正在为我们的小公司寻找类似的基础设施。类似的经验水平,尽管我们已经有备份。我将与您分享我们当前的设计,为您提供另一种观点,而不是评判您的观点:
我们正在计划三台服务器:两台虚拟化主机和一台存储服务器。storageserver 很可能会运行Openfiler。它将通过(可能是双)千兆以太网连接到两台主机,两者都具有良好的 CPU 和充足的内存,但几乎没有任何存储(可能只是小型 SSD)。这些主机将在裸机上运行 Citrix Xenserver(或者可能是 VMWare ESXi),因为它比在另一个基本上没有多大作用的操作系统中运行虚拟化软件要高效得多(例如,查看 VMWare Server 和 VMWare ESXi 之间的性能差异)。Xenserver 似乎最有趣,因为它免费提供企业功能,而如果您想要的不仅仅是基本功能,ESXi 可能会变得昂贵。Xenserver 主机本身没有存储,但将通过iSCSI从 Openfiler 服务器使用块级存储作为虚拟硬盘. Openfiler 可以做快照、RAID 等。Xenserver 可以将虚拟机从一台服务器实时迁移到另一台服务器,因此我们可以在一台服务器上进行维护,而无需关闭任何来宾 VM。获取支持 VLAN 的千兆交换机,这样您就可以将存储流量与 VM 流量分开。几个 UPS 允许在电源故障的情况下进行受控关机,然后你就完成了。几乎所有的成本都花在了硬件上,因为软件(惊人地)是免费的。
抱歉,这个答案有点长,但我希望另一种观点对您有价值。
b我将发表我一直对“备份”发表的评论:
备份是异地和离线的。如果它不是异地和离线,则不是备份。
如果建筑物被烧毁,异地很重要。在现场但离线(想想抽屉中未插电的外部硬盘驱动器)然后当建筑物烧毁时它就消失了(请参阅清理服务器的烟灰 )。
如果有人攻击您并试图破坏您的数据,离线很重要。如果它在异地但在线,那么它很容易受到攻击和“腐败”。离线意味着“备份和网络之间的气隙”。
备份之道有点俗气的推销,但网站信息中的所有内容都是真实而重要的。我建议阅读它。
我会在物理机器上运行文件服务器。文件服务是 IO,虚拟化是 IO 的惩罚。虚拟化非常适合那些“需要”一个单独的操作系统实例但不需要整个物理机器的马力的应用程序。对于完全基于 IO 的应用程序,虚拟化意义不大。
您应该阅读我的比较各种备份解决方案的Server Fault Backup Roundup电子表格。LTO-4 和 5 周轮换的磁带并不贵。如果您使用 LTO-3、LTO-2 或 VXA 等低端磁带技术,则成本更低。
如果您想要关于备份的更好建议,请告诉我们以下信息:
您现在在问题中有点说这些事情,但我想知道您是否真的考虑过,例如,如果您每月进行异地复制并且您在 2 天前遇到灾难,这会对您的业务产生什么影响下一个月的异地副本。我建议您在与业务中的运营人员交谈后重新检查您的要求,并询问他们丢失各种数据量(以小时/天/周的数据计)的公司将花费多少美元。
(您可以在我的“服务器故障备份综述”文档中获得更多关于假设的详细信息:推荐的 2009 年左右备份媒体?)
尼克的答案 - 请记住,这种方法适用于低成本的小型企业,为工作站购买名牌预建系统。这是一个利用额外浪费的可用资源的场景。我们使用所有可用的资源。当用户离开一天时,他们的工作站将重新启动到集群中以进行自动构建和测试。我提出的备份方法是一种利用每个工作站中的额外空间使用多台机器进行冗余副本的方法。
...乔,你说的实时系统是什么意思?生产服务器?
是的。突袭是为了减少时间损失。因此,它应该在 24/7 运行的系统上使用。对于只需要在备份数据传输期间运行的备份系统或只“需要”在白天运行的工作站来说,它的价值要小得多。
...因此,在您描述的选项中,计划是:在每个工作站中记录公共数据(加密)。
是的。它可以是公共共享的或跨工作站的。日志/快照在备份传输到另一种介质之间的 raid 系统上每小时更改一次,通常每天两次,中午和晚上。(在生产系统上尽可能多地保留多达 80% 的磁盘空间的日志备份。在此之后性能可能会受到影响。)这样,用户可以轻松地恢复被覆盖或删除的文件,而无需通过转到他们的 /username 与系统管理员交谈RAID 生产系统上的 /date/time 文件夹并使用标准差异工具,可以访问当天所有可用的快照等。
加密是为了防止工作站被盗和/或防止“窥探”。我们有优秀的开发人员,因此您相信他们不会尝试解密。他们可以通过许多其他方式对业务造成损害,因此需要信任。
...这些快照每天使用 5 个外部磁盘进入系统,还是每天在 5 个磁盘之一中进行异地拍摄?
旅行数据总是在磁带上。磁带经受住了冲击。磁盘查找速度更快,这就是为什么我们更喜欢磁盘作为“日志”备份。磁带是完整或增量备份,通常没有日志/快照。大多数数据恢复将在白天完成 - 对于我们的用户群。“我需要像午餐前一样的文件。” “我刚刚删除了错误的文件。” 从前几天恢复的粒度通常每天一个版本就足够了。如果需要更多日志,则调整备份或实施修订控制系统并备份修订树。
这五个磁盘是一个任意数字,用于显示相对于仅磁带系统的相对成本。五个具有相同数据副本的独立磁盘具有比任何小型企业 RAID 系统更高的冗余度。如果工作站有足够的空间,一张专用的备份磁盘可能就足够了。(假设工作站和磁带上有多个副本)
在设定的时间点,数据从生产服务器日志备份分区转移到备份系统,外部驱动器连接,制作 2-5 个副本,一个在内部磁盘上,一个在外部磁盘上,然后到磁带。工作站备份到备份系统,然后在关闭每个工作站之前接收共享生产系统备份的副本。备份数据的物理副本永远不会少于三个。3副本、5副本等是一个冗余问题,需要针对每个业务和每个类型的数据进行建模。您可能需要 5 份发票副本、7 份合同副本、仅 2 份标准图形副本和一份当前测试构建可执行文件的副本等。
...此外,每个工作站中的快照都相同吗?还是他们都总结了完整的公共数据?
任何一个。取决于可用空间和需求。我们购买的系统总是带有比普通用户所需的磁盘大得多的磁盘(开发人员可能会使用额外的空间,但接待员不需要 500gb 以上的磁盘)
...您如何看待那些像 linksysbycisco.com/US/en/...这样的外部存储中心?
不知道。我们更喜欢可以用于其他用途的机器,今天的备份服务器,明天某人的工作站,在重大升级期间卸载虚拟副本以实现快速故障转移等。这就是外部磁盘的原因之一 - 使所有工作站保持相似尽可能。因此,“备份服务器”将拥有与每个工作站相同的 500GB 以上磁盘。它是同一台物理机器,成套购买,所以随着时间的推移,CPU、内存和磁盘会根据当前的交易而有所不同。机器是根据性能需求分配的,与在完美运行的机器上安装内存芯片相比,更换新机器以增加内存所需的总体系统管理时间更少。如果我们保持 CPU 和视频(AMD64、Nvidia)相对一致,机器交换是无痛的。
生产服务器使用两个 RAID 卡,一个运行 10k rpm scsi,另一个运行 7200rpm scsi 驱动器,以获得最佳性能。用于备份的 60 美元 SATA TB 驱动器可容纳价值数千美元的 scsi 驱动器、raid 控制器、热插拔机架机箱等。开发服务器通常足以使用 SATA raid,空间更大但性能更低。由于同时用户较少,因此性能差异通常可以忽略不计。
简单来说 -
平均工作站购买了 500gb+ 驱动器,最多使用 ~40gb 用于多引导 windows/linux/bsd/opensolaris 分区。其余的是备份分区,其中包含彼此工作站操作系统的备份副本、生产服务器的操作系统备份、生产服务器的日志数据备份和/或生产服务器的增量数据备份。
如果任何两台机器在建筑物中死机,恢复需要几分钟。每个操作系统至少有三个物理副本,通常我们有足够的未使用的工作站 + 外部驱动器空间来保存来自生产服务器的一两个星期的增量备份以及最后一次完整备份的至少两个副本。
我们可以丢失 RAID 系统、磁带和两个工作站,而不会丢失任何数据,并在几分钟内启动并运行。(尽管在修复之前没有突袭)但是数据可以“立即”访问。这在故障期间节省了数小时的时间,故障似乎总是在最糟糕的业务时间发生。在重要的销售会议/演示之前,电源总是会出现故障。突袭系统似乎总是在早上出现故障,从来没有在周五晚上出现故障,因此您可以修复它们并在周一早上恢复。
描述备份过程的文档是公司财产。我将尝试使用图表和用例重新编写以供公众查看。多年来,我一直使用这种通用方法,当标准磁带系统出现故障时,它可以节省时间和数据。我在使用 DLT、LTO 等的 IBM、Compaq、HP 和 Dell 系统上看到过故障。常见的故障是备份期间没有错误,但是当您尝试恢复数据时,数据已损坏。始终测试还原。这就是我们使用可以每天轻松测试的在线日志备份的原因之一。自从用户习惯它以来,我们从来没有超过一周没有人使用日志备份,而且几乎从不使用磁带。这些磁带是为了以防建筑物被烧毁。