Kazimieras Aliulis Asked: 2009-05-06 14:29:20 +0800 CST2009-05-06 14:29:20 +0800 CST 2009-05-06 14:29:20 +0800 CST 备份检查的最佳实践? 772 这是一种常见的情况,当管理员建立自动备份系统并忘记它时。只有在系统出现故障后管理员才注意到,备份系统之前已损坏或备份由于某些故障而无法恢复,并且他没有当前备份可恢复......那么避免这种情况的最佳做法是什么? backup monitoring backup-restoration best-practices 9 个回答 Voted Best Answer trent 2009-05-06T14:33:37+08:002009-05-06T14:33:37+08:00 运行防火演习...每隔几个月说 XYZ 系统已关闭是个好主意...然后实际执行将其重新联机到新 VM 等的动作。它使事情保持诚实并帮助您赶上错误。 Mr Shark 2009-05-15T03:55:57+08:002009-05-15T03:55:57+08:00 肥皂盒模式:开 我想说,没有定期测试的备份毫无价值,这很简单。 在我之前的工作中,我们有一个政策,即每个系统(生产、测试、开发监控等)都应该每 6 个月进行一次测试恢复。 这也是最初级管理员的工作,因此文档是最新的。初级被定义为他/她在特定系统上做了多少工作,有时(实际上经常)是“小组经理”做的 我们有专门用于这个的特殊硬件(一个 Intel 和一个 IBM/AIX 机器),除了磁盘空间之外,其他所有东西的规格都很低,因为我们不需要在恢复的主机上运行任何真实的东西。 前几轮做了大量的工作,但它使我们简化了恢复过程,这是备份的重要部分。 WerkkreW 2009-05-14T08:53:07+08:002009-05-14T08:53:07+08:00 由于您似乎指的是管理员没有注意到备份作业“中断”的事实,而不是工作备份无法正常工作的事实,我建议围绕备份构建某种监控脚本。 在构建本土备份解决方案时,我会这样做: 构建一个脚本来备份您的数据。 执行测试恢复以确保脚本正常工作。 在脚本中,或通过其他方式,实现一种跟踪备份状态的方法(成功、失败、运行、未运行)。 监控跟踪状态(电子邮件、数据库等) 一旦所有这些都完成了,你应该会没事的。要做的另一件事是执行定期测试恢复。如果您有额外的硬件可以捐赠给这个事业。 在我工作的地方,我们有一个温站点,我们每个月随机选择一个系统或数据库,然后到我们的温站点并在裸机上执行测试恢复练习,以确保能够恢复我们的数据。 老实说,如果您的数据对您非常重要,那么投资一些软件来为您管理备份将符合您的最大利益。有数百种产品可以做到这一点,从廉价简单到企业级。 如果您依靠在 crontab 中运行的一组手写脚本来进行公司备份,那么迟早您可能会被烧毁。 Chopper3 2009-05-06T14:37:11+08:002009-05-06T14:37:11+08:00 我们有 60% 大小的“参考”版本的“生产”系统,我们将它们用于最终测试更改,我们将“生产”备份恢复到这些系统 - 它测试备份并确保两个环境彼此同步. nedm 2009-05-11T22:30:42+08:002009-05-11T22:30:42+08:00 一种方法是编写“恢复”作业脚本以定期运行,例如从最近的备份中获取特定文本文件并将其内容通过电子邮件发送给您。如果可能的话,这应该——至少有时——使用与创建或备份数据的那个不同的盒子来完成,只是为了确保它在你需要时可以工作。优点是您可以确定您的加密/解密、压缩和存储机制都在工作。 这对于电子邮件和数据库服务器等专门的备份会涉及更多一些,尽管从小型数据库或砖级邮箱备份执行某种小规模恢复并验证内容当然是可能的,只是涉及更多一些。 这种方法也不应该取代定期完全恢复以确保您可以在紧急情况下恢复数据——它只是让您对日常备份工作的完整性更有信心。 kubanczyk 2009-06-16T14:42:29+08:002009-06-16T14:42:29+08:00 在执行测试还原时,我对“这看起来不错,文件已还原,似乎没有文件丢失,甚至大小匹配”或“这看起来不错,我启动了我的应用程序”这一点感到不舒服。 ..不会崩溃,显示一些不错的数据”。 我想从头开始恢复服务器/集群,然后将其实际用于生产。不是一分钟,不是一小时,而是永久。如果您声称您的恢复是成功的,那么绝对没有理由不开始制作。这不是一些“肮脏”的系统,应该被遗忘。这是您在真正的灾难后将面临的系统。所以,如果它通过了“看起来不错”的阶段,那就忍受它。第二天晚上备份。忘掉原来的吧。使用这种方法您可能会发现一些故障,并且您将被迫修复所有这些故障。同一系统的下一次还原很有可能 100% 成功。 这包括您的备份软件和服务器。是的,您也需要恢复这些。 没有预算购买专用硬件进行恢复? 指出您绝对需要预算。每次都提醒决策者,尚未进行有效的全程恢复测试。(是的,收集证据来掩盖你的屁股。艰难的世界。) 在大多数组织中,偶尔会有业务需要将某些系统迁移到另一个硬件,因此请利用这个机会。总是选择“从备份恢复”方法进行迁移,假装你刚刚丢失了原始硬件。是的,这意味着更多的停机时间,对此感到抱歉。至少你会相信你的备份是有用的。 没有迁移?也许你可以借一些硬件两周并执行两次恢复测试(恢复到借来的硬件,等待一个多星期,从借来的恢复到原来的,忍受它)。通常,如果为某个新系统购买了新硬件并且您安排得当,您可以轻松地借用它——提供两周的详尽测试。如果新硬件与旧硬件不是 100% 相同,那将使您的测试更好。如果发生真正的灾难,您如何知道是否获得了相同的硬件? 您目前正在实施任何新系统吗?您现在可以测试还原吗?不要使用额外的硬件,只需覆盖新系统,因为您掌握了如何快速重新实现它的新知识。如果它还没有重要数据,则此方法有效。再次,在恢复的版本上进行生产,而不是在新安装的版本上。 Trondh 2013-10-19T02:05:51+08:002013-10-19T02:05:51+08:00 消防演习。 每 6 个月测试一次所有备份的策略是一个非常好的主意 在进行测试时,您需要查看您备份的每个应用程序或系统。理想情况下,应在备份的服务说明或 SOP(操作文档)中列出构成“成功”或“可恢复”备份的内容,以及保留时间、bladibla 等其他详细信息。 您可能会发现某些备份类型可以很容易地通过脚本(例如数据库)进行还原测试,而另一些则需要手动输入(Active Directory 还原)。尽可能自动化,确保某种报告到位,并确保“某人”也定期执行手动测试。隔离的环境(prod 的缩减副本)将使执行恢复测试变得更加容易。 Patrick Leonard 2015-10-01T11:28:41+08:002015-10-01T11:28:41+08:00 虽然我们不测试备份,但我们开发的 BackupRadar.com 系统中确实有集中式备份检查和报告组件。随意检查一下,看看它是否对该组件有帮助。它将成功/失败电子邮件的副本附加到备份策略中,如果您的备份软件也能够发送这些屏幕截图,它还会附加屏幕截图。 谢谢,帕特里克 SqlACID 2009-05-06T14:37:16+08:002009-05-06T14:37:16+08:00 确保记录备份活动,然后编写一些东西(当然是在 perl 中)解析这些日志以查找故障,将其提取出来并作为每日电子邮件发送。
运行防火演习...每隔几个月说 XYZ 系统已关闭是个好主意...然后实际执行将其重新联机到新 VM 等的动作。它使事情保持诚实并帮助您赶上错误。
肥皂盒模式:开
我想说,没有定期测试的备份毫无价值,这很简单。
在我之前的工作中,我们有一个政策,即每个系统(生产、测试、开发监控等)都应该每 6 个月进行一次测试恢复。
这也是最初级管理员的工作,因此文档是最新的。初级被定义为他/她在特定系统上做了多少工作,有时(实际上经常)是“小组经理”做的
我们有专门用于这个的特殊硬件(一个 Intel 和一个 IBM/AIX 机器),除了磁盘空间之外,其他所有东西的规格都很低,因为我们不需要在恢复的主机上运行任何真实的东西。
前几轮做了大量的工作,但它使我们简化了恢复过程,这是备份的重要部分。
由于您似乎指的是管理员没有注意到备份作业“中断”的事实,而不是工作备份无法正常工作的事实,我建议围绕备份构建某种监控脚本。
在构建本土备份解决方案时,我会这样做:
一旦所有这些都完成了,你应该会没事的。要做的另一件事是执行定期测试恢复。如果您有额外的硬件可以捐赠给这个事业。
在我工作的地方,我们有一个温站点,我们每个月随机选择一个系统或数据库,然后到我们的温站点并在裸机上执行测试恢复练习,以确保能够恢复我们的数据。
老实说,如果您的数据对您非常重要,那么投资一些软件来为您管理备份将符合您的最大利益。有数百种产品可以做到这一点,从廉价简单到企业级。
如果您依靠在 crontab 中运行的一组手写脚本来进行公司备份,那么迟早您可能会被烧毁。
我们有 60% 大小的“参考”版本的“生产”系统,我们将它们用于最终测试更改,我们将“生产”备份恢复到这些系统 - 它测试备份并确保两个环境彼此同步.
一种方法是编写“恢复”作业脚本以定期运行,例如从最近的备份中获取特定文本文件并将其内容通过电子邮件发送给您。如果可能的话,这应该——至少有时——使用与创建或备份数据的那个不同的盒子来完成,只是为了确保它在你需要时可以工作。优点是您可以确定您的加密/解密、压缩和存储机制都在工作。
这对于电子邮件和数据库服务器等专门的备份会涉及更多一些,尽管从小型数据库或砖级邮箱备份执行某种小规模恢复并验证内容当然是可能的,只是涉及更多一些。
这种方法也不应该取代定期完全恢复以确保您可以在紧急情况下恢复数据——它只是让您对日常备份工作的完整性更有信心。
在执行测试还原时,我对“这看起来不错,文件已还原,似乎没有文件丢失,甚至大小匹配”或“这看起来不错,我启动了我的应用程序”这一点感到不舒服。 ..不会崩溃,显示一些不错的数据”。
我想从头开始恢复服务器/集群,然后将其实际用于生产。不是一分钟,不是一小时,而是永久。如果您声称您的恢复是成功的,那么绝对没有理由不开始制作。这不是一些“肮脏”的系统,应该被遗忘。这是您在真正的灾难后将面临的系统。所以,如果它通过了“看起来不错”的阶段,那就忍受它。第二天晚上备份。忘掉原来的吧。使用这种方法您可能会发现一些故障,并且您将被迫修复所有这些故障。同一系统的下一次还原很有可能 100% 成功。
这包括您的备份软件和服务器。是的,您也需要恢复这些。
没有预算购买专用硬件进行恢复?
您可能会发现某些备份类型可以很容易地通过脚本(例如数据库)进行还原测试,而另一些则需要手动输入(Active Directory 还原)。尽可能自动化,确保某种报告到位,并确保“某人”也定期执行手动测试。隔离的环境(prod 的缩减副本)将使执行恢复测试变得更加容易。
虽然我们不测试备份,但我们开发的 BackupRadar.com 系统中确实有集中式备份检查和报告组件。随意检查一下,看看它是否对该组件有帮助。它将成功/失败电子邮件的副本附加到备份策略中,如果您的备份软件也能够发送这些屏幕截图,它还会附加屏幕截图。
谢谢,帕特里克
确保记录备份活动,然后编写一些东西(当然是在 perl 中)解析这些日志以查找故障,将其提取出来并作为每日电子邮件发送。