我们正在尝试实施的灾难恢复技术遇到了一个奇怪的问题。两个数据中心的环境相同,具有相同版本的 VMWare 和 Dell Equallogic SAN。
当我们从一个数据中心复制到另一个数据中心时,随机数据库会以某种方式损坏并最终进入可疑模式。每次我们尝试这种方法时,不同的数据库都会被破坏。这是导致此问题的 SQL 行为吗?这是 SAN 中用于复制的软件导致了这些错误吗?
我已经能够将数据库的状态更改为紧急模式并执行 DBCC CHECKDB,但每次都是不同的问题和数据库。我发现的一些错误是索引问题和数据不匹配问题。我仍在检查其他数据库以查看是否可以找到模式。如果找到其他东西,我一定会发布它是否有帮助。
我听说有人成功地实施了这个程序,这是项目中最后一项任务,在我们可以关闭项目章程之前要弄清楚。
我真的希望我们可以只使用 SQL Server 的内置功能,如镜像或 AO-AG。
SQL 的版本是 2008 R2 和 2012。我们正在安装一些全新的 SQL 2014 服务器。此外,它们都是标准版,而不是企业版。
任何输入或我可以尝试的事情都会有很大帮助,在此先感谢!
Edit#1 8/6/15 12:50 PM CST - 以下是我在 Windows 事件查看器中发现的一些错误消息,这些消息或多或少是 DBCC CHECKDB 产生的。
- EventID 605 - 尝试获取数据库 26 中的逻辑页 (1:22620) 失败。属于分配单元72057594239385600不属于72057594249412608
- EventID 824 - SQL Server 检测到基于逻辑一致性的 I/O 错误:不正确的分页(预期 1:1230;实际 0:0)。它发生在读取文件“D:\Mydatabase.mdf”中数据库 ID 58 中偏移量 0x0000000099c000 处的页面 (1:1230) 期间。SQL Server 错误日志或系统事件日志中的其他消息可能会提供更多详细信息。这是威胁数据库完整性的严重错误情况,必须立即更正。完成完整的数据库一致性检查 (DBCC CHECKDB)。
- EventID 7886 - 向客户端发送数据时,对大型对象的读取操作失败。一个常见的原因是应用程序运行在 READ UNCOMMITTED 隔离级别。此连接将终止。
- 事件 ID 608 - 在数据库 23 中找不到分区 ID 72057594383564800 的目录条目。元数据不一致。运行 DBCC CHECKDB 检查元数据是否损坏。
Edit#2 8/6/15 2:24 PM CST - 收到的信息表明,在 SUSPECT 模式下恢复数据库的 .bak 文件可以解决问题。
关于您的评论,我怀疑这里是与 Ops 相关的问题,而不是 SQL Server 引擎问题。这些 SAN 设备通常在块层上工作,并且一些设备比其他设备以及其他领域更好地管理事务日志/数据文件同步。
您可以向操作团队表明,不,SQL Server 不会像这样随机损坏数据。您可以将备份恢复到另一台服务器,设置镜像,所有这一切都不会损坏。在我们进行 san 级别复制的那一刻,它就发生了。如果 SQL Server 造成这样的损坏,它就不会存在了。SQL Server 有近百万行代码处理损坏、修复损坏和减少损坏的可能性。您在任何其他环境中都不会遇到此问题,它只会出现在 SAN 复制中,对吗?
固件通常是此类问题的主要原因。联系您的戴尔支持代表,他们将提供更多信息和故障排除。不要满足于懒惰的代表,您企业的数据和时间都处于危险之中。他们有很多工具可以在后台检查导致此问题的原因,还有其他工具(例如 DPAC)可能会有所帮助。这不是 SQL Server 引擎问题,我们需要 Ops 的全力支持。
编辑:如果您的固件已过期或不匹配,请从管理 SAN 的 Ops 团队获取政策,该政策声明他们将在他们管理的机器堆栈中保持固件最新。如果此 SLA 不存在,您应该向您的经理记录下来,因为除了这个之外,您还会遇到很多其他问题。
我假设您正在使用 SAN 块级复制。
它通常也可能在设置中不匹配。也许不同的块大小等,但 san os 通常应该能够检测到这些问题。