今天早上,我被我们的一个数据库上的事务日志完整警报唤醒。该服务器是一个永远在线的集群,也是一个事务复制订阅者。我检查了 log_reuse_wait_desc,它显示了 logbackup。4 天前有人不小心禁用了日志备份作业,我重新启用了日志备份作业并且日志被清除了。由于现在是凌晨 4 点,我想我会在那天早上晚些时候去办公室并缩小日志,因为它已经增长到 400GB。
上午 10 点——我在办公室,我在缩小之前检查了日志使用情况,大约是 16%。我很惊讶并检查了显示复制的 log_reuse_wait_desc。我很困惑,因为这是一个复制订户。然后我们看到为 CDC 启用了 db,并认为这可能是原因,因此禁用了 CDC,现在 log_reuse_wait_desc 显示 AVAILABILITY_REPLICA。
同时,日志使用量仍在稳步增长,目前为 17%。我检查了alwayson仪表板并检查了已发送和重做队列,两者几乎为零。我不确定为什么日志重用显示为 AVAILABILITY_REPLICA 并且无法清除日志。
知道为什么会这样吗?
如果你这样做:
log_reuse_wait_desc 显示 AVAILABILITY_REPLICA,这意味着 SQL Server 正在等待将日志数据发送到您的 Always On 可用性组副本之一。其中一个副本可能由于网络速度慢而落后,或者它可能完全关闭。
如果您检查 AG 仪表板并且它没有显示任何队列,那么您可能是线程耗尽的受害者。AG 仪表板在工作线程耗尽后停止更新是一个已知问题。您需要直接检查每个副本的状态,而不是依赖主副本。Nick 在 Connect 项中的注释说,您可以更改副本的属性以重新启动复制,但这并不总是有效(特别是如果您在副本上有数百个数据库需要发送大量数据,并且重新启动复制只会导致工作线程再次耗尽。)
如果最后一个人设置了一个 AG 副本并且它不应该再存在,那么是时候删除该 AG 和/或副本了。请注意,应用程序未指向侦听器名称以连接到您的 SQL Server。
迟到总比没有好:我们有类似的病例,同样的症状。
查看:
在所有 AlwaysOn 辅助实例上。
如果
log_reuse_wait_desc
在REPLICATION
其中一个上,则将主节点切换到实例,并在其上禁用复制。如果还没有复制,请使用sp_removedbreplication
.在我们的例子中,当日志在具有 cdc/replication 和 AlwaysON 的系统上填满时,它看起来像是某种错误。此问题再次发生,解决方案是再次启用和禁用 CDC。事件如下
我有同样的问题
数据库在主数据库上标记为同步,但
在辅助数据库上未同步我右键单击辅助数据库并选择恢复数据移动
我刷新,看到它现在在主数据库上标记为同步,在辅助数据库
上同步开始担心,因为它在 20 分钟后还没有恢复 - 然后它恢复了!
我将此归因于必须同步的数据量