设想:
我们编写在线银行软件,目前(由于遗留设计决策)目前正在使用Quartz 2.2作为队列系统来长期执行一些操作。[让我们暂且不讨论它是否是正确的工具,在我们更新到 2.2 之前,它已经运行了很多年]
quartz.net 的一部分具有以下模式表(相关):https ://gist.github.com/jcolebrand/8695603
所以这个过程是我们在这个表中插入记录,比如 80k 条记录。(我有 quartz.net 的三个副本,服务于三种不同的配置,一个有 80k 记录,一个 50k,一个 280k,所以它会有所不同)。我们从其他一些表(记录表)中插入它们,因此重建此表并不是一个可怕的损失。该问题描述如下。
我有一个工具可以批量安排这些任务(其中大部分是一次性的,并且会在未来两周到二十年的任何地方发生,同样,这是关于数据库而不是架构选择)并且我可以调试步骤通过,看到行被毫无顾虑地插入到表中。我可以监控表格并查看它们是否已插入。然后我在 30 分钟后回来(好吧,这部分会有所不同。它们何时消失并不确定)并检查并且记录现在丢失了。
在一个实例的 80k 中,我丢失了大约 2700 条记录。当我运行我的工具时,我看到它们都同步了,过了一段时间,它们又消失了。
这是我尝试过的事情:
- 检查 SSMS 中的所有事务报告
- 检查 SSMS 中的所有阻塞事务报告
- 让我的日程安排应用程序长时间处于打开状态(以防万一,由于某种怪异的魔法,有一个打开的、未提交的事务)
- 重新启动维护数据库的 Quartz.net Windows 服务应用程序
- 在禁用 quartz.net windows 服务的情况下插入记录
我没有尝试过的事情:
- 重新启动 SQL Server
- 我的查询不使用“with(nolock)”[我听说这对日常使用来说很糟糕]
我认为我应该做但不知道怎么做的事情:
- 针对实例运行 SQL Profiler 并监视“删除”语句
- 判断是否有未提交事务的魔法
- 牺牲独角兽
- 给朋友打电话
- 每日双倍
@@版本:
Microsoft SQL Server 2008 R2 (SP2) - 10.50.4000.0 (X64)
Jun 28 2012 08:36:30
版权所有 (c) Microsoft Corporation
Standard Edition (64-bit) on Windows NT 6.1 (Build 7601: Service Pack 1) (Hypervisor )
编辑2014-01-30
出于内部原因,我必须能够准确地证明记录消失的原因,包括但不限于:
- 被用户删除
- 未提交的事务
- Quartz 自身删除
- 其他一些无法解释的现象
- 蝴蝶效应
- 触发效应
- 独角兽
在可能的情况下,我需要删除中涉及的特定语句。
长话短说
所以,基本上,TL;DR是:插入记录。在长达至少 30 分钟的一段时间内,记录明确显示在针对表的查询中。一段时间后,记录不再显示在对表的查询中。
是什么赋予了?我忽略了什么?您将如何分析此IN PRODUCTION以查看此处发生的情况?