我遇到了一个问题,我看到一些非常奇怪的锁等待,锁等待树顶部的进程处于“睡眠”“等待命令”状态。我可以看到机器名称和应用程序,我很确定这是一个客户端事务,在锁定导致问题的一些记录后在客户端被阻止,但我无法通过代码检查找到什么它可能正在做。我已经排除了 GC,因为同一个应用程序正在响应其他请求(我们有一个请求来转储所有未决请求的状态,每个请求都有一个唯一的 ID,并且在锁定保持时返回得很好)。当我们收到此问题的通知时,请求已备份到每台 SQL 客户端机器数千个,
我想向 SQL 连接信息中添加一些信息以跟踪哪个请求是顶部的请求,而不仅仅是哪台机器和应用程序(我认为这也可能有助于诊断未来的问题)。我可以在连接字符串中向应用程序名称附加一些内容,但我认为这可能会对连接池造成不良影响。
我读了这篇文章:我可以在登录后设置 App_Name() 的值吗?
和这个:http ://www.sqlservercentral.com/articles/T-SQL/2765/这似乎表明我可以使用它SET CONTEXT_INFO
来获取数据sys.dm_exec_requests.context_info
然后我将能够使用该数据来识别错误交易的确切请求来自。
我们没有SET CONTEXT_INFO
在应用程序中使用任何其他东西(并且 SQL 服务器专用于此应用程序)。
有什么原因我不想以这种方式进行请求识别,或者有什么更好的方法来跟踪到 SQL 层的请求吗?
我现在已经将其投入生产并且运行良好。我们在此之前发现了潜在的问题,但它可能对未来的问题非常有用。
对于任何未来的读者,
SET CONTEXT_INFO
它确实可以用于将 SQL 请求与运行它们的代码和/或请求相关联,而且我没有看到明显的性能影响。对于任何对这个锁定问题的细节感到好奇的人,事实证明,在这种情况下,我们在代码中的几个地方打开了一个事务,然后在事务期间,我们调用了一个表面上看起来只是检索的库函数一个缓存的值,但实际上做了一些不应该在事务内部完成的非数据库工作,然后继续打开自己的数据库连接。在某些高负载情况下,这会导致死锁,因为事务锁定了高内容项,然后在发生不当处理时,所有其他可用连接都被阻塞,等待相同的高内容项。一旦处理完成,错误的代码就会尝试打开单独的数据库连接,死锁是因为每个可用连接都在使用中并等待事务完成。通过添加代码来检测这种情况并记录调用堆栈,我们不仅可以找到每周触发多次的案例,还可以找到其他五个案例。
经验教训:让数据库完成与每个事务相关的所有事情(永远不要使用
SqlConnection.BeginTransaction
)。当你认为你需要在交易过程中在客户端做一些事情时,重新设计系统,这样你就不需要这样做了——你可能认为你对你正在做的一件事没问题,而且你可能是,但你永远不知道代码在未来可能会如何微妙地改变并像这样打破你。