RichardB提出的问题 -computer

RichardB

Asked: 2019-04-18 09:45:50 +0800 CST

MSSQL 对链接服务器的高频查询出现间歇性 TCP 连接错误（连接池相关？）

我有四个连续运行的 SQL 代理作业。每个作业都在执行一个存储过程，该过程查询最近的 ATM 交易，所有这些都通过同一个链接服务器进行。这发生在每个作业的循环中，在 proc 执行之间有 5 秒的延迟（使用 WAITFOR DELAY）。

具体来说，四个作业之一使用一个存储过程，而其他三个作业都使用另一个。每个作业执行都有自己的一组参数，这些参数与将触发响应的特定事务模式相关。他们都在查询同一个链接服务器。

大多数时候，一切正常。但偶尔（几乎*）任何作业都会因以下错误而失败：

TCP 提供程序：指定的网络名称不再可用。[SQLSTATE 42000]（错误 64）链接服务器“ATMDB”的 OLE DB 提供程序“SQLNCLI11”返回消息“通信链接失败”。[SQLSTATE 01000]（错误 7412）。

这仅在作业更新为使用 WAITFOR 循环连续运行之后才开始发生，而不是作为单独的 SQL 代理作业执行每分钟运行一次。进行此更改是为了避免过多的 SQL 作业日志记录，以及更接近实时地监控 ATM 交易。

他们失败的频率没有一致性，但每天至少有几次。

*我在上面说“几乎”，因为其中一项工作从未失败过。这是最常被“命中”的一个，当发生这种情况时，作业步骤被允许完成，因此我们在 SQL 作业日志中有明确的记录。（然后在 1 秒延迟后再次循环回到第一步。）

所有作业都配置为每分钟运行一次。因此，失败后作业将在下一分钟重新启动，因此这不会对事情造成太大影响。这真是太烦人了！

我怀疑 SQL Native Client 及其实现连接池的方式是问题的根源。在测试时，我将两个过程之一中的链接服务器更新为与另一个不同。两个不同的主机名，但实际上仍然是同一台服务器（我只是使用主机文件创建了一个新名称）。这导致一个作业不再失败，但其他三个作业中的两个仍然会间歇性地失败。在将另一个程序切换为也再次使用相同的链接服务器后，现在所有作业再次偶尔会失败。因为连接池特定于连接字符串，所以不同的服务器名称会导致使用不同的池。

使用 Windows 资源监视器，我可以看到通常有三个 TCP 连接打开到链接服务器。它们在同一个端口上保持打开状态超过几分钟，所以我猜它正在使用某种连接池。当错误发生时，它与关闭的连接之一同时发生，并且在新连接打开后不久。

我目前的理论：因为进程在使用链接服务器时重复循环，连接池的某些问题导致它试图使用因任何原因而关闭的连接。也许每隔一段时间“完成”的一个工作步骤会以某种方式得到刷新，并防止错误发生在该特定过程中。

我尝试将存储过程调用包装在 sp_executesql 中作为“强制”另一个进程或执行上下文的解决方法，但这没有帮助。

两台服务器都是 Windows 2012，运行在 VMWare 中。

关于如何进一步排除故障的任何想法？

MSSQL 对链接服务器的高频查询出现间歇性 TCP 连接错误（连接池相关？）

如何减少“vmmem”进程的消耗？

从 Microsoft Stream 下载视频

Google Chrome DevTools 无法解析 SourceMap：chrome-extension

Windows 照片查看器因为内存不足而无法运行？

支持结束后如何激活 WindowsXP？

远程桌面间歇性冻结

子网掩码 /32 是什么意思？

鼠标指针在 Windows 中按下的箭头键上移动？

VirtualBox 无法以 VERR_NEM_VM_CREATE_FAILED 启动

应用程序不会出现在 MacBook 的摄像头和麦克风隐私设置中

RichardB's questions