Eitan Blumin提出的问题 -dba

Eitan Blumin

Asked: 2024-01-19 22:14:06 +0800 CST

即使使用成功完成的 sp_cdc_cleanup_change_table ，CDC 清理也不起作用

5

我正在运行下面的查询来查找数据超出配置的保留深度的 CDC 表：

SELECT DB_ID() AS database_id, ct.capture_instance, object_id, source_object_id
, rcounts.source_table_rows
, rcounts.ct_table_rows
, ct_pstats.used_page_count
, source_pstats.used_page_count
, sys.fn_cdc_map_lsn_to_time(sys.fn_cdc_get_min_lsn(ct.capture_instance))
from cdc.change_tables AS ct
outer apply
(
select source_table_rows = (SELECT SUM(rows) FROM sys.partitions AS p WHERE p.object_id = ct.source_object_id AND p.index_id <= 1)
, ct_table_rows = (SELECT SUM(rows) FROM sys.partitions AS p WHERE p.object_id = ct.object_id AND p.index_id <= 1)
) as rcounts
outer apply
(
select used_page_count = SUM(used_page_count)
from sys.dm_db_partition_stats AS ps
where ps.object_id = ct.object_id
) AS ct_pstats
outer apply
(
select used_page_count = SUM(used_page_count)
from sys.dm_db_partition_stats AS ps
where ps.object_id = ct.source_object_id
) AS source_pstats
outer apply
(
select *
from msdb.dbo.cdc_jobs
where job_type = 'cleanup'
and database_id = DB_ID()
) as cleanup
WHERE DATEADD(minute, 60*25, sys.fn_cdc_map_lsn_to_time(sys.fn_cdc_get_min_lsn(ct.capture_instance))) < DATEADD(minute, -cleanup.retention, GETDATE())

这会返回大量结果，其中最短 lsn 时间与配置的 CDC 保留时间之间的差距超过 25 小时。

配置的保留时间为 5000 分钟，在撰写本文时，最小 lsn 时间超过 5800 分钟。

为了尝试解决这个问题，我手动执行了该cdc.cleanup作业。它已成功完成，但没有进行任何更改。

sp_cdc_cleanup_change_table然后，我手动执行每个捕获实例的过程，它们成功完成，但同样没有进行任何更改。

EXEC sys.sp_cdc_cleanup_change_table @capture_instance = '...', @low_water_mark = NULL, @threshold = 5000;

我们怀疑此问题与大约在同一时间发生的故障转移有关，但从那时起我们已经故障转移回原始主副本。

谁能建议如何解决清理中的延迟问题，而无需禁用并重新启用 CDC？

谢谢

环境详情：

SQL Server 2014 企业版，版本 12.0.6024
AlwaysOn 可用性组具有 3 个节点 - 2 个具有自动故障转移功能的同步节点，以及 1 个异步节点。

Eitan Blumin

Asked: 2022-01-24 03:44:40 +0800 CST

用户数据库上的 DBCC CHECKDB：等待页面 (X:XXX) 的缓冲区锁存器类型 2 时发生超时，数据库 ID 2

6

由于在用户数据库上运行 DBCC CHECKDB 时缓冲区锁存超时，我们的 Ola Hallengren IntegrityCheck 作业失败。

但是，报告的缓冲区锁存超时在 TempDB（数据库 ID 2）中。

作业输出：

Date and time: 2022-01-22 09:04:15 [SQLSTATE 01000]
Database context: [master] [SQLSTATE 01000]
Command: SET LOCK_TIMEOUT 600000; DBCC CHECKDB ([SentryOne]) WITH NO_INFOMSGS, ALL_ERRORMSGS, MAXDOP = 4 [SQLSTATE 01000]
Msg 845, Sev 17, State 1, Line 1 : Time-out occurred while waiting for buffer latch type 2 for page (6:222), database ID 2. [SQLSTATE 42000]
Outcome: Failed [SQLSTATE 01000]
Duration: 12:40:32 [SQLSTATE 01000]
Date and time: 2022-01-22 21:44:47 [SQLSTATE 01000]

SQL 错误日志中的消息：

Date 1/22/2022 9:35:22 PM
Log SQL Server (Archive #1 - 1/23/2022 12:00:00 AM)

Source spid777

Message
A time-out occurred while waiting for buffer latch -- type 2, bp 0000016D7A1DE340, page 6:222, stat 0x40d, database id: 2, allocation unit Id: 536870912/281475513581568, task 0x0000016CD624E4E8 : 2, waittime 300 seconds, flags 0x1a, owning task 0x0000016CD624E4E8. Not continuing to wait.

BobMgr::GetBuf: Sort Big Output Buffer write not complete after 60 seconds.

DBCC CHECKDB (SentryOne) WITH all_errormsgs, no_infomsgs, maxdop = 4 executed by NT SERVICE\SQLSERVERAGENT terminated abnormally due to error state 6. Elapsed time: 12 hours 39 minutes 57 seconds.

[INFO] Database ID: [12]. Cleaning up StorageArray. LastClosedCheckpointEndTs: '1225176490'

[WARNING] ALTER or DROP TABLE could not clean up root row within 10 seconds.

有问题的页面是 TempDB 中的 IAM 页面。它的 DBCC PAGE 输出：

PAGE: (6:222)

BUFFER:

BUF @0x0000016D6B622C40

bpage = 0x00000161A6C52000 bPmmpage = 0x0000000000000000 bsort_r_nextbP = 0x0000016D6B622AD0
bsort_r_prevbP = 0x0000016D6B622B80 bhash = 0x0000000000000000 bpageno = (6:222)
bpart = 4 ckptGen = 0x0000000000000000 bDirtyRefCount = 0
bstat = 0x9 breferences = 3 berrcode = 0
bUse1 = 19321 bstat2 = 0x0 blog = 0x215a215a
bsampleCount = 1 bIoCount = 0 resPoolId = 0
bcputicks = 330 bReadMicroSec = 848 bDirtyContext = 0x0000000000000000
bDbPageBroker = 0x0000000000000000 bdbid = 2 bpru = 0x0000016D3A170040

PAGE HEADER:

Page @0x00000161A6C52000

m_pageId = (6:222) m_headerVersion = 1 m_type = 10
m_typeFlagBits = 0x0 m_level = 0 m_flagBits = 0x200
m_objId (AllocUnitId.idObj) = 1837007664 m_indexId (AllocUnitId.idInd) = 28675
Metadata: AllocUnitId = 8071415347312328704
Metadata: PartitionId = 2162691495132069888 Metadata: IndexId = 0
Metadata: ObjectId = -1083263203 m_prevPage = (0:0) m_nextPage = (0:0)
pminlen = 90 m_slotCnt = 2 m_freeCnt = 6
m_freeData = 8182 m_reservedCnt = 0 m_lsn = (324:1435184:42)
m_xactReserved = 0 m_xdesId = (0:0) m_ghostRecCnt = 0
m_tornBits = -551517712 DB Frag ID = 1

Allocation Status

GAM (6:2) = ALLOCATED SGAM (6:3) = ALLOCATED
PFS (6:1) = 0x70 IAM_PG MIXED_EXT ALLOCATED 0_PCT_FULL DIFF (6:6) = NOT CHANGED
ML (6:7) = NOT MIN_LOGGED

IAM: Header @0x00000036C4278064 Slot 0, Offset 96

sequenceNumber = 0 status = 0x0 objectId = 0
indexId = 0 page_count = 0 start_pg = (8:511232)

IAM: Single Page Allocations @0x00000036C427808E

Slot 0 = (0:0) Slot 1 = (0:0) Slot 2 = (0:0)
Slot 3 = (0:0) Slot 4 = (0:0) Slot 5 = (0:0)
Slot 6 = (0:0) Slot 7 = (0:0)

IAM: Extent Alloc Status Slot 1 @0x00000036C42780C2

(8:511232) - (8:592656) = NOT ALLOCATED
(8:592664) - = ALLOCATED
(8:592672) - (8:770424) = NOT ALLOCATED

但是，在这种情况下，报告的超时页面位于用户数据库中，而不是 TempDB 中。

此外，我们使用的是最新的 SQL Server 版本（2019-CU14 Enterprise），因此无论如何都不应该发生这种情况。

我确实注意到 TempDB 数据文件在下午 6 点和 9:40 左右的延迟非常高。不过，我不确定这是否相关，因为下午 6 点的延迟峰值更高，但这项工作仅在晚上 9:44 左右失败。

这些延迟峰值与 Azure Monitor 指标VM Cached IOPS Consumed Percentage和VM Cached Bandwidth Consumed Percentage.

附加信息：

服务器安装在 Azure VM 上：Standard E8s v3 (8 vcpus, 64 GiB memory)
有问题的用户数据库 (SentryOne) 具有内存优化表。
TempDB 内存优化元数据已禁用。
即时文件初始化已启用。
内存中的锁定页面已禁用。

任何想法为什么会发生这种情况以及将来如何防止它？

谢谢！

Eitan Blumin

Asked: 2020-07-12 21:37:41 +0800 CST

SQL Server - 为什么我在没有会话的情况下获得 TCP 连接？

1

我使用自签名证书启用了启用了强制加密的 SSL。

然后我设置了自动监控来检测不安全的连接（我知道这似乎是多余的，但请耐心等待），使用以下 T-SQL 查询：

SELECT CONCAT('Not secured connection(s) detected of '
, ISNULL(QUOTENAME(COALESCE(ses.original_login_name, ses.nt_user_name, ses.login_name)), 'an unknown login')
, ' from ', ISNULL(QUOTENAME(client_net_address), 'an unknown address')
, ' ', QUOTENAME(ISNULL(ses.host_name, 'unknown host'), '(')
, ', ', ISNULL(QUOTENAME(ses.program_name), 'unknown program')
, ', to ', ISNULL(QUOTENAME(DB_NAME(ses.database_id)), 'an unknown database')
, ', Session(s): ', COUNT(ses.session_id)
), COUNT(con.connection_id) AS NumberOfConnections
FROM sys.dm_exec_connections AS con
LEFT JOIN sys.dm_exec_sessions AS ses
ON ses.session_id IN (con.session_id, con.most_recent_session_id)
WHERE encrypt_option = 'FALSE'
AND net_transport = 'TCP'
AND client_net_address NOT LIKE '<%'
GROUP BY COALESCE(ses.original_login_name, ses.nt_user_name, ses.login_name)
, client_net_address, ses.host_name, ses.program_name, ses.database_id

后来，我开始收到此查询产生的警报，输出如下所示：

Not secured connection(s) detected of an unknown login from [x.x.x.x] (unknown host), unknown program, to an unknown database: 0

（x.x.x.x替换来自我们客户网络之一的实际 IP 地址）

这意味着我们正在检测sys.dm_exec_connections没有相应会话 (in ) 的 TCP 连接 (in sys.dm_exec_sessions)。

根据我在 Microsoft 文档中发现的内容，这些场景可能会作为可用性组、数据库镜像或服务代理架构的一部分发生......但我们没有在我们的实例中使用任何这些！

这不应该发生......有谁知道如何解释这一点？这可能是由于某种端口扫描仪而发生的吗？

谢谢！

版本详情：

Microsoft SQL Server 2019 [Enterprise] (RTM-CU4) (KB4548597) - 15.0.4033.1 (X64)
    Mar 14 2020 16:10:35 
    Copyright (C) 2019 Microsoft Corporation
    Enterprise Edition: Core-based Licensing (64-bit) on Windows Server 2016 Datacenter 10.0 <X64> (Build 14393: ) (Hypervisor)

即使使用成功完成的 sp_cdc_cleanup_change_table ，CDC 清理也不起作用

用户数据库上的 DBCC CHECKDB：等待页面 (X:XXX) 的缓冲区锁存器类型 2 时发生超时，数据库 ID 2

SQL Server - 为什么我在没有会话的情况下获得 TCP 连接？

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

Eitan Blumin's questions