Detalhes do ambiente: SQL Server 2019 (CU 19) – 96 processadores lógicos, 1,5 TB de RAM Hospedando 1 banco de dados de 3 TB
Distribuí a configuração do grupo de disponibilidade (assíncrono) que se estende por dois datacenters. Ambos os lados (AGs primários e encaminhadores) são clusters de 2 nós com réplica de sincronização.
Tudo funciona perfeitamente o dia todo, mas às vezes vejo um enorme log_send_queue_size (até 7 GB). Ele desaparece em alguns minutos a um bom ritmo, então não suspeito que a largura de banda seja um gargalo aqui.
O que estou tentando descobrir é o que está gerando tanto log. E o que devo usar para rastreá-lo (eventos estendidos podem ser?). Qualquer ajuda seria apreciada.
Segui o conselho de Sean e notei um padrão de grandes backups de log em comparação com outras vezes.
Então, cavei alguns backups de log usando fn_dump_dblog ( WARNING: undocumented ) onde vi os picos e parece que o armazenamento de consultas estava fazendo muitos LOP_INSERT_ROWS em plan_persist_runtime_stats em todos os casos. Tentarei ajustar a política de captura.