Temos um SQL Server 2016 SP2 Enterprise com CU mais recente com os arquivos de banco de dados espalhados por diferentes discos.
Portanto, temos dados, log, tempdb e db do sistema, cada um com sua própria unidade. Data e log contêm apenas um arquivo.
Cada uma dessas unidades tem seu próprio LUN em uma SAN totalmente flash.
Para monitorar a latência, capturo a sys.dm_io_virtual_file_stats
cada 15 minutos e calculo a latência usando o instantâneo anterior.
Para a latência de gravação, estou usando o seguinte cálculo:
(io_stall_write_ms - lag (io_stall_write_ms,1,0) over (order by checkdate))/(num_of_writes - lag (num_of_writes,1,0) over (order by checkdate)) write_latency
Estou obtendo uma latência média de gravação de 10ms, mas quando estou iniciando o perfmon (com duração definida para 900 segundos) e monitoro o avg. Disk sec/Write no mesmo período para a mesma unidade Estou obtendo apenas uma latência de gravação média de 3 ms.
Também estou capturando as estatísticas de espera para o mesmo período, quando olho para as esperas PAGEIOLATCH_EX e calculo quanto tempo cada espera levou, também estou obtendo um valor de aproximadamente 3ms.
Eu pensei que io_stall_write_ms representasse o mesmo que avg. Disk sec/Write ou estou perdendo alguma coisa?
Alguém pode explicar esse comportamento?
Acho que sua conclusão de que esses dois números devem corresponder é justa. Essa medição de latência de gravação
sys.dm_io_virtual_file_stats
deve fornecer números semelhantes ao contador de Perfmon " Disco Lógico " ➡ " Avg. Disk sec/Write ".Certifique-se de comparar "maçãs com maçãs" o máximo possível. O padrão para esse contador Perfmon é mostrar a latência em todos os discos, portanto, verifique se você selecionou o disco em que está interessado (não "Total"):
Da mesma forma, no lado DMV do SQL Server, certifique-se de estar apenas agregando e comparando dados para arquivos no mesmo disco. O
sys.dm_io_virtual_file_stats
está fornecendo dados por arquivo, que podem estar em vários discos.Pode ser apenas as diferenças nas taxas de amostragem entre as diferentes formas de medição que estão atrapalhando. Por exemplo, você está recebendo os dados do DMV a cada 15 minutos. Mas presumivelmente você estava visualizando a saída ao vivo do Perfmon padrão, que mostrará a média em 100 segundos. Pode haver apenas valores discrepantes no intervalo de 15 minutos que levam a média a ser mais alta para o DMV do que você está vendo no Perfmon. Para tentar descartar isso, você pode (pelo menos temporariamente) amostrar estatísticas de arquivos virtuais com mais frequência para ver se os números correspondem melhor.
Espero, com base nos valores mais baixos relacionados à latência que você vê no Perfmon e nas estatísticas de espera, que você não esteja tendo problemas de latência de disco ativamente e esteja apenas curioso sobre as medições de diferença que está obtendo das diferentes ferramentas.
Se você estiver tendo problemas, poderá mergulhar mais fundo em "o que está acontecendo entre o SQL Server e as gravações de disco". O principal Microsoft Man Sean Gallardy fala sobre isso com bastante profundidade aqui: Ponto de verificação lento e avisos de E / S de 15 segundos no armazenamento flash
Depois de ler o post de Sean Gallardy, configurei o rastreamento StorPort usando o Perfmon. Como configurar o rastreamento você encontra aqui e usou o StorPort-Trace-Reader para analisar os resultados.
Os resultados mostraram que havia de fato alguma latência.
Em seguida, usei o Gravador de Desempenho do Windows para rastrear a "atividade de E/S do Minifiltro". Usando o Windows Performance Analyzer , descobri que o antivírus estava causando os problemas, embora as exclusões fossem feitas, muito tempo era gasto nesses minifiltros.
Após desinstalar o antivírus o problema foi resolvido. Agora estamos pesquisando por que o antivírus estava causando o problema.