Eu tenho 12 nós Cassandra de banco de dados Ubuntu 12/14 mistos. Todos os nós são nós baremetal com SSDs, placas de rede de 1 Gb e todos estão localizados no mesmo DC (colo gerenciado).
Sob operação leve, a latência entre todos os nós e nossos nós de nuvem (no mesmo DC também) está abaixo de 1ms.
Quando começo a aumentar as gravações nos nós do banco de dados, as latências de e para esses nós do banco de dados sobem fortemente para cerca de 300 ms. A carga da CPU também está em torno de 1 (4 núcleos físicos), a utilização do disco está abaixo de 3% e, via dstat, a carga da rede está em torno de 18MiB.
As leituras e gravações locais no Cassandra são relativamente rápidas, portanto, descartei a sobrecarga da camada do aplicativo.
Quais ferramentas e configurações devo procurar ajustar para entender por que minha latência é tão ruim? Tenho ferramentas de monitoramento para visualizar esses problemas, não tenho certeza por onde começar a diagnosticá-los.
Meu ponto de partida para questões como essa geralmente é
perf top
. Isso lhe dará uma ideia rápida de onde a maior parte do tempo é gasta. Veja https://perf.wiki.kernel.org/index.php/Tutorial para alguns bons exemplos de como usá-lo.