temos o cluster Hadoop e estamos coletando dados de coleta de métricas para investigar o comportamento de lentidão em aplicativos spark
após longa investigação em nosso cluster Hadoop
notamos nas métricas do Prometheus que o node_disk_io_now está com valores altos mais do que o normal e é relevante para todos os discos HDFS em máquinas de nó de dados
a definição node_disk_io_now é:
node_disk_io_now (campo 9) O único campo que deve ir para zero. Incrementado à medida que as solicitações são fornecidas ao struct request_queue apropriado e decrementado à medida que terminam.
queremos saber , se o ajuste dos parâmetros do kernel pode dar aspectos positivos no desempenho dos discos
de acordo com a definição node_disk_io_now, parece que muitas tarefas estão esperando na fila,
e talvez alguns parâmetros do kernel possam ajudar a melhorar o comportamento acima para que as tarefas na fila não estejam lá por muito tempo
Todos os truques disponíveis no lado do usuário do disco rígido podem ser descobertos quando o sistema operacional ou algum aplicativo está fazendo as perguntas certas ao disco.
Você pode testar se seu sistema operacional e seu aplicativo reconhecerão uma área reservada chamada
host protected area
que pode ser criada no linux usando o comando hdparm.https://en.wikipedia.org/wiki/Host_protected_area
Há uma armadilha sobre a qual li em
https://www.thomas-krenn.com/de/wiki/SSD_Over-Provisioning_mit_hdparm
que o sistema operacional pode reconfigurar o(s) disco(s) rígido(s) para ignorar essa configuração. O próprio linux parece manter essa informação de
/sys/module/libata/parameters/ignore_hpa
acordo com o link acima. "1" significa desativação automática.Portanto, você precisa experimentar o que acontece especialmente após a reinicialização do servidor.