Tenho um trabalho SLURM com o qual envio sbatch
, como
sbatch --gres gpu:Tesla-V100:1 job.sh
job.sh
treina um modelo em uma GPU V100. O código em si não registra o uso de memória da GPU.
Existe um comando SLURM para consultar o uso máximo de memória da GPU assim que o trabalho for concluído?
Não tenho certeza de que seria possível encontrar a carga causada pela execução do próprio trabalho de sbatch. Mas você pode tentar verificar a métrica de utilização geral do seu cartão. Pelo que entendi para a nvidia, existem ferramentas nvidia-smi . Encontrei outras ferramentas mencionadas nesta pergunta .
Então, sugiro instalar o nvidia-smi e executá-lo em uma janela de terminal separada com um comando como:
E então execute seu trabalho. Você deve carregar as alterações no seu cartão em tempo real.
Mais uma possibilidade - rastreie seu trabalho com outros criadores de perfil . Infelizmente não tenho placa nvidia e não posso verificar nenhuma dessas ferramentas, mas suponho que isso o ajudará em sua investigação.
Depois de conversar com o pessoal da nossa equipe de HPC: parece que
O SLURM não registra o uso de memória da GPU de trabalhos em execução enviados com
sbatch
.Portanto, essas informações não podem ser recuperadas com nenhum comando SLURM. Por exemplo, um comando como
mostra o uso geral de memória, mas não o uso de memória da GPU.