Recentemente, afirmei usar um NVIDIA DevBox que possui um BIOS ASUS, com a versão do kernel e a versão do Ubuntu mencionadas acima. Por algumas razões, a máquina não pode realmente ser deixada ligada durante a noite, como é habitual com outros laptops e/ou computadores: onde você pode simplesmente deixá-la ligada, ela travará após alguns minutos e/ou entrará no modo de suspensão -- e no dia seguinte, uma vez que você move o mouse ou digita algo no teclado, o computador 'dessuspende' ou acorda e você tem todos os seus programas ligados e funcionando exatamente como você os deixou no dia anterior.
Por alguma estranha razão, isso não está acontecendo com esta máquina. Houve um usuário anterior antes de mim que não tocou na máquina em cerca de um ano, então é possível que ele tenha feito algum tipo de configuração em relação à economia de energia, mas tudo parece bom quando eu verifico a opção de energia na minha máquina (eu tenho para suspender - 1 hora e bloquear 1 hora). Acho que o engraçado que notei é que se eu voltar depois do almoço e a máquina estiver travada/suspensa, ela volta na sessão sem problemas, mas se eu deixar de noite, aí eu chego no dia seguinte e o máquina desligou-se automaticamente. O prédio está trancado, então não é possível que outra pessoa aperte fisicamente o botão de desligar durante a noite, e eu
Eu li em alguns lugares que poderia ser um problema de aquecimento devido a uma fonte de alimentação ruim ou quebrada, mas como posso verificar se esse é o caso? Eu tenho o app psensor, mas parece que só registra as temperaturas em tempo real sem salvá-las em um arquivo onde posso verificar qual era a temperatura de qualquer uma das placas gráficas (são 4) ou placa-mãe.
Qual é outra maneira de diagnosticar o desligamento automático da máquina? Como posso saber se é um problema de aquecimento ou uma fonte de alimentação com defeito? Ou potencialmente um problema de kernel? A máquina não tem programas realmente intensos instalados por enquanto (é quase novo), exceto os drivers NVIDIA que tenho bastante experiência em instalar, então talvez eu possa considerar uma nova instalação do Ubuntu? -- embora isso seja praticamente inútil se houver um problema de hardware
Outros detalhes:
Os drivers NVIDIA estão instalados corretamente. O driver ficou bugado e a máquina respondeu muito mal quando forcei o seguinte comando e a máquina ficou ligada por 2 dias consecutivos (o que deve ser uma brisa para essas máquinas), até que teve dificuldade em ficar ligada por mais de 5 minutos depois 2 reinicializações aleatórias consecutivas no meio da noite:
$ unset autologoff
Eu tive que reinstalar os drivers mais tarde corretamente (e ativar a opção autolog novamente), e o sistema voltou ao seu estado atual, onde "precisa" desligar-se se não estiver fazendo nada por mais de 24 horas (não fazendo nada pois não está recebendo entrada humana, mas os processos de back-end podem ainda estar em execução).
- Placa-mãe: ASUS EATX DDR4 LGA 2011-3 Placas-mãe X99-E WS/USB 3.1
- CPU: Processador Intel Xeon E5-2690 v4 2,6 GHz 14 núcleos LGA 2011 135 W
- Cooler: Cooler líquido para CPU Corsair Hydro Series H80i v2 Extreme Performance, preto.
- Fonte de alimentação: EVGA SuperNOVA 1600 P2 80+ PLATINUM, modo ECO de 1600 W Totalmente modular NVIDIA SLI e Crossfire Ready 10 anos de garantia Fonte de alimentação 220-P2-1600-X1
- Placa de vídeo: 4 Titan X Pascal.
Eu adicionei a pci=noaer
inicialização depois de descobrir que a máquina estava me dando este erro: https://askubuntu.com/questions/771899/pcie-bus-error-severity-corrected
Saída de:
$ cat /proc/cmdline
é
BOOT_IMAGE=/boot/vmlinuz-4.4.0-137-generic.efi.signed root=UUID=569dd2ad-c5a6-4ae4-a167-f849b8f6ae9e ro quiet splash pci=noaer vt.handoff=7
O problema foi corrigido ao fazer o upload do sistema para o Ubuntu 18.04. A raiz do bug nunca foi encontrada, mas suspeito que tenha a ver com o kernel potencialmente não ser uma boa combinação com as placas gráficas, o BIOS e a versão 16.04 do Ubuntu.