Tenho uma máquina Ubuntu construída pela Lambda Labs com 3 GPUs.
Quando tento usar SSH, consigo usar o computador, mas o sistema continua encerrando processos que usam as GPUs.
Quando eu conecto um monitor, o computador inicializa no Ubuntu, mas depois de cerca de 30 segundos a GUI morre e volta para a tela de login. Isso acontece em um ciclo.
Ambas as opções acima me indicam (corrija-me se estiver errado) que há algo errado com os drivers da GPU.
Decidi reinstalar o Ubuntu. Tenho uma unidade de inicialização USB que verifiquei que funciona. No entanto, quando conecto a unidade e tento inicializar no BIOS, o monitor simplesmente diz que não há sinal e não consigo ver nada. Tentei todas as portas HDMI disponíveis na máquina. Também verifiquei independentemente se o monitor funciona.
Alguém tem alguma ideia de como resolver isso?
A solução foi desconectar duas GPUs. Acontece que uma delas estava corrompida. Agora as coisas estão funcionando e eu posso inicializar no BIOS