Tenho enfrentado travamentos enquanto jogo, mas não consigo dizer qual dos problemas é o Ubuntu, o Hardware (GPU/CPU), o Steam ou o jogo.
Etapas para replicar o problema
A última falha ocorreu em uma inicialização recente, com apenas o Steam e o jogo em execução.
Quando o jogo congela, eu alt-tab para Steam e aperto o botão parar. Recebo o aviso sobre perda de progresso, aceito e então nada acontece.
Abro um terminal e executo top. Vejo o PID do jogo e uso sudo kill -9 <pid>
e nada muda. Usei captura de tela para mostrar o que estava acontecendo (jogo rodando, steam e a janela do terminal.
Esse processo zumbi completo parece impossível de matar.
Eu saio. Eu entro novamente. O sistema trava com uma tela preta e um ponteiro de mouse branco.
Neste ponto, sou forçado a reiniciar.
Quando o sistema retornou e eu efetuei login, a captura de tela não havia sido salva.
Especificações do sistema
Esta é uma nova construção. Uma placa Gigbyte com 128 GB de RAM, CPU i9-14900Fx32, GPU Radeon R7900XTX. Versão de firmware F9; Ubuntu 24.04.1. Economizei por mais de um ano para comprar essa coisa e agora tenho o bug mais estranho com o qual estou buscando ajuda para diagnosticar.
Escolhi o i9-14900Fx32 especificamente porque não era conhecido por ter problemas de instabilidade. Não fiz overclock em nada.
Informações adicionais
Quando essa falha ocorrer, o Friefox será levado junto (o Chrome está funcionando bem), com a mesma natureza de processo zumbi, e o Monitor do Sistema dirá que está pronto, mas não apresentará uma interface gráfica nem fechará a janela fantasma (também zumbi).
Atualizar
Então, depois de mexer no amdgpu na esperança de consertar as coisas, piorei tudo e passei um dia com um sistema que inicializava em uma tela preta.
Quando finalmente voltei, o sistema travou logo depois que abri o Firefox, restaurei minhas abas e comecei um vídeo do YouTube. Reiniciei. Não tive o mesmo problema com o Chrome. Também não consegui repetir o Firefox, pois é o que estou usando para postar esta atualização.
Depois de muita pesquisa no Google, acho que consegui desbloquear a coisa, mas estou recebendo um feedback muito contraditório do terminal
lordmatt@vision:/var/lib/dpkg$ sudo dpkg -P amdgpu && sudo dpkg -P amdgps-dkms
dpkg: warning: ignoring request to remove amdgpu which isn't installed
dpkg: warning: ignoring request to remove amdgps-dkms which isn't installed
lordmatt@vision:/var/lib/dpkg$ sudo dpkg --configure -a
Setting up amdgpu-dkms (1:6.7.0.60103-1787201.22.04) ...
debconf: DbDriver "config": /var/cache/debconf/config.dat is locked by another process: Resource temporarily unavailable
dpkg: error processing package amdgpu-dkms (--configure):
installed amdgpu-dkms package post-installation script subprocess returned error exit status 1
Errors were encountered while processing:
amdgpu-dkms
lordmatt@vision:/var/lib/dpkg$
Tenho o amdgps-dkms do Schrodinger, que não está instalado e foi instalado (aguardando script de pós-instalação) ao mesmo tempo.
Atualização 2
Depois de muita confusão e travamentos, desfiz qualquer bobagem amdgpu que eu tinha posto em movimento. Agora só preciso de uma maneira de criar um perfil do problema inicial ou encontrar uma correção de alguma forma. AMDGPU não é, ao que parece, minha resposta.
Atualização 3
Então os sintomas originais (congelamentos do sistema) ainda existem. Não consigo dizer se a GPU é a culpada. Congelamentos aconteceram ao executar apenas o Firefox.
Atualização 4
A execução amdgpu-install --uninstall
liberou algum espaço, mas não foi uma correção. Os travamentos são mais frequentes. O som continua tocando, mesmo quando a tela está congelada e nenhuma entrada de teclado ou mouse está passando (nem mesmo capslock ou numlock).
Atualização 5 - executando alguns comandos conforme solicitado
free --mega -h
total used free shared buff/cache available
Mem: 132G 5.4G 125G 143M 2.9G 127G
Swap: 8.6G 0B 8.6G
cat /proc/sys/vm/swappiness
Isso retorna 60. Isso é bom?
amdgpu
Tentei mudar para amdgpu porque ~suspeitei que esse poderia ser o problema. Nossa, cara. O processo travou; assisto Netflix; vou para a cama; acordo e nada mudou. Ele travava configurando com o kernel. A maioria das minhas atualizações era eu me recuperando disso.
aqui está uma captura de tela da última etapa da construção, que está se esforçando muito e não chega a lugar nenhum.
lsmod | grep amdgpu
Nada.
Foi na atualização 4 que eu desci daquele trem. (e recuperei alguma estabilidade do sistema). Ao longo do caminho, eu mexi em um monte de configurações da BIOS e aprendi algumas lições difíceis sobre não tocar em coisas que eu não entendo.
sudo hwinfo --gfxcard
sudo: hwinfo: command not found
Fiz uma instalação rápida do apt e:
07: PCI 300.0: 0300 VGA compatible controller (VGA)
[Created at pci.386]
Unique ID: svHJ.+CDZH_5IkG4
Parent ID: B35A.Sa24RQSJfUB
SysFS ID: /devices/pci0000:00/0000:00:01.0/0000:01:00.0/0000:02:00.0/0000:03:00.0
SysFS BusID: 0000:03:00.0
Hardware Class: graphics card
Model: "ATI VGA compatible controller"
Vendor: pci 0x1002 "ATI Technologies Inc"
Device: pci 0x744c
SubVendor: pci 0x1eae "XFX Limited"
SubDevice: pci 0x7901
Revision: 0xc8
Memory Range: 0x40000000-0x4fffffff (ro,non-prefetchable)
Memory Range: 0x50000000-0x501fffff (ro,non-prefetchable)
I/O Ports: 0x5000-0x5fff (rw)
Memory Range: 0x50c00000-0x50cfffff (rw,non-prefetchable)
Memory Range: 0x000c0000-0x000dffff (rw,non-prefetchable,disabled)
IRQ: 11 (no events)
Module Alias: "pci:v00001002d0000744Csv00001EAEsd00007901bc03sc00i00"
Driver Info #0:
Driver Status: amdgpu is not active
Driver Activation Cmd: "modprobe amdgpu"
Config Status: cfg=new, avail=yes, need=no, active=unknown
Attached to: #12 (PCI bridge)
Primary display adapter: #7
sudo kill
esudo killall
Joguei os dois nos zumbis e eles simplesmente me ignoraram. O System Monitor também zumbiu durante esses momentos. Ele tinha "tecnicamente" iniciado, mas não havia nenhum elemento GUI. Uma vez, ele estava em execução e tentei ir dos gráficos para a lista de processos. Não estava acontecendo. O System Monitor parou de responder. Clique na opção para encerrá-lo. Recebo a mensagem novamente como se eu não tivesse feito nada.
Como eu disse, zumbis imortais. Nunca vi nada parecido.
Aqui está uma captura do processo 12388 se recusando a ser encerrado. O botão "Stop" no Steam teve uma falha semelhante para fazer qualquer coisa acontecer. Eu reiniciei.
despejo de memória-linux
Também instalei o linux-crashdump em algum momento, então pode haver alguns arquivos muito detalhados que eu possa desenterrar.
Atualização 6
Seguindo os conselhos dos comentários
- Eu corri
sudo apt install libgl1-mesa-dri mesa-opencl-icd mesa-va-drivers mesa-vdpau-drivers mesa-vulkan-drivers
- sudo systemctl parar gdm
- sudo modprobe -r radeon
- sudo modprobe amdgpu
- sudo systemctl iniciar gdm
Então sudo hwinfo --gfxcard
me deu:
07: PCI 300.0: 0300 VGA compatible controller (VGA)
[Created at pci.386]
Unique ID: svHJ.+CDZH_5IkG4
Parent ID: B35A.Sa24RQSJfUB
SysFS ID: /devices/pci0000:00/0000:00:01.0/0000:01:00.0/0000:02:00.0/0000:03:00.0
SysFS BusID: 0000:03:00.0
Hardware Class: graphics card
Model: "ATI VGA compatible controller"
Vendor: pci 0x1002 "ATI Technologies Inc"
Device: pci 0x744c
SubVendor: pci 0x1eae "XFX Limited"
SubDevice: pci 0x7901
Revision: 0xc8
Driver: "amdgpu"
Driver Modules: "amdgpu"
Memory Range: 0x4800000000-0x4fffffffff (ro,non-prefetchable)
Memory Range: 0x4400000000-0x44001fffff (ro,non-prefetchable)
I/O Ports: 0x5000-0x5fff (rw)
Memory Range: 0x50c00000-0x50cfffff (rw,non-prefetchable)
Memory Range: 0x000c0000-0x000dffff (rw,non-prefetchable,disabled)
IRQ: 205 (13478 events)
Module Alias: "pci:v00001002d0000744Csv00001EAEsd00007901bc03sc00i00"
Driver Info #0:
Driver Status: amdgpu is active
Driver Activation Cmd: "modprobe amdgpu"
Config Status: cfg=new, avail=yes, need=no, active=unknown
Attached to: #12 (PCI bridge)
Primary display adapter: #7
Sucesso?
Depois de toda essa ajuda, consegui rodar um jogo que antes travava em minutos.
Estou tendo muito menos travamentos e eles não estão mais zumbificando o sistema.
sudo hwinfo --gfxcard
a saída mostra que o amdgpu não está ativo ( atualização 5 acima):Mas você pode usar o driver do kernel padrão amdgpu sem instalar a versão dkms (ele é integrado ao kernel regular).
Antes de começar, execute os seguintes comandos para instalar os drivers mesa relacionados e também o driver amdgpu Xorg se você quiser executar o X11 em vez do Wayland:
e opcionalmente, se você quiser usar o X11 em vez do Wayland:
Em seguida, execute o seguinte comando para habilitar o driver do kernel amdgpu ao inicializar:
Por fim, reinicie e execute o seguinte comando para verificar o status do driver:
Deve mostrar o seguinte
ATUALIZAÇÃO 1:
Ok, já que o amdgpu está na lista negra,
/etc/modprobe.d
você pode excluir o arquivo ofensivo se forblacklist amdgpu
a única entrada no arquivoou você pode editar o arquivo e comentar a linha para que ela seja lida
#blacklist amdgpu
em vez deblacklist amdgpu
ou você pode usar o seguinte comando para listar todos os arquivos que contêm
blacklist amdgpu
:e se algum arquivo estiver listado, então este comando deve editar automaticamente esses arquivos:
Reinicie para aplicar as alterações.