Esse gráfico da CPU parece bom para você? (Sim, ele está dpkg
travado, mas essa é outra história).
Atualizar
Bem, isso parou de acontecer agora que parei de usar AMDGPU, então esta é uma questão puramente acadêmica agora.
Tenho enfrentado travamentos enquanto jogo, mas não consigo dizer qual dos problemas é o Ubuntu, o Hardware (GPU/CPU), o Steam ou o jogo.
A última falha ocorreu em uma inicialização recente, com apenas o Steam e o jogo em execução.
Quando o jogo congela, eu alt-tab para Steam e aperto o botão parar. Recebo o aviso sobre perda de progresso, aceito e então nada acontece.
Abro um terminal e executo top. Vejo o PID do jogo e uso sudo kill -9 <pid>
e nada muda. Usei captura de tela para mostrar o que estava acontecendo (jogo rodando, steam e a janela do terminal.
Esse processo zumbi completo parece impossível de matar.
Eu saio. Eu entro novamente. O sistema trava com uma tela preta e um ponteiro de mouse branco.
Neste ponto, sou forçado a reiniciar.
Quando o sistema retornou e eu efetuei login, a captura de tela não havia sido salva.
Esta é uma nova construção. Uma placa Gigbyte com 128 GB de RAM, CPU i9-14900Fx32, GPU Radeon R7900XTX. Versão de firmware F9; Ubuntu 24.04.1. Economizei por mais de um ano para comprar essa coisa e agora tenho o bug mais estranho com o qual estou buscando ajuda para diagnosticar.
Escolhi o i9-14900Fx32 especificamente porque não era conhecido por ter problemas de instabilidade. Não fiz overclock em nada.
Quando essa falha ocorrer, o Friefox será levado junto (o Chrome está funcionando bem), com a mesma natureza de processo zumbi, e o Monitor do Sistema dirá que está pronto, mas não apresentará uma interface gráfica nem fechará a janela fantasma (também zumbi).
Então, depois de mexer no amdgpu na esperança de consertar as coisas, piorei tudo e passei um dia com um sistema que inicializava em uma tela preta.
Quando finalmente voltei, o sistema travou logo depois que abri o Firefox, restaurei minhas abas e comecei um vídeo do YouTube. Reiniciei. Não tive o mesmo problema com o Chrome. Também não consegui repetir o Firefox, pois é o que estou usando para postar esta atualização.
Depois de muita pesquisa no Google, acho que consegui desbloquear a coisa, mas estou recebendo um feedback muito contraditório do terminal
lordmatt@vision:/var/lib/dpkg$ sudo dpkg -P amdgpu && sudo dpkg -P amdgps-dkms
dpkg: warning: ignoring request to remove amdgpu which isn't installed
dpkg: warning: ignoring request to remove amdgps-dkms which isn't installed
lordmatt@vision:/var/lib/dpkg$ sudo dpkg --configure -a
Setting up amdgpu-dkms (1:6.7.0.60103-1787201.22.04) ...
debconf: DbDriver "config": /var/cache/debconf/config.dat is locked by another process: Resource temporarily unavailable
dpkg: error processing package amdgpu-dkms (--configure):
installed amdgpu-dkms package post-installation script subprocess returned error exit status 1
Errors were encountered while processing:
amdgpu-dkms
lordmatt@vision:/var/lib/dpkg$
Tenho o amdgps-dkms do Schrodinger, que não está instalado e foi instalado (aguardando script de pós-instalação) ao mesmo tempo.
Depois de muita confusão e travamentos, desfiz qualquer bobagem amdgpu que eu tinha posto em movimento. Agora só preciso de uma maneira de criar um perfil do problema inicial ou encontrar uma correção de alguma forma. AMDGPU não é, ao que parece, minha resposta.
Então os sintomas originais (congelamentos do sistema) ainda existem. Não consigo dizer se a GPU é a culpada. Congelamentos aconteceram ao executar apenas o Firefox.
A execução amdgpu-install --uninstall
liberou algum espaço, mas não foi uma correção. Os travamentos são mais frequentes. O som continua tocando, mesmo quando a tela está congelada e nenhuma entrada de teclado ou mouse está passando (nem mesmo capslock ou numlock).
free --mega -h
total used free shared buff/cache available
Mem: 132G 5.4G 125G 143M 2.9G 127G
Swap: 8.6G 0B 8.6G
cat /proc/sys/vm/swappiness
Isso retorna 60. Isso é bom?
Tentei mudar para amdgpu porque ~suspeitei que esse poderia ser o problema. Nossa, cara. O processo travou; assisto Netflix; vou para a cama; acordo e nada mudou. Ele travava configurando com o kernel. A maioria das minhas atualizações era eu me recuperando disso.
aqui está uma captura de tela da última etapa da construção, que está se esforçando muito e não chega a lugar nenhum.
lsmod | grep amdgpu
Nada.
Foi na atualização 4 que eu desci daquele trem. (e recuperei alguma estabilidade do sistema). Ao longo do caminho, eu mexi em um monte de configurações da BIOS e aprendi algumas lições difíceis sobre não tocar em coisas que eu não entendo.
sudo hwinfo --gfxcard
sudo: hwinfo: command not found
Fiz uma instalação rápida do apt e:
07: PCI 300.0: 0300 VGA compatible controller (VGA)
[Created at pci.386]
Unique ID: svHJ.+CDZH_5IkG4
Parent ID: B35A.Sa24RQSJfUB
SysFS ID: /devices/pci0000:00/0000:00:01.0/0000:01:00.0/0000:02:00.0/0000:03:00.0
SysFS BusID: 0000:03:00.0
Hardware Class: graphics card
Model: "ATI VGA compatible controller"
Vendor: pci 0x1002 "ATI Technologies Inc"
Device: pci 0x744c
SubVendor: pci 0x1eae "XFX Limited"
SubDevice: pci 0x7901
Revision: 0xc8
Memory Range: 0x40000000-0x4fffffff (ro,non-prefetchable)
Memory Range: 0x50000000-0x501fffff (ro,non-prefetchable)
I/O Ports: 0x5000-0x5fff (rw)
Memory Range: 0x50c00000-0x50cfffff (rw,non-prefetchable)
Memory Range: 0x000c0000-0x000dffff (rw,non-prefetchable,disabled)
IRQ: 11 (no events)
Module Alias: "pci:v00001002d0000744Csv00001EAEsd00007901bc03sc00i00"
Driver Info #0:
Driver Status: amdgpu is not active
Driver Activation Cmd: "modprobe amdgpu"
Config Status: cfg=new, avail=yes, need=no, active=unknown
Attached to: #12 (PCI bridge)
Primary display adapter: #7
sudo kill
esudo killall
Joguei os dois nos zumbis e eles simplesmente me ignoraram. O System Monitor também zumbiu durante esses momentos. Ele tinha "tecnicamente" iniciado, mas não havia nenhum elemento GUI. Uma vez, ele estava em execução e tentei ir dos gráficos para a lista de processos. Não estava acontecendo. O System Monitor parou de responder. Clique na opção para encerrá-lo. Recebo a mensagem novamente como se eu não tivesse feito nada.
Como eu disse, zumbis imortais. Nunca vi nada parecido.
Aqui está uma captura do processo 12388 se recusando a ser encerrado. O botão "Stop" no Steam teve uma falha semelhante para fazer qualquer coisa acontecer. Eu reiniciei.
Também instalei o linux-crashdump em algum momento, então pode haver alguns arquivos muito detalhados que eu possa desenterrar.
Seguindo os conselhos dos comentários
sudo apt install libgl1-mesa-dri mesa-opencl-icd mesa-va-drivers mesa-vdpau-drivers mesa-vulkan-drivers
Então sudo hwinfo --gfxcard
me deu:
07: PCI 300.0: 0300 VGA compatible controller (VGA)
[Created at pci.386]
Unique ID: svHJ.+CDZH_5IkG4
Parent ID: B35A.Sa24RQSJfUB
SysFS ID: /devices/pci0000:00/0000:00:01.0/0000:01:00.0/0000:02:00.0/0000:03:00.0
SysFS BusID: 0000:03:00.0
Hardware Class: graphics card
Model: "ATI VGA compatible controller"
Vendor: pci 0x1002 "ATI Technologies Inc"
Device: pci 0x744c
SubVendor: pci 0x1eae "XFX Limited"
SubDevice: pci 0x7901
Revision: 0xc8
Driver: "amdgpu"
Driver Modules: "amdgpu"
Memory Range: 0x4800000000-0x4fffffffff (ro,non-prefetchable)
Memory Range: 0x4400000000-0x44001fffff (ro,non-prefetchable)
I/O Ports: 0x5000-0x5fff (rw)
Memory Range: 0x50c00000-0x50cfffff (rw,non-prefetchable)
Memory Range: 0x000c0000-0x000dffff (rw,non-prefetchable,disabled)
IRQ: 205 (13478 events)
Module Alias: "pci:v00001002d0000744Csv00001EAEsd00007901bc03sc00i00"
Driver Info #0:
Driver Status: amdgpu is active
Driver Activation Cmd: "modprobe amdgpu"
Config Status: cfg=new, avail=yes, need=no, active=unknown
Attached to: #12 (PCI bridge)
Primary display adapter: #7
Depois de toda essa ajuda, consegui rodar um jogo que antes travava em minutos.
Estou tendo muito menos travamentos e eles não estão mais zumbificando o sistema.
Em algum momento durante uma atualização ou outra, o que quer que tenha feito com que as atualizações do Chrome fossem desativadas. O que preciso adicionar na versão 20.04 para obter atualizações do Chrome novamente?
Minha caixa do Ubuntu foi reiniciada sem aviso, quais arquivos de log preciso examinar? Especificamente, (1) quais arquivos de log me dirão o que forçou uma reinicialização repentina? E (2) onde posso encontrá-los?
Atualização: Após a resposta do watinator, corri sudo journalctl -b -1 -e
e vi:
smartd[1310]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 108 to 109
Suspeito que tenho um problema térmico.
Também fez isso:
[ me ]:/var/log$ ls -al /var/crash
total 4936
drwxrwsrwt 2 root whoopsie 4096 Jul 30 07:40 .
drwxr-xr-x 16 root root 4096 Jun 5 2017 ..
-rw-r----- 1 [ me ] whoopsie 4537678 Jul 24 12:50 _usr_bin_simple-scan.1000.crash
-rw-r--r-- 1 [ me ] whoopsie 0 Jul 24 10:34 _usr_bin_simple-scan.1000.upload
-rw------- 1 whoopsie whoopsie 37 Jul 24 10:34 _usr_bin_simple-scan.1000.uploaded
-rw-r----- 1 root whoopsie 498295 Jul 24 10:57 _usr_sbin_ippusbxd.0.crash
-rw-r--r-- 1 root whoopsie 0 Jul 24 10:53 _usr_sbin_ippusbxd.0.upload
-rw------- 1 whoopsie whoopsie 37 Jul 24 10:53 _usr_sbin_ippusbxd.0.uploaded