Eu tenho um sistema linux remoto que ficou super lento ontem. Como o desbloqueio remoto do luks que configurei não parece funcionar de maneira confiável e não poderei acessar fisicamente a máquina nos próximos 10 dias, estou tentando depurar isso em vez de reiniciar.
As ferramentas de status do sistema que estou acostumado são htop
e dstat
, como eu estava dstat
executando em uma sessão ssh, posso ver que desde ontem 2021-09-09 08:51:42 um núcleo de cpu é sempre totalmente usado por "sys" - o que eu acho que significa o kernel?
Não consigo ver nenhum processo ou thread culpado no htop
.
Parei todos os serviços do usuário e desmontei tudo o que não era essencial, o que fez o sistema responder um pouco melhor novamente, mas ainda não tão rápido quanto deveria (tenho uma CPU Intel i7 com um SSD).
Encontrei https://tanelpoder.com/posts/high-system-load-low-cpu-utilization-on-linux/ e instalei o https://0x.tools/ referenciado para obter este resultado para psn -G syscall,wchan
:
=== Active Threads ========================================================================================
samples | avg_threads | comm | state | syscall | wchan
-----------------------------------------------------------------------------------------------------------
100 | 1.00 | (btrfs-cleaner) | Running (ON CPU) | [running] | 0
100 | 1.00 | (dpkg) | Disk (Uninterruptible) | fsync | btrfs_commit_transaction
100 | 1.00 | (systemd-journal) | Disk (Uninterruptible) | ftruncate | wait_current_trans
1 | 0.01 | (sshd) | Running (ON CPU) | [running] | 0
1 | 0.01 | (thermald) | Disk (Uninterruptible) | [running] | ec_guard
1 | 0.01 | (thermald) | Running (ON CPU) | [running] | 0
O dpkg
processo pode ser explicado por eu tentar executar apt upgrade
qual corrida está em torno de 1/1000 da velocidade que você normalmente esperaria (apenas uma sensação, não medi).
Talvez haja um problema com meu sistema de arquivos raiz btrfs...? Não consigo encontrar btrfs-cleaner
, htop
acho que vou pesquisar um pouco mais sobre o que é isso ..
Eu executei uma btrfs scrub
última noite que foi concluída super rápido e não encontrei nenhum problema:
# btrfs scrub status /
UUID: 2f38e0ad-7f16-4a36-8096-b7981d47b4ff
Scrub started: Thu Sep 9 23:59:00 2021
Status: finished
Duration: 0:00:24
Total to scrub: 53.09GiB
Rate: 1.78GiB/s
Error summary: no errors found
Mas quando usei o nano para modificar um arquivo de configuração na partição raiz, o carregamento e o salvamento ficaram super lentos agora.
Acabei de me deparar com isso: https://www.reddit.com/r/btrfs/comments/fmucrq/btrfs_snapshots_make_entire_system_lag_cpu_usage/ que tem um comentário que parece semelhante ao meu problema:
toda vez na inicialização e após um instantâneo btrfs-transacti e btrfs-cleaner usariam um núcleo completamente causando um atraso imenso
só que isso diz que dura apenas alguns minutos na inicialização e na criação de instantâneos, mas desativei minha btrbk
configuração de backup neste sistema há alguns dias, quando um dos discos anexados começou a apresentar problemas.
Não tenho certeza se meu sistema de arquivos raiz btrfs estava usando qgroups
, mas acabei de executar o btrfs quota disable /
que levou cerca de 10 segundos e não dei nenhum feedback.
Alguém tem alguma outra dica para mim como depurar / resolver este problema?