Igual ao postado em redhat bugzilla -- kcompacd0 usando 100% cpu , que foi fechado para INSUFFICIENT_DATA
.
Também igual a
- VMware no host Linux causa congelamentos regulares
- Arch Linux deixa de responder a partir do khugepage
Reabrindo porque a solução não funciona para mim.
Segue minha situação:
- Host Ubuntu 21.10 e cliente Windows 10 Enterprise, com VMware Workstation 16 v 16.2.0 build-18760230
- Não estou fazendo nada extravagante ou carga pesada, logo após um dia de uso regular do Windows 10 (de carga leve), as coisas começam a ficar loucas.
- O processo
kcompactd0
está constantemente usando 100% de CPU em um núcleo evmware-vmx
100% de CPU em oito núcleos. - Quando isso acontecer, normalmente durará vários minutos. Em seguida, entra em ação novamente após um ou dois minutos.
- "kcompactd0 desaparece apenas com drop_caches. quando atinge 100%, o convidado da máquina virtual vmware não responde (windows 10 ltsc vm)" Então, tentei apenas drop_caches uma vez e confirmei o comportamento.
Conforme solicitado a montante, aqui estão mais informações:
$ lsb_release -a
No LSB modules are available.
Distributor ID: Ubuntu
Description: Ubuntu 21.10
Release: 21.10
Codename: impish
$ grep -r . /sys/kernel/mm/transparent_hugepage/*
/sys/kernel/mm/transparent_hugepage/defrag:always defer defer+madvise [madvise] never
/sys/kernel/mm/transparent_hugepage/enabled:always [madvise] never
/sys/kernel/mm/transparent_hugepage/hpage_pmd_size:2097152
/sys/kernel/mm/transparent_hugepage/khugepaged/defrag:1
/sys/kernel/mm/transparent_hugepage/khugepaged/max_ptes_shared:256
/sys/kernel/mm/transparent_hugepage/khugepaged/scan_sleep_millisecs:10000
/sys/kernel/mm/transparent_hugepage/khugepaged/max_ptes_none:511
/sys/kernel/mm/transparent_hugepage/khugepaged/pages_to_scan:4096
/sys/kernel/mm/transparent_hugepage/khugepaged/max_ptes_swap:64
/sys/kernel/mm/transparent_hugepage/khugepaged/alloc_sleep_millisecs:60000
/sys/kernel/mm/transparent_hugepage/khugepaged/pages_collapsed:0
/sys/kernel/mm/transparent_hugepage/khugepaged/full_scans:19
/sys/kernel/mm/transparent_hugepage/shmem_enabled:always within_size advise [never] deny force
/sys/kernel/mm/transparent_hugepage/use_zero_page:1
$ cat /proc/90/stack | wc
0 0 0
echo never > /sys/kernel/mm/transparent_hugepage/defrag
echo 0 > /sys/kernel/mm/transparent_hugepage/khugepaged/defrag
echo never > /sys/kernel/mm/transparent_hugepage/enabled
$ grep -r . /sys/kernel/mm/transparent_hugepage/*
/sys/kernel/mm/transparent_hugepage/defrag:always defer defer+madvise madvise [never]
/sys/kernel/mm/transparent_hugepage/enabled:always madvise [never]
/sys/kernel/mm/transparent_hugepage/hpage_pmd_size:2097152
/sys/kernel/mm/transparent_hugepage/khugepaged/defrag:0
/sys/kernel/mm/transparent_hugepage/khugepaged/max_ptes_shared:256
/sys/kernel/mm/transparent_hugepage/khugepaged/scan_sleep_millisecs:10000
/sys/kernel/mm/transparent_hugepage/khugepaged/max_ptes_none:511
/sys/kernel/mm/transparent_hugepage/khugepaged/pages_to_scan:4096
/sys/kernel/mm/transparent_hugepage/khugepaged/max_ptes_swap:64
/sys/kernel/mm/transparent_hugepage/khugepaged/alloc_sleep_millisecs:60000
/sys/kernel/mm/transparent_hugepage/khugepaged/pages_collapsed:0
/sys/kernel/mm/transparent_hugepage/khugepaged/full_scans:19
/sys/kernel/mm/transparent_hugepage/shmem_enabled:always within_size advise [never] deny force
/sys/kernel/mm/transparent_hugepage/use_zero_page:1
Basicamente, a fonte da solução alternativa está em um relatório de bug do Fedora “khugepaged comendo 100% da CPU” . O bug nunca foi corrigido, e a "solução" foi feita para o Fedora 17 no ano de 2013, e
com as últimas 3, talvez 4-5 versões do Fedora Kernels, não encontrei esse problema novamente.
Mas está acontecendo de novo agora.
ou
Fonte: https://gist.github.com/2E0PGS/2560d054819843d1e6da76ae57378989
Esta é a solução para mim no Ubuntu 20.04:
[Atualização 2022-03-06]: Se você atualizar para VMware Workstation Pro 16.2.1, certifique-se de atualizar suas VMs para 16.2 e reinicializar sua máquina antes de testar. Não reiniciei após a atualização e o problema persistiu até a reinicialização.
Não é uma "solução" em si, mas é uma solução para mim :
Na verdade, isso é um problema do IOMMU e a solução envolve ativá-lo na linha de comando do kernel. Habilitar o VT-d (o driver do kernel Intel IOMMU) no firmware não é suficiente e mexer com compaction_proactiveness e swappiness apenas restringe esse comportamento sem abordar a causa subjacente.
Eu mesmo encontrei o problema (host do Ubuntu 22.04, versão do kernel 5.15.0, VMware Player 16.2.4, convidado do Windows 10). Foi especialmente pronunciado quando a máquina convidada tinha várias guias abertas no Firefox, aplicativos de banco de dados abertos ou ambos.
Notavelmente, a configuração
vm.compaction_proactiveness=0
não teve efeito. A configuraçãovm.swappiness=10
ajudou um pouco, mas o problema persistiu.Apesar de VT-x e VT-d terem sido habilitados no firmware do host, acontece que, pelo menos com a versão 5.15.0-46-default do kernel, o kernel é compilado com intel_iommu mas a configuração está desabilitada por padrão. Desta forma,
cat /boot/config* | grep INTEL_IOMMU
retorna (entre outras linhas) (observe o octothorpe comentando a segunda linha):
A solução é adicionar a seguinte string à linha de comando do kernel. Isso habilita o intel_iommu, corrige os congelamentos do convidado e evita
kcompactd0
fixar o núcleo da CPU em 100%, pelo menos até agora:intel_iommu=on
Então, para GRUB , edite
/etc/default/grub
para adicionar a string acima aGRUB_CMDLINE_LINUX_DEFAULT
, por exemplo ,GRUB_CMDLINE_LINUX_DEFAULT="intel_iommu=on"
Salve e feche o arquivo e execute:
# update-grub
Reinicie para entrar em vigor.
Para systemd-boot , (a) adicione a string acima em uma linha separada
/etc/kernel/cmdline
ou (b) adicione a seguinte chave ao seu arquivo .conf de entrada de inicialização em/loader/entries
:options intel_iommu=on
Salve e feche o arquivo e, em seguida, reinicie para entrar em vigor.
EDITAR
Este assunto continua a ser um problema da IOMMU em parte, mas algumas informações adicionais surgiram:
Fique ligado.