Eu continuo tendo uma falha no sistema no início da manhã. Entre 00:00 e 08:00.
Olhando para os logs, parece que cada núcleo fica lento e, eventualmente, trava até que todo o sistema congele. São cerca de 25 minutos desde o primeiro erro até a falha do sistema. Os erros me levam a pensar em problemas de memória, mas não tenho certeza se isso é apenas por causa de alguma outra falha.
O sistema é um Super Micro X9DRW-IF com Dual E5-2630 V2 e 16X 8GB DDR3
OS é Proxmox mais recente
Núcleo:
Linux pve1 4.15.18-10-pve #1 SMP PVE 4.15.18-32 (Sat, 19 Jan 2019)
As interrupções PERF começam a demorar cada vez mais e os erros de memória começam a acontecer. Aproximadamente 20 desses erros surgem antes que o sistema congele durante um período de 20 minutos a uma hora. Pelo que entendi, o PERF é apenas o afogamento da CPU. Ele acelera para a velocidade mais baixa possível, nesse ponto o sistema rastreia.
Apr 28 07:36:05 pve1 kernel: [36497.018818] perf: interrupt took too long (6737393 > 4247631), lowering kernel.perf_event_max_sample_rate to 250
Apr 28 07:36:05 pve1 kernel: [36497.018914] {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
Apr 28 07:36:05 pve1 kernel: [36497.018926] {1}[Hardware Error]: It has been corrected by h/w and requires no further action
Apr 28 07:36:05 pve1 kernel: [36497.019012] {1}[Hardware Error]: event severity: corrected
Apr 28 07:36:05 pve1 kernel: [36497.019112] {1}[Hardware Error]: Error 0, type: corrected
Apr 28 07:36:05 pve1 kernel: [36497.019115] {1}[Hardware Error]: fru_text: CorrectedErr
Apr 28 07:36:05 pve1 kernel: [36497.019119] {1}[Hardware Error]: section_type: memory error
Apr 28 07:36:05 pve1 kernel: [36497.019125] {1}[Hardware Error]: node: 1 device: 0
Apr 28 07:36:05 pve1 kernel: [36497.019128] {1}[Hardware Error]: error_type: 2, single-bit ECC
Apr 28 07:36:05 pve1 kernel: [36497.019297] ghes_edac: Internal error: Can't find EDAC structure
Apr 28 07:36:06 pve1 pve-firewall[2311]: firewall update time (13.994 seconds)
Apr 28 07:36:10 pve1 kernel: [36502.054892] INFO: NMI handler (perf_event_nmi_handler) took too long to run: 451.489 msecs
Apr 28 07:36:17 pve1 pve-firewall[2311]: firewall update time (9.985 seconds)
Apr 28 07:36:20 pve1 pvestatd[2315]: got timeout
Apr 28 07:36:26 pve1 pvestatd[2315]: status update time (33.041 seconds)
Apr 28 07:36:28 pve1 pve-firewall[2311]: firewall update time (11.073 seconds)
Apr 28 07:36:50 pve1 kernel: [36542.038771] INFO: NMI handler (perf_event_nmi_handler) took too long to run: 451.686 msecs
Apr 28 07:36:56 pve1 pve-firewall[2311]: firewall update time (27.943 seconds)
Apr 28 07:36:56 pve1 pvestatd[2315]: status update time (30.979 seconds)
Apr 28 07:37:03 pve1 pve-firewall[2311]: firewall update time (6.031 seconds)
Neste ponto, eu só quero ter uma idéia do que realmente está acontecendo.