AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / unix / Perguntas / 492418
Accepted
user194659
user194659
Asked: 2019-01-05 01:03:21 +0800 CST2019-01-05 01:03:21 +0800 CST 2019-01-05 01:03:21 +0800 CST

md_raid10 trava - possíveis razões?

  • 772

Eu tenho pesquisado a possível causa para esse tipo de comportamento:

INFO: task md1_raid10:240 blocked for more than 120 seconds.
[123491.284102]       Not tainted 4.18.20 #1
[123491.284105] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[123491.284109] md1_raid10      D    0   240      2 0x80000000
[123491.284116] Call Trace:
[123491.284132]  ? __schedule+0x421/0x8c0
[123491.284138]  ? preempt_count_add+0x67/0xb0
[123491.284144]  schedule+0x3c/0x90
[123491.284162]  md_super_wait+0x69/0xa0 [md_mod]
[123491.284173]  ? remove_wait_queue+0x60/0x60
[123491.284184]  md_update_sb.part.61+0x4ad/0x900 [md_mod]
[123491.284197]  md_check_recovery+0x310/0x530 [md_mod]
[123491.284205]  raid10d+0x64/0x15a0 [raid10]
[123491.284211]  ? __schedule+0x429/0x8c0
[123491.284216]  ? schedule+0x46/0x90
[123491.284220]  ? schedule_timeout+0x1f7/0x370
[123491.284224]  ? preempt_count_add+0x67/0xb0
[123491.284229]  ? _raw_spin_lock_irqsave+0x25/0x50
[123491.284232]  ? preempt_count_add+0x67/0xb0
[123491.284243]  ? md_thread+0x120/0x160 [md_mod]
[123491.284252]  md_thread+0x120/0x160 [md_mod]
[123491.284258]  ? remove_wait_queue+0x60/0x60
[123491.284263]  kthread+0xf8/0x130
[123491.284272]  ? md_rdev_init+0xc0/0xc0 [md_mod]
[123491.284277]  ? kthread_create_worker_on_cpu+0x70/0x70
[123491.284281]  ret_from_fork+0x22/0x40

Tudo o que encontrei, incluindo pontos de troca de pilha para algumas condições adversas do servidor sob cargas pesadas do sistema. No meu caso, isso ocorre em um sistema que hospeda 4HHS na configuração Raid1+0, que são novos e brilhantes, na verdade o sistema foi configurado ontem e praticamente não contém dados. O desligamento ocorreu durante a listagem do diretório inicial (que contém apenas 10 arquivos) por meio de um cliente SMB.

Os discos neste sistema são criptografados com dm_crypt. Nenhum LVM é usado.

root@stasiek1:/home/lacki# cat /proc/mdstat
Personalities : [raid10] [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] 
md1 : active raid10 sdd3[3] sdb3[1] sda3[0] sdc3[2]
      7225882624 blocks super 1.2 512K chunks 2 near-copies [4/4] [UUUU]
      bitmap: 1/54 pages [4KB], 65536KB chunk

md0 : active raid10 sdd2[3] sda2[0] sdc2[2] sdb2[1]
      585674752 blocks super 1.2 512K chunks 2 near-copies [4/4] [UUUU]
      bitmap: 3/5 pages [12KB], 65536KB chunk

unused devices: <none>


root@stasiek1:/home/lacki# mdadm --detail /dev/md0
/dev/md0:
        Version : 1.2
  Creation Time : Sat Dec 29 22:59:44 2018
     Raid Level : raid10
     Array Size : 585674752 (558.54 GiB 599.73 GB)
  Used Dev Size : 292837376 (279.27 GiB 299.87 GB)
   Raid Devices : 4
  Total Devices : 4
    Persistence : Superblock is persistent

  Intent Bitmap : Internal

    Update Time : Tue Jan 29 22:14:24 2019
          State : clean 
 Active Devices : 4
Working Devices : 4
 Failed Devices : 0
  Spare Devices : 0

         Layout : near=2
     Chunk Size : 512K

           Name : stasiek1:0  (local to host stasiek1)
           UUID : d12a1437:ab040229:dbc0f4bf:796a97dd
         Events : 768

    Number   Major   Minor   RaidDevice State
       0       8        2        0      active sync set-A   /dev/sda2
       1       8       18        1      active sync set-B   /dev/sdb2
       2       8       34        2      active sync set-A   /dev/sdc2
       3       8       50        3      active sync set-B   /dev/sdd2


root@stasiek1:/home/lacki# mdadm --detail /dev/md1
/dev/md1:
        Version : 1.2
  Creation Time : Sat Dec 29 23:00:13 2018
     Raid Level : raid10
     Array Size : 7225882624 (6891.14 GiB 7399.30 GB)
  Used Dev Size : 3612941312 (3445.57 GiB 3699.65 GB)
   Raid Devices : 4
  Total Devices : 4
    Persistence : Superblock is persistent

  Intent Bitmap : Internal

    Update Time : Tue Jan 29 22:13:37 2019
          State : clean 
 Active Devices : 4
Working Devices : 4
 Failed Devices : 0
  Spare Devices : 0

         Layout : near=2
     Chunk Size : 512K

           Name : stasiek1:1  (local to host stasiek1)
           UUID : bdf36256:191923e1:01254e05:8bc447c9
         Events : 7357

    Number   Major   Minor   RaidDevice State
       0       8        3        0      active sync set-A   /dev/sda3
       1       8       19        1      active sync set-B   /dev/sdb3
       2       8       35        2      active sync set-A   /dev/sdc3
       3       8       51        3      active sync set-B   /dev/sdd3

Sistema: Kernel: 4.18. trecho Debian

linux software-raid
  • 1 1 respostas
  • 518 Views

1 respostas

  • Voted
  1. Best Answer
    frostschutz
    2019-01-30T14:42:58+08:002019-01-30T14:42:58+08:00

    Mais comentários do que respostas, mas muito longo para um comentário.

    Este é provavelmente um bug do kernel. Problemas de kernel como esses infelizmente são bastante comuns, um exemplo recente é md: fix raid10 hang issue causado por columns .

    Não há muito o que fazer sobre os bugs do kernel, se você não for um desenvolvedor do kernel e não quiser mergulhar :-)

    • veja se outros tiveram o mesmo problema com essa versão do kernel e podem ter encontrado uma solução alternativa como desabilitar o blk_mq
    • tente o kernel mais recente [ou um mais antigo caso o bug tenha sido uma adição recente, então talvez ajude a dividir o problema
    • verifique a lista de discussão para patches e tente aqueles
    • verifique os fóruns e o rastreador de bugs da sua distribuição
    • informe você mesmo à lista de discussão linux-raid para que o problema possa ser investigado e corrigido adequadamente

    E então é apenas uma questão de esperança/sorte - e também uma questão se esse problema afeta muitas pessoas ou, por algum motivo estranho, apenas você.

    Se for apenas você, mesmo que pareça um bug do kernel, fazer uma instalação limpa em um novo hardware ainda pode "consertá-lo". Muitos bugs são corrigidos dessa maneira, sem determinar a causa raiz corretamente (porque isso requer habilidades especiais e tempo...).

    • 0

relate perguntas

  • Existe uma maneira de fazer ls mostrar arquivos ocultos apenas para determinados diretórios?

  • Inicie/pare o serviço systemd usando o atalho de teclado [fechado]

  • Necessidade de algumas chamadas de sistema

  • astyle não altera a formatação do arquivo de origem

  • Passe o sistema de arquivos raiz por rótulo para o kernel do Linux

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Possível firmware ausente /lib/firmware/i915/* para o módulo i915

    • 3 respostas
  • Marko Smith

    Falha ao buscar o repositório de backports jessie

    • 4 respostas
  • Marko Smith

    Como exportar uma chave privada GPG e uma chave pública para um arquivo

    • 4 respostas
  • Marko Smith

    Como podemos executar um comando armazenado em uma variável?

    • 5 respostas
  • Marko Smith

    Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

    • 3 respostas
  • Marko Smith

    apt-get update error no Kali Linux após a atualização do dist [duplicado]

    • 2 respostas
  • Marko Smith

    Como ver as últimas linhas x do log de serviço systemctl

    • 5 respostas
  • Marko Smith

    Nano - pule para o final do arquivo

    • 8 respostas
  • Marko Smith

    erro grub: você precisa carregar o kernel primeiro

    • 4 respostas
  • Marko Smith

    Como baixar o pacote não instalá-lo com o comando apt-get?

    • 7 respostas
  • Martin Hope
    user12345 Falha ao buscar o repositório de backports jessie 2019-03-27 04:39:28 +0800 CST
  • Martin Hope
    Carl Por que a maioria dos exemplos do systemd contém WantedBy=multi-user.target? 2019-03-15 11:49:25 +0800 CST
  • Martin Hope
    rocky Como exportar uma chave privada GPG e uma chave pública para um arquivo 2018-11-16 05:36:15 +0800 CST
  • Martin Hope
    Evan Carroll status systemctl mostra: "Estado: degradado" 2018-06-03 18:48:17 +0800 CST
  • Martin Hope
    Tim Como podemos executar um comando armazenado em uma variável? 2018-05-21 04:46:29 +0800 CST
  • Martin Hope
    Ankur S Por que /dev/null é um arquivo? Por que sua função não é implementada como um programa simples? 2018-04-17 07:28:04 +0800 CST
  • Martin Hope
    user3191334 Como ver as últimas linhas x do log de serviço systemctl 2018-02-07 00:14:16 +0800 CST
  • Martin Hope
    Marko Pacak Nano - pule para o final do arquivo 2018-02-01 01:53:03 +0800 CST
  • Martin Hope
    Kidburla Por que verdadeiro e falso são tão grandes? 2018-01-26 12:14:47 +0800 CST
  • Martin Hope
    Christos Baziotis Substitua a string em um arquivo de texto enorme (70 GB), uma linha 2017-12-30 06:58:33 +0800 CST

Hot tag

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve