AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / server / Perguntas / 1051586
Accepted
Chris Woelkers
Chris Woelkers
Asked: 2021-01-29 11:09:12 +0800 CST2021-01-29 11:09:12 +0800 CST 2021-01-29 11:09:12 +0800 CST

ZFS falhou em várias novas unidades

  • 772

Foi decidido substituir nosso antigo NAS primário, que consiste em três expansores SAS de 48 unidades de unidades de 4 TB, por um sistema semelhante de unidades de 12 TB, reutilizando alguns dos hardwares mais recentes, um expansor e uma placa SAS que foi adicionada há cerca de um ano. A decisão foi tomada para manter as coisas o mais simples e baratas possível, sem ocupar nenhum espaço adicional no rack no final.

O novo hardware chegou, o servidor e dois expansores, e foi configurado com o Debian Buster e o ZFS disponível no repositório buster-backports. O pool ZFS foi criado com um espelho de duas unidades SSD U.2 para o log, mais duas unidades SSD U.2 para o cache, 4 unidades de HDD sobressalentes (2 por expansor) e 12 raids RAID-Z2 de 7 unidades cada ( 6 ataques por expansor). Tudo parecia bem e comecei a copiar os dados do antigo NAS para este usando um script que fazia uso de instantâneos incrementais, envio de zfs e recebimento de zfs.

A primeira execução do script levou muitos dias, mas acabou terminando. Sem problemas em nenhuma das extremidades. A segunda corrida também funcionou. Então, após o terceiro, muitos problemas foram observados com o ZFS Pool. Em 4 raids, um grande número de discos mudou de status para UNAVAILABLE ou FAILED e todos os 4 sobressalentes foram colocados em uso automaticamente. A saída do status do zpool segue.

# zpool status
  pool: bigvol
 state: DEGRADED
status: One or more devices is currently being resilvered.  The pool will
    continue to function, possibly in a degraded state.
action: Wait for the resilver to complete.
  scan: resilver in progress since Thu Jan 28 09:55:20 2021
    160T scanned at 11.5G/s, 151T issued at 10.8G/s, 160T total
    4.99T resilvered, 94.53% done, 0 days 00:13:46 to go
config:

    NAME                                           STATE     READ WRITE CKSUM
    bigvol                                         DEGRADED     0     0     0
      raidz2-0                                     ONLINE       0     0     0
        scsi-35000c500cacd481b                     ONLINE       0     0     0
        scsi-35000c500cacceddb                     ONLINE       0     0     0
        scsi-35000c500cacd5c4b                     ONLINE       0     0     0
        scsi-35000c500cacd19cb                     ONLINE       0     0     0
        scsi-35000c500cacd0f4f                     ONLINE       0     0     0
        scsi-35000c500cacd5efb                     ONLINE       0     0     0
        scsi-35000c500cacd133f                     ONLINE       0     0     0
      raidz2-1                                     ONLINE       0     0     0
        scsi-35000c500cab6617f                     ONLINE       0     0     0
        scsi-35000c500cacd131b                     ONLINE       0     0     0
        scsi-35000c500cacd1637                     ONLINE       0     0     0
        scsi-35000c500cacd0dd3                     ONLINE       0     0     0
        scsi-35000c500cab64247                     ONLINE       0     0     0
        scsi-35000c500cacd5f4b                     ONLINE       0     0     0
        scsi-35000c500cacd206b                     ONLINE       0     0     0
      raidz2-2                                     ONLINE       0     0     0
        scsi-35000c500cacd251f                     ONLINE       0     0     0
        scsi-35000c500cacf60a7                     ONLINE       0     0     0
        scsi-35000c500cacd55cb                     ONLINE       0     0     0
        scsi-35000c500cacd3a5f                     ONLINE       0     0     0
        scsi-35000c500cacd0fa7                     ONLINE       0     0     0
        scsi-35000c500cacd4cb3                     ONLINE       0     0     0
        scsi-35000c500cacd2edf                     ONLINE       0     0     0
      raidz2-3                                     DEGRADED     0     0     0
        scsi-35000c500cacd1627                     ONLINE       0     0     0
        scsi-35000c500cacd049f                     ONLINE       0     0     0
        scsi-35000c500cacdf9d3                     ONLINE       0     0     0
        scsi-35000c500cab51563                     DEGRADED     0     0     1  too many errors  (resilvering)
        scsi-35000c500cacd1c9b                     DEGRADED     0     0     0  too many errors
        scsi-35000c500cacdf757                     FAULTED      0    10    48  too many errors  (resilvering)
        scsi-35000c500cacd291b                     FAULTED      0    11    31  too many errors  (resilvering)
      raidz2-4                                     DEGRADED     0     0     0
        spare-0                                    DEGRADED     0     0    11
          scsi-35000c500cacdb54f                   FAULTED      0    18     0  too many errors  (resilvering)
          scsi-35000c500cacdc907                   DEGRADED     0     0     0  too many errors  (resilvering)
        scsi-35000c500cacd2c77                     DEGRADED     0     0     4  too many errors
        scsi-35000c500cacdbdd3                     DEGRADED     0     0    12  too many errors  (resilvering)
        scsi-35000c500cacd0a47                     DEGRADED     0     0     7  too many errors  (resilvering)
        scsi-35000c500cacdf107                     DEGRADED     0     0     4  too many errors  (resilvering)
        scsi-35000c500cacd59fb                     DEGRADED     0   195    79  too many errors  (resilvering)
        scsi-35000c500cacd5307                     DEGRADED     0   177    30  too many errors  (resilvering)
      raidz2-5                                     DEGRADED     0     0     0
        spare-0                                    DEGRADED     0     0    15
          scsi-35000c500cacd03a3                   FAULTED      0    12     0  too many errors  (resilvering)
          scsi-35000c500cacd340b                   ONLINE       0     0     0
        scsi-35000c500cacd29d7                     FAULTED      0    21    24  too many errors  (resilvering)
        scsi-35000c500cacd23d7                     DEGRADED     0     0    11  too many errors  (resilvering)
        scsi-35000c500cacd1c27                     DEGRADED     0     0    29  too many errors  (resilvering)
        spare-4                                    DEGRADED     0     0    32
          scsi-35000c500cacd26bb                   FAULTED      0    31     0  too many errors  (resilvering)
          scsi-35000c500cacd299f                   DEGRADED     0     0     0  too many errors  (resilvering)
        scsi-35000c500cacd258b                     DEGRADED     0   207    63  too many errors  (resilvering)
        spare-6                                    DEGRADED     0     0    24
          scsi-35000c500cacdf867                   FAULTED      0    15     0  too many errors  (resilvering)
          scsi-35000c500cacd60ef                   ONLINE       0     0     0
      raidz2-6                                     DEGRADED     0     0     0
        scsi-35000c500cacd2e37                     ONLINE       0     0     0
        scsi-35000c500cacd0ecf                     ONLINE       0     0     0
        11839096008852004814                       UNAVAIL      0     0     0  was /dev/disk/by-id/scsi-35000c500cacd1f8f-part1
        scsi-35000c500cacd088b                     ONLINE       0     0     0
        scsi-35000c500cacd28df                     ONLINE       0     0     0
        scsi-35000c500cacd068b                     ONLINE       0     0     0
        scsi-35000c500cacdbd77                     ONLINE       0     0     0
      raidz2-7                                     ONLINE       0     0     0
        scsi-35000c500cacd040b                     ONLINE       0     0     0
        scsi-35000c500cacd16bb                     ONLINE       0     0     0
        scsi-35000c500cacd4d37                     ONLINE       0     0     0
        scsi-35000c500cacd1b57                     ONLINE       0     0     0
        scsi-35000c500cacd0453                     ONLINE       0     0     0
        scsi-35000c500cacd3f6b                     ONLINE       0     0     0
        scsi-35000c500cacd0297                     ONLINE       0     0     0
      raidz2-8                                     ONLINE       0     0     0
        scsi-35000c500cacd4bcb                     ONLINE       0     0     0
        scsi-35000c500cacd36cf                     ONLINE       0     0     0
        scsi-35000c500cacd1983                     ONLINE       0     0     0
        scsi-35000c500cacd3aaf                     ONLINE       0     0     0
        scsi-35000c500cacda90b                     ONLINE       0     0     0
        scsi-35000c500cacd0d53                     ONLINE       0     0     0
        scsi-35000c500cacdaa1f                     ONLINE       0     0     0
      raidz2-9                                     ONLINE       0     0     0
        scsi-35000c500cacd3f13                     ONLINE       0     0     0
        scsi-35000c500cacd3187                     ONLINE       0     0     0
        scsi-35000c500cacd59a3                     ONLINE       0     0     0
        scsi-35000c500cacd0913                     ONLINE       0     0     0
        scsi-35000c500cacdf663                     ONLINE       0     0     0
        scsi-35000c500cacd156b                     ONLINE       0     0     0
        scsi-35000c500cacd203f                     ONLINE       0     0     0
      raidz2-10                                    ONLINE       0     0     0
        scsi-35000c500cacd4c97                     ONLINE       0     0     0
        scsi-35000c500cacd58a3                     ONLINE       0     0     0
        scsi-35000c500cacd2353                     ONLINE       0     0     0
        scsi-35000c500cacd3f67                     ONLINE       0     0     0
        scsi-35000c500cacd235f                     ONLINE       0     0     0
        scsi-35000c500cacdf14f                     ONLINE       0     0     0
        scsi-35000c500cacd2583                     ONLINE       0     0     0
      raidz2-11                                    ONLINE       0     0     0
        scsi-35000c500cacd2f87                     ONLINE       0     0     0
        scsi-35000c500cacdb557                     ONLINE       0     0     0
        scsi-35000c500cacd00f3                     ONLINE       0     0     0
        scsi-35000c500cacd3ea7                     ONLINE       0     0     0
        scsi-35000c500cacd23ff                     ONLINE       0     0     0
        scsi-35000c500cacd09d3                     ONLINE       0     0     0
        scsi-35000c500cacd3adb                     ONLINE       0     0     0
    logs    
      mirror-12                                    ONLINE       0     0     0
        nvme-eui.343842304db011100025384700000001  ONLINE       0     0     0
        nvme-eui.343842304db011060025384700000001  ONLINE       0     0     0
    cache
      nvme-eui.343842304db010920025384700000001    ONLINE       0     0     0
      nvme-eui.343842304db011080025384700000001    ONLINE       0     0     0
    spares
      scsi-35000c500cacdc907                       INUSE     currently in use
      scsi-35000c500cacd299f                       INUSE     currently in use
      scsi-35000c500cacd340b                       INUSE     currently in use
      scsi-35000c500cacd60ef                       INUSE     currently in use

errors: No known data errors

Eu parei a transferência, por motivos óbvios, e estou esperando que o resilver termine antes de substituir os drives FAULTED e UNAVAIL. No entanto gostaria de saber se os drives DEGRADADOS devem ser substituídos? Além disso, se alguém tiver uma idéia de por que isso pode acontecer? (Além da possibilidade de apenas um conjunto ruim de unidades.) Ou talvez eu só precise matar o pool e substituir as unidades. De qualquer forma, estou pensando que os dados terão que ser copiados mais uma vez.

zfs debian-buster debian-jessie
  • 1 1 respostas
  • 83 Views

1 respostas

  • Voted
  1. Best Answer
    Chris Woelkers
    2021-12-22T10:13:28+08:002021-12-22T10:13:28+08:00

    Esse problema estava relacionado a um ou dois cabos SAS internos defeituosos em um dos dois gabinetes JBOD 4U. Os cabos em questão foram do conector SAS externo "primário" para o backplane. Trocá-los por dois cabos do conector externo "secundário" não utilizado resolveu o problema.

    • 0

relate perguntas

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Você pode passar usuário/passar para autenticação básica HTTP em parâmetros de URL?

    • 5 respostas
  • Marko Smith

    Ping uma porta específica

    • 18 respostas
  • Marko Smith

    Verifique se a porta está aberta ou fechada em um servidor Linux?

    • 7 respostas
  • Marko Smith

    Como automatizar o login SSH com senha?

    • 10 respostas
  • Marko Smith

    Como posso dizer ao Git para Windows onde encontrar minha chave RSA privada?

    • 30 respostas
  • Marko Smith

    Qual é o nome de usuário/senha de superusuário padrão para postgres após uma nova instalação?

    • 5 respostas
  • Marko Smith

    Qual porta o SFTP usa?

    • 6 respostas
  • Marko Smith

    Linha de comando para listar usuários em um grupo do Windows Active Directory?

    • 9 respostas
  • Marko Smith

    O que é um arquivo Pem e como ele difere de outros formatos de arquivo de chave gerada pelo OpenSSL?

    • 3 respostas
  • Marko Smith

    Como determinar se uma variável bash está vazia?

    • 15 respostas
  • Martin Hope
    Davie Ping uma porta específica 2009-10-09 01:57:50 +0800 CST
  • Martin Hope
    kernel O scp pode copiar diretórios recursivamente? 2011-04-29 20:24:45 +0800 CST
  • Martin Hope
    Robert ssh retorna "Proprietário incorreto ou permissões em ~/.ssh/config" 2011-03-30 10:15:48 +0800 CST
  • Martin Hope
    Eonil Como automatizar o login SSH com senha? 2011-03-02 03:07:12 +0800 CST
  • Martin Hope
    gunwin Como lidar com um servidor comprometido? 2011-01-03 13:31:27 +0800 CST
  • Martin Hope
    Tom Feiner Como posso classificar a saída du -h por tamanho 2009-02-26 05:42:42 +0800 CST
  • Martin Hope
    Noah Goodrich O que é um arquivo Pem e como ele difere de outros formatos de arquivo de chave gerada pelo OpenSSL? 2009-05-19 18:24:42 +0800 CST
  • Martin Hope
    Brent Como determinar se uma variável bash está vazia? 2009-05-13 09:54:48 +0800 CST

Hot tag

linux nginx windows networking ubuntu domain-name-system amazon-web-services active-directory apache-2.4 ssh

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve