pelo meu entendimento, usar discos de 20-30 TB com HDFS pode apresentar alguns desafios, mas também pode ser gerenciado de forma eficaz com a configuração adequada
usar discos de 20-30 TB com HDFS é possível, mas requer consideração cuidadosa do tamanho do bloco, tempos de reconstrução, distribuição de dados, gerenciamento de metadados e desempenho. Planejamento e configuração adequados podem ajudar a mitigar esses desafios.
Desempenho: discos grandes podem levar a tempos de busca mais longos e potencialmente impactar o desempenho, especialmente para cargas de trabalho que exigem acesso aleatório frequente.
com base no exposto acima, podemos pretender usar discos de 20T-30T em nossas novas máquinas de nós de dados ?
Observe que pretendemos instalar do zero 16 máquinas de nós de dados baseadas no hardware DELL, quando cada nó de dados deve conter 12 discos NÃO RAID ( quando cada tamanho de disco for ~22T )
Aviso: OK, vou colocar a mão na massa e resumir tudo.
Resumo: HDDs modernos normalmente ficam sem IOPS muito antes de ficarem sem capacidade, então você pode obter um enorme pool de armazenamento, a única questão é, você teria IOPS suficientes para alimentar sua configuração? Os drives SATA / NL-SAS de 4 TB e 22 TB de 7.200 rpm são limitados com talvez ~80 IOPS, a capacidade é irrelevante. 80 IOPS por drive físico são suficientes para atender totalmente às suas necessidades? Não sabemos, faça suas contas!
Dica: configurações de RAID de paridade têm uma penalidade de gravação, então fique atento!
https://theithollow.com/2012/03/21/understanding-raid-penalty/
Aviso: As unidades SMR são devoradoras de desempenho (elas são basicamente como fitas...) e não podem ser usadas para nada, exceto gravações sequenciais principalmente (pense em cargas de trabalho de CFTV e emulação de fita talvez...), você precisa absolutamente de HDDs CMR "clássicos" aqui. Veja:
https://www.pitsdatarecovery.co.uk/blog/cmr-vs-smr/