O que é RAID degradado? Falhas no arranjo de disco de servidores e storages
Um simples aviso sonoro, mensagem de erro ou a mudança de cor de um LED em servidores, computadores ou sistemas de armazenamento pode indicar sérios problemas.
Quando se trata de um arranjo RAID, esses sinais geralmente indicam que um ou mais hard disks que compõe o arranjo pode estar instável ou com problemas, colocando o sistema em um estado degradado.
Isso significa ainda que, apesar do sistema continuar funcionando, ele está mais propenso a falhas e precisa de manutenção, por isso um backup completo dos dados deve ser feito imediatamente.
O que é RAID degradado?
RAID degradado é o estado de funcionamento que informa que um ou mais hard disks ou módulos SSD de um servidor, storage ou computador não está funcionando corretamente. Apesar de diminuir seu desempenho, o sistema continua funcionando devido à redundância oferecida pelo arranjo de discos.
Infelizmente esse estado do sistema é vulnerável e merece atenção, pois qualquer falha adicional na matriz de armazenamento pode resultar na perda total dos dados.
Assim, ao constatar que um RAID (redundant Array of Independent Disk) está degradado, é necessário substituir o disco com problemas e permitir que o sistema reconstrua os dados o mais rápido possível.
Durante esse processo, é importante agir com cuidado e atenção. A manipulação inadequada dos discos ou qualquer erro durante a reconstrução do arranjo pode levar à perda de dados.
Caso você não esteja confortável em realizar a substituição do disco defeituoso por conta própria, buscar a ajuda de um profissional de TI ou o suporte do fabricante pode ser uma boa ideia.
Quais são os primeiros sinais de um RAID com problemas?
Alguns sinais podem ajudar a identificar que um servidor ou storage está trabalhando com o RAID degradado. Os principais são:
Erros de disco: A maioria dos servidores e storages possui algum tipo de ferramenta para monitorar a saúde de seus discos.
Caso você esteja recebendo mensagens de erro ou alertas relacionados aos discos do seu sistema, é possível que o RAID esteja funcionando em modo degradado.
Piora no desempenho das aplicações: Um arranjo de disco mecânico degradado não consegue entregar o mesmo desempenho para as aplicações do que quando está funcionando corretamente.
Apesar disso, esse comportamento nem sempre é perceptível em storages all flash, pois muitas vezes a eficiência e a baixa latência dos módulos SSD podem suprimir essa deficiência.
Problemas durante a inicialização: Servidores ou sistemas de armazenamento não podem apresentar erros intermitentes durante o processo de inicialização.
Ao notar qualquer comportamento anormal na inicialização do sistema operacional, certifique-se que esse tipo de problema não é um sinal de falha em um dos discos do arranjo.
Corrupção de dados: Apesar de não ser comum, a corrupção de dados também pode ser um sinal de um RAID degradado.
Ao notar que muitos arquivos estão corrompidos ou inacessíveis, verifique a saúde das unidades de armazenamento que compõe a matriz.
Como identificar um arranjo de disco defeituoso?
A maioria dos servidores, computadores e storages possuem diversas ferramentas para identificar comportamentos anormais no sistema de armazenamento.
Quando alguma falha de disco ocorre, alguns equipamentos possuem LEDs indicativos que mudam de cor (por exemplo, de verde para vermelho ou âmbar) ou ainda emitem um sinal sonoro.
Além disso, a maioria dos disk arrays possuem algum tipo de software para gerenciamento que informará o status do sistema e enviará mensagens de erro e/ou emails assim que identificar a falha.
Sistemas de alta disponibilidade contam ainda com pools de armazenamento reserva (disk spare), que podem ser alocados para a reconstrução imediata dos dados em caso de emergência.
O que fazer ao se deparar com um aviso de RAID degradado?
Ao constatar alguma falha no sistema de armazenamento do servidor ou storage é necessário tomar providências imediatas para que não haja perda de dados. São elas:
1- Confirme a falha: A primeira coisa a fazer é confirmar o problema de funcionamento. Use o software de gerenciamento do sistema para verificar o status dos hard disks do arranjo. Procure por indicações de quais discos pararam de funcionar ou estão falhando.
2- Faça backup dos dados importantes: Embora os arranjos de disco ofereçam redundância para proteger o sistema contra a perda de dados, um RAID degradado pode falhar de forma definitiva.
3- Identifique e substitua o disco defeituoso: Normalmente o sistema possui um software capaz de indicar qual disco falhou. Após o backup, remova e substitua o hard disk defeituoso por um novo disco da mesma marca e modelo.
4- Inicie a reconstrução do RAID: Assim que o novo disco for instalado, o sistema deve começar a recuperar o RAID e reconstruir os dados automaticamente no novo disco.
Caso a reconstrução não comece automaticamente, talvez seja necessário iniciar o processo manualmente através do software de gerenciamento do sistema.
5- Monitore a reconstrução: O processo de reconstrução de um disco da matriz pode levar várias horas ou até dias, dependendo da velocidade e da capacidade dos discos instalados.
Além disso, se o hard disk com problemas for parte de um servidor de alta disponibilidade, o sistema vai precisar continuar atendendo as aplicações e requisições de dados dos usuários da rede.
Isso significa que o arranjo pode demorar ainda mais tempo para reconstruir os dados no novo hard disk e voltar ao status normal de funcionamento.
Verifique o sistema: Uma vez que a reconstrução seja concluída, verifique o sistema para garantir que ele esteja funcionando corretamente e que todos os discos estejam saudáveis.
Arranjos de disco ou módulos SSD geralmente são montados com componentes do mesmo lote, ou seja, fabricados na mesma época e com a mesma expectativa de vida estimada.
Isso significa que, se o hard disk ou SSD chegou ao final de sua vida útil, em breve outras unidades que compõe o arranjo também apresentarão problemas técnicos e precisarão ser substituídos.
Quando um hard disk para de funcionar, quais as chances outros falharem?
A chance de outros discos do mesmo arranjo RAID apresentarem problemas após o primeiro evento sempre existe, porém depende de vários fatores. São eles:
Idade dos discos: Discos rígidos têm uma vida útil limitada. Se todos os HDs do arranjo são do mesmo lote de fabricação e foram instalados ao mesmo tempo, existe uma grande chance de que os outros também estejam no final de sua vida útil.
Confiabilidade do HDD: Alguns hard disks são mais confiáveis do que outros. HDDs voltados para uso corporativo são mais robustos, por isso possuem uma chance menor de falhar que discos de uso pessoal.
Condições de trabalho: Fatores como temperatura, umidade, vibrações e alimentação elétrica podem afetar a vida útil de todos os discos simultaneamente.
Se o ambiente de trabalho for a principal causa de falha de um dos discos, é provável que ele também não seja adequado os demais.
Trabalho na reconstrução dos dados: Qualquer disco ao apresentar defeito exigirá que o sistema funcione em modo degradado e entre em rebuilding. Essa reconstrução dos dados exige uma grande carga adicional de trabalho para as unidades restantes do sistema.
Assim, caso o dispositivo de armazenamento já esteja sobrecarregado com outras requisições e qualquer outro disco que esteja prestes a falhar, essa unidade estará sobrecarregada por seu uso intensivo.
Embora esses fatores aumentem a probabilidade de falha, vale lembrar nada garante que outros defeitos poderão acontecer imediatamente após o primeiro evento.
A importância de manter o backup sempre atualizado
Infraestruturas de TI e datacenters com trabalho 24x7, dependem de equipamentos robustos e de alta disponibilidade.
Porém, mesmo esses sistemas precisam ser monitorados e receber manutenções periódicas para continuar funcionando, sob pena de ter seus serviços interrompidos.
Nessa hora, manter um plano de continuidade de negócios atualizado e ter backup atualizado pode ser a diferença entre um pequeno contratempo e uma crise de grandes proporções.
Embora a redundância oferecida por um arranjo RAID possa proteger contra a perda de dados, ela não é infalível. Qualquer falha adicional ao servidor ou storage pode levar à perda total dos dados.
Além disso, erros humanos causados no processo na configuração ou reconstrução do arranjo de disco pode causar a perda total dos dados armazenados.
Nessas horas, possuir um processo de backup automático pode trazer uma camada extra de proteção contra outros riscos, como desastres naturais, picos de energia, sabotagem, erros humanos, ataques de malware ou outras falhas de hardware e software.
Quer saber mais sobre o assunto? Traga seu projeto e tire suas dúvidas. Somos especialistas em servidores, sistemas de armazenamento e soluções de backup.
Armazenamento de dados
Tudo o que você precisa saber sobre soluções de Armazenamento de dados.
Storage e sistemas de armazenamento para datacenter e infraestruturas de TI
Procurando um storage para seu datacenter ou infraestrutura de TI? Temos sistemas de armazenamento DAS, NAS e soluções all flash de diversas capacidades, ligue.
NAS NVMe, armazenamento all flash SSD de alta velocidade
NAS NVMe? Conheça as melhores alternativas para armazenamento híbrido e soluções all flash para redes locais com memórias SSD NVMe. Ligue e tire suas Dúvidas.
Quais são os riscos ao comprar um NAS Diskless?
Comprar o storage NAS e os hard disks em diferentes revendedores pode ser muito arriscado. Saiba porque comprar tudo num único distribuidor é melhor.