Tolerância a falhas: O que são sistemas tolerantes a falha

Empresas não podem parar. A globalização, o trabalho remoto e a necessidade de manter as operações sempre online, 24 horas por dia e 7 dias por semana, tem estressado muito os administradores de pequenas e médias empresas.

A maior preocupação sempre recai na mesma pergunta: Como manter seus negócios funcionando mesmo diante de um grande desastre?

em um ambiente de trabalho uma pessoa com expressão de desespero ao olhar o computador com falha e do outro lado um servidor desplugado da tomada por um cachorro - Tolerancia a falhas

A computação em nuvem, servidores redundantes, a virtualização e os sistemas de alta disponibilidade fazem parte da solução dessa e de outras questões relacionadas a continuidade dos negócios.

Os sistemas tolerantes a falha

Sistemas tolerantes a falha são aqueles funcionam de forma contínua, mesmo em caso de alguma falha de hardware ou software. Equipados com componentes redundantes, essas soluções possuem recursos que possibilitam manter aplicativos e serviços críticos em funcionamento 24x7 sem interrupções.

Esses sistemas, antes privilégio exclusivo de empresas com alta capacidade de investimento, já podem ser implementadas em organizações de todos os portes.

A evolução das tecnologias de gerenciamento de processos, a redução dos preço de servidores e a melhoria dos serviços de comunicação facilitou muito esse processo.

A alta disponibilidade

Ao usar componentes redundantes, os sistemas de alta disponibilidade podem minimizar o tempo de inatividade e garantir que os usuários tenham acesso ininterrupto aos dados e recursos de que precisam.

Embora os sistemas tolerantes a falha ainda possam parecer complexos e caros para alguns, os benefícios que eles oferecem justificam facilmente o investimento adicional.

O que é tolerância a falhas?

Tolerância a falhas é a propriedade que possibilita um equipamento ou sistema continuar funcionando corretamente e sem interrupções, mesmo que algum de seus componentes de produção apresente defeitos durante a execução de um processo.

Para que isso ocorra, a maioria desses sistemas conta com elementos redundantes, ou seja, que trabalham em paralelo e exercem a mesma função.

A maioria das vezes que um desses dispositivos apresenta problemas, a capacidade de processamento é reduzida até que o componente defeituoso seja substituído, causando uma degradação no tempo de resposta.

A tolerância a falhas é particularmente encontrada em sistemas informatizados de alta disponibilidade ou missão crítica.

Soluções com tolerância a falha

Quando se trata de sistemas de alta disponibilidade, existem várias soluções que podem reduzir o downtime e manter um sistema funcionando continuamente.

Aqui estão as ferramentas mais populares para reduzir o tempo de interrupção de um sistema:

1. Redundância: Uma das soluções tolerantes a falha mais comuns é a redundância de componentes. Ter dispositivos que desempenham a mesma função instalados que podem assumir o trabalho caso outro falhe é uma forma de manter o sistema funcionando.

Storage Infortrend com controladora dupla e fonte de alimentação redundante para reduzir as chances de falha - Redundância

Sistemas com processadores, controladoras, memórias, discos e fontes de alimentação redundantes são úteis em caso de falha localizada.

2. Clustering: O clustering é outra solução popular para sistemas tolerantes a falha. A montagem de um cluster geralmente envolve o agrupamento de hardware e software para a montagem de uma central unificada de processamento e armazenamento.

Todos os recursos instalados no cluster são gerenciados por um software central, que agrupa vários componentes na execução de uma determinada tarefa.

Muito usado em ambientes virtualizados dentro de datacenters, os clusters podem ser formados por centenas de servidores físicos.

Mesmo que um desses servidores físicos do grupo falhe, os outros ainda continuam funcionando e respondendo as requisições exigidas.

3. Balanceamento de carga: O balanceamento de carga é outra solução comum encontrada em sistemas informatizados. O load balance garante que o tráfego seja distribuído uniformemente por todos os componentes do sistema e atendem a mesma lógica: Se uma parte do sistema apresenta algum funcionamento fora dos padrões, os outros podem compensar a falha e assumir a tarefa.

Um exemplo é usar o balanceamento de carga para distribuir o tráfego de forma uniforme entre dois servidores da Web para que, caso um deles fique inativo, o outro ainda possa lidar com solicitações.

4. Failover: O failover é outra solução comum para manter sistemas funcionando sem interrupções. Isso envolve ter um componente idêntico conectado para assumir o controle do processo se o dispositivo ou sistema principal falhar.

Muito utilizado até alguns anos atrás, o sistema de failover exige que o dispositivo principal se comunique constantemente com o dispositivo reserva.

Quando essa comunicação é interrompida, o dispositivo reserva assume as operações do dispositivo primário.

Como funciona um sistema tolerante a falhas?

Os sistemas tolerantes a falha são projetados para manter um serviço, site ou aplicativo funcionando em caso de falta de energia, defeito em algum de seus componentes ou outra interrupção inesperada.

Existem vários elementos-chave para compor um sistema tolerante a falha:

1. Diferentes fontes de energia : Um gerador ou outra fonte de energia como backup garante que seu serviço, site ou aplicativo permaneça funcionando em caso de falta de energia.

2. Sistemas redundantes: Vários servidores, sistemas de armazenamento e outros equipamentos podem ser interligados para fornecer redundância. Assim, caso um dos componentes de hardware ou software falhe, outro o substituirá de forma automática.

3. Load Balance: Em um sistema load balance (com balanceamento de carga), o tráfego de dados e operações é distribuído uniformemente entre vários servidores. Esse sistema permite que, caso um dos servidores ou storage fique inativo, os outros concluam a operação de forma transparente.

4. Monitoramento e alertas: Os sistemas de monitoramento acompanham todos os aspectos de um processo ou tarefa dentro de um sistema e envia alertas se algum problema for detectado.

Isso geralmente inclui o monitoramento do desempenho de servidores, as rotas de tráfego utilizadas para a transmissão de dados e a execução de serviços ou aplicativos.

Como funciona um sistema tolerante a falhas? storage infortrend em perspectiva com uma imagem ao fundo de um escritório em atividade

A detecção de falhas

Para garantir alta disponibilidade, os sistemas tolerantes a falha e seus componentes devem ser projetados para identificar, mapear e remediar as inconsistências de funcionamento para continuar operando.

Isso geralmente envolve dispositivos reserva e alguns mecanismos capazes em detectar problemas, que podem transferir o controle de uma ou mais operações se um componente primário falhar.

Como essa detecção pode ser difícil, muitos sistemas e redes são configurados para fazer failover para seus pares redundantes assim que eles apresentem algum comportamento inadequado.

Essa mudança de operação automática pode resultar em alguns resultados falsos positivos, mas isso ainda é melhor do que perder dados e processos por ocasião de uma falha verdadeira.

Fazer failover de um sistema redundante também não é uma tarefa simples, pois pode haver perda ou corrupção de dados caso a peça comprometida estiver no meio da gravação de dados quando ele falhou.

Os controladores duplos ativos e o sistema heartbeat

Controladores duplos ativos com conexão heartbeat são os principais integrantes de qualquer sistema tolerante a falha, principalmente em servidores de aplicação e storages.

Esses controladores fornecem a proteção contra eventuais problemas de funcionamento, assumindo automaticamente a operação de um sistema em caso de falha do controlador principal.

Heartbeat é um mecanismo de comunicação utilizado entre dois componentes, geralmente servidores ou sistemas de armazenamento, responsável em monitorar o status de seu par redundante.

Como indica o nome, heartbeat é um processo em que um sistema envia um pulso constante para outro. Esse pulso indica que os sistemas estão em operação e operando sem falhas.

Caso um desses pulsos não chegue ao destinatário, o componente redundante assume o controle da operação.

A redundância de hardware, software e dos links de comunicação

Redundância de hardware é instalar e manter dois ou mais dispositivos físicos no mesmo sistema para fornecer um único serviço.

Ao instalar dois storages redundantes, um deles funciona como armazenamento principal e o outro fica em stand-by, apenas recebendo os dados de produção. Se o storage de produção falhar, o outro que estava parado pode substituí-lo.

A redundância de software geralmente é proporcionada em ambientes de processamento paralelo, onde o mesmo componente de software pode ser executado e disponibilizado como se fosse um único recurso lógico.

A virtualização e a clusterização de servidores permitiu simplificar esses conceitos: Nesses ambientes, um servidor ou aplicação é apenas uma parte lógica de uma solução maior.

A redundância de largura de banda é a contratação e o uso de vários canais de comunicação para fornecer uma única conexão lógica. Nesses casos, se um link de comunicação falhar, outro pode substituí-lo.

O TRO e RPO

Um componente chave de um sistema tolerantes a falha é ter RTO (objetivo de tempo de recuperação) e RPO (objetivo de ponto de recuperação) com tempo próximo a zero.

RTO é a quantidade de tempo que leva para se recuperar de uma interrupção. Já o RPO é a quantidade de dados que podem ser perdidos durante uma interrupção.

Ter um RTO zero significa que seus aplicativos funcionarão assim que a falha de hardware ou software for resolvida.

Ter um RPO zero significa que nenhum dado será perdido em caso de interrupção.

Alcançar um RTO e RPO zero geralmente é uma tarefa difícil, mas há algumas coisas que você pode fazer para melhorar seus sistemas:

1. Use componentes de hardware redundantes sempre que possível. Dessa forma, se um componente falhar, há outro esperando para substituí-lo.

2. Use a replicação para manter várias cópias de seus dados em locais diferentes. Dessa forma, se um local ficar inativo, você ainda poderá acessar seus dados de outro local.

3. Use o cluster de failover para garantir que seus aplicativos sempre tenham um servidor disponível para execução. Se um servidor ficar inativo, outro servidor no cluster poderá substituí-lo.

4. Certifique-se de ter um bom plano de backup e recuperação implementado para que você possa restaurar rapidamente seus dados em caso de interrupção.

A replicação de dados

Há muitas maneiras diferentes de obter mais disponibilidade, mas um dos componentes mais importantes é a replicação de dados.

A replicação de dados é o processo de copiar dados de um local para outro para que possam ser usados em caso de falha ou interrupção.

Há muitos benefícios em usar a replicação de dados, incluindo reduzir o tempo de inatividade, melhorar o desempenho e aumentar a resiliência.

Quando feita corretamente, a replicação de dados pode ajudar a garantir que seus sistemas estejam sempre disponíveis quando você precisar deles.

Replicação de dados - dois storages infortrend replicando dados um para o outro

A infraestrutura também deve ser de alta disponibilidade

Infraestrutura de falha zero é um termo usado para descrever um tipo de infraestrutura em que não há pontos únicos de falha.

Esse tipo de infraestrutura é normalmente visto em sistemas de missão crítica, ou seja, em instalações que o tempo de inatividade não é uma opção.

Uma infraestrutura de falha zero geralmente é composta de elementos redundantes que podem assumir o controle se o componente principal apresentar mal funcionamento ou interromper totalmente o serviço.

Esse tipo de infraestrutura pode custar mais caro para construir e manter que outros sistemas sem o mesmo nível de proteção, mas é indispensável em sistemas de missão crítica.

Procurando servidores e storages tolerantes a falha?

A lentidão ou falha nas resposta de servidores, sistemas de armazenamento e aplicações corporativas causa prejuízos, danos a produtividade e precisa ser combatida de todas as formas.

Somos representantes Seagate, Cisco, Asus, Qnap, Infortrend e especialistas em networking, servidores e sistemas de armazenamento. Traga seu projeto e tire suas dúvidas.

Produtos recomendados: