fbpx
Desenvolvimento

Guia para redundância de TI: descubra tudo o que sempre quis saber!

Redundância é um termo aplicado na arquitetura de sistemas com o intuito de aumentar a confiabilidade da infraestrutura. Para isso, alguns componentes ou funções críticas são duplicadas, seja por meio de cópias de segurança, seja com a adoção de hardwares e softwares que otimizam o desempenho real do sistema e inibem qualquer tipo de falha.

Inclusive, em alguns sistemas em que a segurança é o aspecto mais sensível, é necessário triplicar esses elementos que viabilizam a interoperabilidade e a ininterruptibilidade da infraestrutura. Essa configuração é chamada Redundância Modular Tripla (TMR).

Neste artigo, explicamos o que é redundância de TI, seus principais tipos, a importância dessa configuração para as operações que acontecem nas infraestruturas baseadas em tecnologia e como ela pode ser obtida. Veja a seguir.

  • O que é redundância em TI?
  • Quais os tipos de redundância?
  • Como implementar a redundância?
  • Quais elementos da infraestrutura de TI não podem ser configurados com redundância?
  • Quais as diretrizes que baseiam os data centers para a segurança e confiabilidade das edificações?
  • Qual a diferença entre redundância e resiliência?
  • Quais os benefícios da redundância em infraestruturas de TI?

O que é redundância em TI?

Conforme falamos, redundância significa adicionar componentes ou funções críticas à infraestrutura de TI para garantir total ininterruptibilidade quando um dispositivo ou componente principal falha.

Esse termo foi criado porque o objetivo é manter o tempo de inatividade de todo o sistema zerado. Logo, em situações ideais em que a infraestrutura sobressalente não opera, ela se torna, portanto, redundante.

Quando falamos sobre redundância na arquitetura de sistemas, o primeiro elemento considerado são os hardwares, como os discos rígidos. Entretanto, também é possível configurar outras formas de redundância, baseadas em rotinas como o backup e restore de dados, em que as informações perdidas em caso de desgastes são apenas as que foram produzidas depois da última vez em que os arquivos foram copiados.

Quais os tipos de redundância?

Os data centers descrevem os níveis de redundância como N, N + 1, 2N e 2N + 1. Detalhamos a seguir o que significa cada um deles e como eles se aplicam à infraestrutura e à arquitetura do sistema instalado.

Redundância N

O nível de redundância N é a quantidade mínima para uma operação segura. O símbolo ‘N’ representa essa demanda para uma carga total de TI. Ela descreve unidades de resfriamento ou UPSs, mas também pode ser aplicada a muitos outros aspectos da base do data center, limitada às falhas ou manutenções de equipamento, cujo tempo de inatividade pode ser o resultado final

Redundância N + 1

O nível de redundância N + 1 permite que a instalação opere uma carga de TI completa, entretanto, diferentemente da base N, com um componente adicional.

Isso permite ter ainda mais segurança contra falhas ou interrupções no caso da demanda de manutenção. Os padrões de redundância N + 1 normalmente requerem uma unidade extra para cada quatro necessárias, portanto, se 12 unidades de resfriamento forem adicionadas, uma instalação N + 1 terá 3 unidades sobressalentes.

Redundância 2N

A redundância 2N é uma infraestrutura espelhada, ou seja, todos os componentes para uma operação ideal são duplicados. Isso permite total independência, pois o sistema 2N pode assumir as necessidades operacionais caso a infraestrutura primária fique offline por algum motivo.

Dessa forma, a redundância 2N é considerada totalmente tolerante à falhas — ela fornece um serviço ininterrupto mesmo em situações de falha significativa e permite a manutenção total de toda a infraestrutura de forma rápida e eficaz, enquanto o sistema espelhado atende às necessidades da instalação.

Redundância 2N + 1

2N + 1 é a forma mais alta de redundância de um data center. Esse tipo de sistema fornece um backup completo e ainda mantém um componente adicional para atender às falhas e demandas de manutenção em um ecossistema da infraestrutura. Com extrema versatilidade, esse tipo de configuração é totalmente tolerante à falhas.

Como implementar a redundância?

Qual o design mais indicado e as melhores práticas para a construção de um data center? O Uptime Institute estabeleceu quatro níveis de tolerância a falhas chamado Tier, em que o 1 é o nível mais baixo e o 4 é o mais alto.

Essa configuração estabelece uma distribuição elétrica completa de múltiplos caminhos, geração de energia e sistemas UPS, para que no nível 1 a interrupção anual suportada seja, no máximo, 28,8 horas, enquanto no último nível a disponibilidade mínima seja de 99,995 por cento, ou seja, com uma interrupção suportada de 0,4 hora.

O nível de camada ou a tolerância a falhas serão determinados pela criticidade das operações do data center e a disponibilidade não pode ser garantida apenas pelas especificações do projeto, uma vez que a maioria das interrupções de serviço ocorre em função de erro humano.

Logo, também é preciso atenção às habilidades e desempenho das equipes de trabalho, que terão uma contribuição significativa na estabilidade das operações na infraestrutura.

Além disso, alguns elementos podem ser configurados com redundância para aumentar a segurança e a confiabilidade da infraestrutura de TI. Veja a seguir quais recursos podem ser redundantes.

Servidores

Nesse tipo de redundância, uma réplica do servidor é criada com as mesmas configurações originais: capacidade computacional, de armazenamento, de integração com softwares, aplicações e outros parâmetros operacionais. Esse servidor redundante é mantido desligado, porém, totalmente conectado à rede ou Internet.

Quando ocorre uma falha do servidor principal ativo, como tempo de inatividade ou tráfego excessivo, a estrutura redundante substitui a opção primária ou simplesmente compartilhar a carga para garantir a capacidade de atendimento da demanda.

Como essa é opção de redundância tem um custo extremamente alto, uma vez que exige espaço físico para o devido acondicionamento dos equipamentos com capacidade para resfriamento, manutenção e monitoramento da infraestrutura, por exemplo, algumas empresas optam por outras formas de redundância para servidores:

  • domínio redundante, front-end e servidores de validação ​​para balanceamento de carga, como um servidor DNS secundário ou servidores Windows AD;
  • semi-hot spares que, no caso de um desastre, podem ter os arquivos de backup restaurados rapidamente para reiniciar o processamento.

Rede

A redundância de rede é implementada principalmente em infraestruturas corporativas, por meio da adição de caminhos de rede alternativos com roteadores e switches standby, pois fornece uma fonte redundante de comunicação e backup para a retomada das atividades em caso de interrupções não planejadas.

Ela inibe também falhas na conectividade entre equipamentos, para que a interconectividade seja mantida em qualquer situação, e deve ser instalada principalmente quando vários equipamentos dependem de um único ponto de acesso à Internet.

Internet

A redundância da Internet é Multi-Wan, disponível por meio de firewalls, por exemplo. Esse tipo de equipamento permite obter várias conexões simultaneamente, pois se alguma cair outra assume para que a conectividade seja contínua.

Backups

Os backups redundantes podem ser executados de várias formas. Por exemplo, backups em disco que são armazenados em servidores locais, remotos e em nuvem.

Backups multicamadas podem ser implementados de forma complementar: alguns dados são salvos localmente enquanto outros dados são armazenados em locais geograficamente distantes. Dessa forma, é possível garantir, simultaneamente, a rápida restauração e a devida proteção dos dados em caso de um desastre regional.

Unidades de disco

Equipamentos físicos redundantes devem estar sempre disponíveis. Se uma unidade de disco em um conjunto RAID apresentar problemas, outra unidade pode garantir a substituição imediata.

Por exemplo, se um único disco falha em um conjunto de volumes RAID 5, todo o volume continua a operar sem perda de dados.

Se, por algum motivo, um segundo disco no volume RAID falhar sem haver redundância, o volume do disco não estará mais disponível e os aplicativos falharão.

Nesse caso, a redundância garante que haverá substituição das duas unidades, restauração do sistema de arquivos e retomada de funcionamento adequado do servidor.   

Os requisitos do sistema ditam os níveis de redundâncias necessários para atingir altos níveis de disponibilidade. Configurar unidades espelhadas é bom, mas com unidades RAID espelhadas é muito mais seguro operar, assim como manter servidores duplicados com unidades RAID espelhadas, conforme ressaltamos na seção sobre tipos de redundância.

Suprimentos de energia

Por meio de fontes de alimentação redundantes é possível garantir que o servidor mantenha a operacionalidade em qualquer tipo de falha.

UPSs

Cada rack de servidor deve ter, pelo menos, dois sistemas UPS (Uninterruptible Power Supply) — chamado de no-break no Brasil — um para cada fonte de alimentação redundante e em todos os equipamentos do data center, sem exceções. Assim, o fornecimento de energia é mantido no caso de uma queda rápida.

O no-break deve ser dimensionado para energizar todos os equipamentos e dispositivos, sistemas HVAC (Heating, Ventilating and Air Conditioning) e outros dispositivos elétricos que baseiam a iluminação de emergência e dispositivos de segurança.

É preciso dimensionar o equipamento para suprir a demanda de energia entre, no mínimo, 15 a 20 minutos após a interrupção da carga.

Além disso, o UPS deve ser dimensionado para suportar picos de carga ou condições de sobrecarga de falha, a fim de atender cerca de 150% da demanda operacional, filtrar e condicionar a energia enquanto o sistema opera normalmente.

Circuitos elétricos

Cada um dos sistemas UPS redundantes no mesmo rack deve ser conectado a um disjuntor diferente, de preferência em caixas elétricas distintas. Isso evita que o rack caia mesmo se houver um problema elétrico em um dos circuitos ou caixas elétricas.

Energia elétrica

Para adicionar redundância elétrica, muitos data centers fornecem fontes de eletricidade diferentes para seus circuitos redundantes, às vezes alimentados por provedores distintos. No Brasil, isso é pouco praticado uma vez que as concessionárias de energia atuam de forma regional.

No entanto, os geradores são excelentes substitutos, pois têm capacidade de fornecer energia elétrica ao data center em caso de interrupções mais duradouras da fonte principal.

Sistemas de telecom

As linhas de telecomunicações também podem ter redundância. Isso pode ser desenhado a partir da contratação de diferentes provedores de telecom e com a instalação independente dos equipamentos na infraestrutura.

Quais elementos da infraestrutura de TI não podem ser configurados com redundância?

A redundância não pode ser aplicada em todos os componentes do data center. Podem haver elementos críticos de falha única, para os quais ela não é suportada. Veja alguns exemplos e o que fazer para manter a segurança da infraestrutura mesmo sem redundância.

Portas de rede, cabeamento e portas de patch panel

Normalmente, há apenas um caminho de dados cabeado que conecta o data center. Ocasionalmente, se esse cabo sofrer qualquer tipo de falha, como a quebra ou rompimento, é preciso reinstalar outro cabo similar, conectar um pequeno switch Ethernet a uma linha de trabalho próxima e compartilhar a linha de trabalho com o equipamento conectado ao local em que a falha foi identificada.

Sistemas de telefonia

Exceto para sistemas de voz sobre IP (VoIP) a redundância em sistemas de telefonia não é uma boa opção. Além de ser onerosa tanto pelos custos de telefonia quanto para a manutenção, existem opções móveis que substituem de forma precisa esse tipo de estrutura para telecomunicações.

Switches, roteadores e firewalls

Mantenha backups atualizados das configurações do roteador, switch e firewall caso algum desses equipamentos quebre ou sofra falhas irreversíveis.

Quais as diretrizes que baseiam os data centers para a segurança e confiabilidade das edificações?

Já falamos sobre a possibilidade de redundância nos equipamentos, componentes e funções críticas, mas também precisamos abordar a redundância nas edificações do data center, conforme ressaltamos a seguir.

O data center deve ser uma infraestrutura completa e otimizada quanto aspectos críticos, como energia elétrica, espaço e sistemas mecânicos. Por isso deve ser equipado com:

  • diversas fontes de energia que deve incluir UPS, geração de backup a diesel, unidades de distribuição de energia (PDUs) e unidades de distribuição intermediárias;
  • sistemas de aquecimento, ventilação e ar-condicionado, com possibilidade de demanda para resfriamento entre os racks;
  • sistemas de proteção contra incêndio;
  • sistemas de vigilância;
  • piso com elevação.

As empresas devem manter excedentes para suprir a infraestrutura central, como fios e cabos, conduítes e espaços para PDUs. A escalabilidade da infraestrutura também deve ser projetada para uma possível demanda de expansão do data center.

A localização do data center afetará muito a segurança, a eficiência e os custos operacionais. Por exemplo, um backup redundante com replicação síncrona não pode estar muito distante do data center principal. Também é preciso atenção à capacidade de fornecimento de energia, comunicação e qualificação profissional.

Deve haver uma distância razoável de deslocamento para o capital humano, entretanto, distância suficiente de áreas de alto risco, como corredores de acesso a aeroportos, planícies aluviais e áreas sujeitas a desastres naturais ou de instalações onde incêndios, ou vibrações de máquina possam representar um perigo para as operações da infraestrutura.

Prefira locais com muitos pontos de acesso a vários provedores de energia e Internet, mas evite problemas como vibração e interferência eletromagnética das linhas da concessionária de energia.

Algumas boas práticas que devem servir de base para um projeto redundante e seguro do sistema elétrico também abrangem:

  • instalação de interruptores de desligamento de emergência em todos os pontos de entrada nas instalações;
  • viabilização de um sistema de aterramento que esteja em conformidade com as diretrizes do sistema elétrico nacional;
  • determinação da demanda dos equipamentos quanto a fase única ou alimentação trifásica;
  • redução da impedância de alta frequência;
  • uso de fio de bitola mais alta para garantir escalabilidade do sistema elétrico;
  • manutenção dos níveis de umidade relativa para minimizar a descarga eletrostática;
  • ações de blindagem e medidas preventivas quanto à interferência eletromagnética;
  • uso de PDUs para integrar disjuntores e conexões de equipamentos;
  • linhas de defesa para alimentação de reserva;
  • separação entre cabos de sinal e os cabos elétricos;
  • integração com o no-break.

Se o no-break não for usado deve haver proteção contra sobretensão nos painéis com um transformador, independentemente de isolamento ou regulação. Para manter a energia além do limite de 20 minutos, a empresa deve instalar geradores movidos a combustível. Assim é possível fornecer energia reserva para as possíveis interrupções de longo prazo.

Em infraestruturas Tier 3 e 4 também é preciso manter um gerador adicional. Todos os geradores devem ser testados periodicamente para garantir integridade operacional.

O sistema HVAC deve ser projetado para garantir entre 20 a 25 graus celsius e com umidade relativa de 45% a 50%. O fluxo de ar deve ser maximizado entre os racks — de baixo para cima e da frente para trás. A alternância de corredores entre o corredor frio e o corredor quente facilita um controle de temperatura mais eficiente e todos os equipamentos também devem ter redundância.

Qual a diferença entre redundância e resiliência?

Redundância e resiliência são semelhantes e complementares. Conforme já ressaltamos, redundância refere-se ao nível de backup de equipamentos e funções, para garantir a confiabilidade e a operacionalidade da infraestrutura mesmo em casos de falha. Já a resiliência diz respeito a essa capacidade, mas em relação ao data center como um todo.

Logo, quanto mais redundância houver em um data center, mais resiliente ele será. No entanto, a resiliência também precisa ser abrangente: geradores podem garantir a ininterruptibilidade da energia elétrica, mas não podem evitar o superaquecimento dos geradores em uma falha no resfriamento, por exemplo.

Existem outros fatores que contribuem para a resiliência, como a manutenção de uma equipe ligada 24 horas por dia, 7 dias por semana, para aumentar o nível de monitoramento quanto às falhas no equipamento.

Quais os benefícios da redundância em infraestruturas de TI?

O benefício mais óbvio de uma infraestrutura redundante é a alta disponibilidade. Essa característica descreve o tempo em que todos os equipamentos operam em conformidade e de forma ininterrupta.

Alta Disponibilidade (HA) e Tolerância a Falhas (FT) são termos usados ​​para transmitir a importância do tempo total em que um aplicativo está ativo e em execução.

Os requisitos de disponibilidade podem incluir dias e horários específicos — ou pode ser 24 horas por dia, 7 dias por semana. Além disso, há uma porcentagem de tempo de atividade que deve ser cumprida e o ideal é sempre manter os 99,99%.

É a disponibilidade que garante desempenho operacional e, consequentemente, capacidade de suportar todas as solicitações do usuário para viabilizar a eficiência e a produtividade.

Imagine o custo de oportunidade — e até o prejuízo — para empresas ou indústrias cujos ativos interconectados estejam sujeitos à indisponibilidade momentaneamente.

Ainda existem vulnerabilidades que afetam diretamente a empresa, como ataques de hackers e falhas na gestão da segurança de dados, que podem resultar em roubo ou perda de dados.

Mesmo que essa indisponibilidade seja rápida, ela pode gerar perdas financeiras significativas, em função das paradas de máquinas e operadores, o custo para a manutenção corretiva e até para a substituição de equipamentos mais sensíveis.

Outra consequência extremamente grave para os negócios que também se relaciona à disponibilidade da infraestrutura se refere ao comprometimento da confiabilidade da empresa. Ela pode reduzir o volume de vendas e a competitividade do negócio.

As empresas também estão sujeitas aos desastres físicos, como tempestades, enchentes, ventanias, furacões etc., que apesar de não serem facilmente previstos, podem comprometer irreversivelmente os dados armazenados na infraestrutura — por isso é importante manter backups como formas de redundância fora do ambiente da empresa.

Escolher o nível apropriado de redundância depende de vários fatores. Embora o nível mais alto pareça a melhor escolha, nem todo setor ou empresa exige os mesmos padrões de tempo de atividade e disponibilidade para os equipamentos. Inclusive, algumas empresas podem pagar mais que o necessário para manter redundâncias que não são necessárias.

Conforme falamos, a redundância não é apenas usada em servidores dedicados e hardware. Ela também afeta os componentes da infraestrutura, de rede, aplicativos, sistemas de telefonia, circuitos elétricos e até na estrutura física, para que todos os requisitos de qualidade, conformidade e disponibilidade sejam atendidos e protegidos adequadamente.

Nem todo data center ou provedor de serviços gerenciados implementa redundância em seus equipamentos. No entanto, quanto mais redundância estiver presente na infraestrutura, mais seguro estarão seus dados e menos interrupções ou problemas a sua empresa sofrerá durante o uso dos serviços contratados.

Agora que você sabe o que é a redundância e a importância dessa condição para o devido atendimento de um provedor de serviços gerenciados, entre em contato com ValueHost para conhecer todas as características da nossa infraestrutura e como ela pode atender a sua demanda!