IT MONITORING: O que é e como funciona?
Monitoramento de TI é o nome dos produtos e processos usados para determinar se os equipamentos e serviços de tecnologia da informação (TI) de uma organização estão funcionando corretamente e para detectar e ajudar a resolver problemas. As ferramentas de monitoramento de TI podem incluir tudo, desde ferramentas básicas até soluções mais avançadas que usam inteligência artificial (IA) para prever e evitar interrupções antes que elas ocorram. Com o custo do tempo de inatividade de TI em média de US$ 5.600 por minuto, de acordo com uma estimativa da Gartner, o monitoramento de TI é mais importante do que nunca.
A prática do monitoramento de TI evoluiu significativamente nos últimos anos, em grande parte porque os ambientes de TI se tornaram muito mais complexos. Uma grande mudança no monitoramento de TI ocorreu com a crescente popularidade da computação em nuvem. As ferramentas de monitoramento de TI agora são projetadas para monitorar infraestruturas locais e baseadas em nuvem.
O monitoramento de TI tem um grande cruzamento com outras disciplinas relacionadas, incluindo gerenciamento de operações de TI (ITOM), inteligência operacional (OI), observabilidade, orquestração, automação e resposta de segurança (SOAR) e gerenciamento de eventos e informações de segurança (SIEM).
Neste artigo, será abordado sobre os princípios básicos e os tipos de monitoramento de TI, as ferramentas que são usadas e as maneiras como o monitoramento de TI funciona com outras disciplinas, incluindo desempenho e gerenciamento de rede, DevOps e automação. Também será mostrado como escolher uma estratégia eficaz de monitoramento de TI para sua organização.
Visão geral do monitoramento de TI
Quais são os tipos básicos de monitoramento de TI?
Não há uma lista oficial de todos os tipos de monitoramento de TI e, quando se trata de ferramentas e práticas, geralmente há uma quantidade significativa de sobreposições. Com isso em mente, vamos dar uma olhada em alguns dos tipos básicos de monitoramento de TI:
- Monitoramento de disponibilidade: Também conhecido como monitoramento do sistema, esse é um dos tipos mais maduros de monitoramento de TI, mantendo o controle das métricas básicas de desempenho do sistema, como tempo de atividade e desempenho. O monitoramento de disponibilidade também pode ser aplicado ao gerenciamento de servidores, monitoramento e gerenciamento de infraestrutura e monitoramento e gerenciamento de rede.
- Monitoramento do desempenho da Web: Esse é um subconjunto do monitoramento de disponibilidade projetado especificamente para monitorar a disponibilidade de um servidor da Web. As ferramentas de monitoramento de desempenho da Web rastreiam métricas que incluem o tempo de carregamento da página, erros e onde eles ocorrem e tempos de carregamento de elementos individuais da Web. As métricas de desempenho da Web são essenciais para ajudar os analistas não apenas a garantir que o servidor da Web e os sites que ele atende estejam funcionando, mas também que estejam atendendo às expectativas dos clientes.
- Gerenciamento de aplicativos/gerenciamento de desempenho de aplicativos (APM): As ferramentas de APM são semelhantes às ferramentas de monitoramento de desempenho da Web, mas são projetadas tendo em mente os aplicativos voltados para o cliente, permitindo que os analistas acompanhem o desempenho de um aplicativo e identifiquem quaisquer problemas antes que se tornem graves demais para a base de usuários. As ferramentas de APM mais modernas podem incluir rotinas automatizadas para solucionar esses problemas sem a intervenção de um desenvolvedor humano.
- API: As empresas que oferecem APIs a desenvolvedores terceirizados acharão fundamental garantir o tempo de atividade desses serviços. As ferramentas de monitoramento de API e o software de monitoramento fornecem informações sobre se uma API ou integração está funcionando corretamente, garantindo o mínimo de tempo de inatividade.
- Monitoramento de usuários reais (RUM): O monitoramento do usuário real foi projetado para registrar as interações reais do usuário final com um site ou aplicativo. Ao monitorar os tempos de carregamento e o comportamento do usuário no mundo real, ele pode identificar problemas com base em desafios “reais” da experiência do usuário, em vez de simulações. Esse tipo de monitoramento foi projetado para ser retrospectivo, não preditivo, permitindo que os analistas identifiquem os problemas somente depois que eles ocorrerem.
- Segurança: Embora o monitoramento de segurança seja um subconjunto do monitoramento de TI, ele é uma forma altamente especializada de monitoramento de TI projetada para detectar violações de segurança ou outras atividades de rede incomuns.
Atividades comerciais: Da mesma forma que as métricas de TI podem ajudar a determinar a integridade dos sistemas de TI, os mesmos dados podem ser analisados para ajudar a determinar a integridade das métricas de desempenho dos negócios, incluindo vendas, downloads de aplicativos, o volume de tráfego da Web ou qualquer atividade comercial escolhida que gere dados de máquina.
Quais tipos de ferramentas são usadas no monitoramento de TI?
As ferramentas de monitoramento da infraestrutura de TI podem ser divididas em três categorias gerais ou tipos de dispositivos de rede – observação, análise e envolvimento – com base na forma como são usadas:
Observação: Esses são os tipos mais básicos de ferramentas de monitoramento de TI, usados para observar hardware, software ou serviços e gerar relatórios sobre sua eficácia operacional. A maioria das ferramentas de monitoramento de disponibilidade, inclusive as ferramentas de monitoramento e gerenciamento de infraestrutura, as ferramentas de monitoramento de desempenho de aplicativos e as ferramentas de monitoramento de desempenho da Web se enquadram nessa categoria.
Análise: Esse tipo de ferramenta de monitoramento de TI tem a tarefa de obter dados de observação e analisá-los posteriormente. Esses dados podem ser analisados para determinar onde os problemas estão se originando ou, o que é mais importante, para determinar por que esses problemas podem estar ocorrendo. Ferramentas analíticas modernas, inclusive ferramentas de inteligência artificial para operações de TI (AIOps), podem prever problemas antes que eles surjam, com base em padrões encontrados em dados históricos.
Engajamento: Como a camada final das ferramentas de monitoramento de TI, as ferramentas de envolvimento são projetadas para agir com base nas informações criadas pelas ferramentas de análise e observação. Isso pode assumir uma forma simples, no caso de tíquetes de serviço ou alertas que são entregues de forma inteligente ao analista ou gerente de negócios apropriado, ou, mais comumente, ser usado para ativar serviços adicionais, reiniciar hardware ou software problemático ou executar backups.
Como o monitoramento e o gerenciamento de TI funcionam juntos?
As ferramentas de monitoramento de TI fornecem as informações necessárias para que as equipes de TI entendam o desempenho de seus sistemas, tanto no momento quanto ao longo do tempo, e, assim, determinem as ações que devem ser tomadas para gerenciar efetivamente suas redes, sistemas e dispositivos e tomar decisões de curto e longo prazo.
Vamos dar uma olhada em um exemplo específico. Suponha que a solução de monitoramento de TI indique que um dispositivo ou serviço está apresentando 0,11% de tempo de inatividade e que esse 0,11% de tempo de inatividade se traduz em 11 minutos de indisponibilidade por semana. Durante o horário comercial, os 11 minutos em que o sistema não consegue processar pagamentos podem ter um custo significativo. Como isso se compara ao custo de substituir um cartão de memória no servidor ou atualizar a rede para evitar esse tempo de inatividade? Ou há uma questão de processo que deve ser abordada para resolver o problema? Se o tempo de inatividade estiver aumentando, um gerente experiente poderá deduzir que um problema ainda maior está no horizonte e poderá usar os dados de monitoramento de TI para defender a substituição ou a atualização do hardware existente.
Como o monitoramento de TI funciona com o DevOps?
O monitoramento de TI tem uma função cada vez mais importante no âmbito do DevOps, principalmente porque o DevOps gira em torno do conceito de colaboração de várias equipes, especialmente de desenvolvimento e operações. Mas, cada vez mais, as empresas têm encontrado benefícios ainda maiores quando outros departamentos são incluídos nessa mistura, inclusive as equipes de segurança e de controle de qualidade/testes. Somente quando todos esses grupos trabalham juntos como uma equipe coesa é que o lançamento de um produto de software ou serviço pode ser bem-sucedido.
Outro ponto em que o DevOps e o monitoramento de TI se sobrepõem é com relação ao ritmo crescente de atualizações de produtos, já que os aplicativos às vezes são atualizados várias vezes ao dia. O monitoramento é essencial nesses tipos de ambientes, pois o ritmo alucinante do desenvolvimento geralmente oferece um tempo mínimo para a garantia de qualidade antes que uma nova atualização seja lançada. Em alguns casos, um bug não descoberto chega à produção, fazendo com que um sistema importante sofra uma lentidão inaceitável ou trave. Com uma solução sólida de monitoramento de TI em tempo real, esses erros podem ser detectados rapidamente, muitas vezes em segundos, permitindo que a equipe de DevOps resolva o problema imediatamente ou reverta o código para um estado de funcionamento conhecido, minimizando o tempo de inatividade.
Dito isso, no mundo do DevOps, o monitoramento de TI também é voltado para o futuro. Os sistemas de monitoramento de DevOps podem ser encarregados de monitorar as próprias ferramentas que os desenvolvedores usam em seu próprio trabalho, ajudando os gerentes a identificar áreas ineficientes ou que poderiam se beneficiar da automação.
Qual é a diferença entre monitoramento de TI e observabilidade?
Tanto o monitoramento de TI quanto a observabilidade são fundamentais para o DevOps e são práticas distintas. Em termos simples, a observabilidade só é possível por meio do monitoramento. Mas, enquanto o monitoramento pode informar a uma equipe de TI que existe um problema, a observabilidade dá a uma equipe visibilidade dos sistemas operacionais em toda a empresa e, portanto, é capaz de informar à equipe por que um problema aconteceu, para que ela possa evitar que ele ocorra novamente.
Como o monitoramento e a automação de TI funcionam juntos?
O monitoramento e a automação de TI trabalham juntos de várias maneiras, desde a automatização do processo de criação de alertas e tíquetes de serviço até a correção automática de problemas sem a necessidade de envolvimento humano.
Quanto mais complexa for a infraestrutura, mais necessária será a automação. Mesmo em empresas de tamanho modesto, há simplesmente muitas partes móveis para serem gerenciadas por humanos, o que se torna ainda mais complicado com sistemas híbridos que combinam redes na nuvem e no local.
As ferramentas de monitoramento de TI que incorporam a automação são projetadas para simplificar tudo isso. Se um servidor estiver ficando lento em resposta a uma súbita explosão de atividade do cliente, a ferramenta poderá diagnosticar o problema como uma CPU sobrecarregada e poderá instruir automaticamente outro servidor (real ou virtual) a assumir o controle. Quando o tráfego da rede diminuir, ela poderá decidir desligar o segundo servidor. A ferramenta também pode emitir um relatório de causa raiz sobre o incidente para que a gerência possa decidir se é necessário fazer uma atualização.
Como os analistas usam o monitoramento de TI?
As ferramentas de monitoramento de TI são usadas de várias maneiras pelos analistas e não há uma orientação canônica sobre como exatamente elas devem ser utilizadas. Dito isso, em termos gerais, os analistas usam as ferramentas de monitoramento de TI para executar uma infinidade de funções críticas, tais como:
- Monitorar e solucionar problemas de nós de infraestrutura física e virtual, incluindo servidores, hardware de rede e sistemas baseados em nuvem, permitindo que os problemas sejam resolvidos rapidamente.
- Verificar aplicativos em execução em tempo real para garantir o tempo de atividade e acelerar o desenvolvimento em um ambiente de DevOps.
- Aprimorar o processo de tomada de decisões de TI, facilitando a identificação de gargalos, problemas de largura de banda e outros possíveis pontos problemáticos no ambiente de rede.
- Atualizar a visibilidade dos sistemas baseados em nuvem e integrar o monitoramento aos sistemas locais.
- Prever e analisar o impacto das operações de TI nos negócios, inclusive o impacto financeiro.
- Automatizar o gerenciamento de incidentes para reduzir a necessidade de supervisão humana – reduzindo o tempo de resposta e evitando a fadiga de alertas.
Como escolher uma estratégia de monitoramento de TI?
Se você estiver pronto para lançar sua própria estratégia de monitoramento de TI, aqui está um guia passo a passo para começar:
- Determine seus objetivos: Você quer apenas ser alertado se um único servidor cair ou precisa manter o controle de um ambiente híbrido que envolva hardware local e serviços em nuvem? Deseja integrar sua ferramenta de monitoramento a outros serviços? Deseja ter visibilidade de dados de desempenho específicos? Deseja usar a tecnologia de aprendizado de máquina para automatizar ações corretivas? As respostas a essas perguntas terão um grande impacto sobre a complexidade das ferramentas de monitoramento que você deve considerar.
- Traga os líderes de negócios para a equipe: Em conjunto com a etapa 1, você deverá envolver as partes interessadas fora da organização de TI para obter a adesão de seus objetivos de monitoramento de TI também. Consolide essas necessidades com as necessidades de monitoramento da TI para criar uma única lista de metas.
- Identifique os principais recursos de que você precisa: A maioria das ferramentas de monitoramento oferece recursos básicos, como relatórios e visualização por meio de painéis, mas eles variam em termos de sofisticação. Se você tiver uma necessidade especial de retenção de dados ou quiser insights em tempo real e orientados por aprendizado de máquina, esses tipos de recursos também indicarão o caminho para suas próprias soluções específicas.
- Identifique as fontes de dados que podem ser usadas: Essas fontes de dados podem variar de registros de serviço a dados de máquina e fontes de dados de terceiros. Seja o que for que você esteja tentando monitorar, deve haver pelo menos uma fonte de dados relevante relacionada a isso. Enumere todas essas fontes para que você possa garantir que qualquer ferramenta considerada ofereça as informações desejadas.
- Avalie as ferramentas em uma base experimental: Munido de tudo isso, você não precisa se atirar de cabeça no primeiro provedor de monitoramento de TI que lhe parecer adequado. A maioria dessas ferramentas está disponível em caráter experimental, para que você possa ver se elas funcionarão bem em seu ambiente antes de decidir. Isso é particularmente verdadeiro para as ferramentas que são oferecidas como um serviço, por assinatura.
Quais são as práticas recomendadas para o monitoramento de TI?
O monitoramento de TI é uma tarefa enorme e, para ser bem-sucedido, é útil seguir algumas práticas recomendadas, incluindo ser cuidadoso com a maneira como os alertas são configurados, criar painéis para ajudar a simplificar o monitoramento, adotar a redundância e manter os olhos abertos para anomalias e exceções.
- Tenha cuidado ao configurar alertas: A “fadiga de alertas” é um fenômeno real em que o excesso de alertas sobrecarrega a equipe de TI e pode fazer com que ela se desligue e perca informações importantes. Certifique-se de criar um sistema e uma cadência que não alertem e distraiam a equipe quando não for necessário envolvê-la.
- Categorize os alertas por nível de gravidade: Alguns alertas de menor gravidade podem ser encaminhados para analistas juniores (ou possivelmente tratados automaticamente), enquanto os alertas mais graves devem ser encaminhados imediatamente para analistas seniores com um alerta para a gerência. Crie níveis de alerta que envolvam as pessoas certas no momento certo.
- Determine como os alertas devem ser entregues: Os alertas podem ser enviados por e-mail, por texto ou outras notificações móveis ou por telefone. Da mesma forma que você atribui a resposta a diferentes níveis de alerta por gravidade, certifique-se de que o tipo de alerta que o acompanha seja apropriado.
- Dedique tempo para aperfeiçoar seus painéis de controle: Um painel de monitoramento de TI bem elaborado pode ser uma coisa linda, além de ser uma ferramenta poderosa para seus analistas, que passarão a maior parte de seus dias interagindo com ele. Dedique o tempo necessário para refinar seus painéis e fornecer as melhores informações possíveis da melhor maneira possível.
- Adote a redundância: Não confie em uma única fonte de dados para determinar o desempenho de um sistema ou serviço essencial. Ter uma fonte secundária de dados pode, por exemplo, ajudá-lo a entender se um servidor caiu ou se você apenas perdeu o acesso a ele.
- Fique de olho nas exceções: O objetivo do monitoramento de TI é garantir que seus sistemas estejam funcionando da melhor forma possível. É possível que a maioria dos usuários tenha um desempenho adequado ou bom e, ao mesmo tempo, uma minoria esteja obtendo resultados extremamente negativos. Se você observar apenas a média ou os números médios, poderá perder os valores discrepantes que podem indicar problemas importantes.
Fonte:

Douglas Bernardini
Cybersecurity Specialist & Cloud Computing Expert with +10 years experience in IT infrastructure.
Specialist delivering assets for development teams in Google Cloud Platform (GCP) and Amazon web services (AWS)
Hands-on cloud security enterprise architect, with experience in SIEM/SOC, IAM, cryptography, pentest, network topologies, operating systems, databases, and applications.
Experience in DevSecOps analysis to discover vulnerabilities in software, identifying CI/CD risks gaps and recommending secure-coding process (S-SDLC).