Esses dias estava pensando no nosso universo de infraestrutura, cloud e DevOps. Reparei que existem diversas ferramentas que fazem, basicamente, as mesmas coisas. E, tratando-se de monitoramento/observabilidade, isso fica ainda mais complicado.
Porém, na minha experiência, vi clientes que têm stacks muito complexas e de telas maravilhosas, mas não conseguem nem mesmo capturar o básico, como disco cheio e expiração de certificado SSL.
Por isso, pensei neste artigo para quem quer começar com o feijão com arroz bem feito e integrado com a equipe de NOC, para reportar.
Vou sugerir algumas ferramentas para começar e garantir o básico bem feito. Depois, com a necessidade do negócio, vamos evoluindo a stack.
Para ficar mais didático, vou separar a infraestrutura on-premises e cloud-native, e vou explicando quais ferramentas utilizo em cada cenário.
1- Zabbix
O Zabbix é uma plataforma de monitoramento de código aberto, poderosa e flexível, que permite monitorar diversos recursos de infraestrutura, como servidores, redes, aplicações e serviços.
Eu gosto do Zabbix porque a instalação é fácil e o painel de gerenciamento da ferramenta é bastante amigável. Além disso, é muito fácil integrá-lo com outras ferramentas, como um ótimo exemplo, o Grafana.
Para garantir a disponibilidade e a saúde dos seus ativos de infraestrutura, o Zabbix é uma excelente ferramenta para iniciar sua jornada de monitoramento.
2- Prometheus
O Prometheus é uma plataforma de monitoramento Open Source, focada em métricas de Time Series.
Ele se destaca por sua abordagem orientada a métricas, tornando-o uma escolha popular para monitoramento de ambientes modernos, como aplicações em contêineres e infraestrutura baseada em cloud.
Hoje, com a adoção crescente do Kubernetes nas empresas, o Prometheus se destaca como uma excelente opção de ferramenta de monitoramento. A configuração do Prometheus para monitorar o cluster Kubernetes é bastante tranquila, e o volume elevado de métricas não é um problema para essa plataforma.
Além disso, a integração com o Grafana é muito fácil, permitindo a criação de dashboards robustos para visualização e análise das métricas. O Prometheus também conta com diversos exporters já disponíveis, fornecendo um conjunto abrangente de métricas prontas para uso.
3- Grafana
O Grafana é uma plataforma de visualização e análise de dados, amplamente utilizada para criar dashboards e painéis de monitoramento.
O Grafana se destaca por sua capacidade de unificar a visualização de dados de diversas fontes, tornando-o uma ferramenta essencial para o monitoramento e a análise de ambientes complexos de TI.
O aspecto interessante do Grafana é que ele se integra com uma ampla variedade de fontes de dados, facilitando muito a criação de dashboards para monitorar a saúde dos seus ativos de infraestrutura ou aplicações. Essa capacidade de integração também permite a construção de painéis personalizados para acompanhar métricas relevantes para as regras de negócio da sua empresa.
Para integrar os alertas e a gestão de incidentes, utilizo a plataforma 1P (One Platform), desenvolvida pela Elvenworks.
4- One Platform (1P)
Sei que algumas pessoas poderiam considerar alternativas como PagerDuty ou OpsGenie, mas a One Platform (1P) é uma solução nacional que entrega tudo o que eu preciso para a gestão eficiente de incidentes. Além disso, a One Platform (1P) integra-se facilmente com outras ferramentas como Slack, Microsoft Teams, Discord e WhatsApp, facilitando a comunicação e o gerenciamento dos incidentes.
A 1P vai além da simples integração de alertas e gestão de incidentes. Ela também oferece recursos avançados, como a capacidade de fazer ligações e criar salas de war room, ampliando ainda mais as possibilidades de colaboração e resposta rápida a problemas. Essa combinação de funcionalidades abrangentes e integração com diversas ferramentas torna a 1P uma solução completa e eficaz para a minha equipe.
As ferramentas que mencionei anteriormente (Zabbix, Prometheus, Grafana e 1P) representam uma visão inicial para quem deseja começar a monitorar a saúde do seu ambiente e receber alertas, notificando as equipes responsáveis ou de forma automatizada. Quando esse monitoramento básico estiver funcionando de forma eficiente, você perceberá a necessidade de avançar para soluções mais completas, envolvendo recursos de tracing e logs, proporcionando uma visão holística da sua infraestrutura e aplicação.
No entanto, a decisão de adotar essas soluções não deve ser tomada de forma aleatória, e sim com base em fatos e necessidades reais do seu negócio.
Espero ter contribuído com algo útil, lembrando que esta é a minha opinião sobre o assunto.
Não esqueça de nos seguir nas redes sociais e, caso precise de algum apoio adicional, entre em contato conosco.
https://www.linkedin.com/company/deltaopscloud/
Escrito por 🖋️ Diogo Lima
Sócio Fundador da Empresa DeltaOps