Monitoramento do seu ambiente on-premise
Ao instalar o Blazon em sua infraestrutura on-premise é importante que você tenha visibilidade sobre os componentes que estão em execução.
Público alvo deste guia
Analistas de infraestrutura, Analistas de Segurança da Informação, Analistas IAM, ou qualquer outro profissional que será responsável pela infraestrutura do Blazon em sua organização.
O que é este guia?
Este guia tem como objetivo fornecer as informações necessárias e o direcionamento para que você possa monitorar o seu ambiente.
O que este guia não é?
Esse guia não tem como objetivo ser um guia definitivo, ou seja, você ainda pode e deve aplicar as diretrizes e métodos de trabalho direcionados pela sua equipe de aplicações e infraestrutura.
O que devo monitorar?
O Blazon possui um conjunto de componentes e é importante que tenhamos o monitoramento adequado dos mesmos. Além disso, é necessário monitorarmos os componentes que o Blazon depende, como MySQL, Elasticsearch e ActiveMQ.
Infraestrutura
No aspecto infraestrutura, sugerimos que você faça o monitoramento dos itens abaixo em todos os servidores que possuem algum componente do Blazon instalado:
CPU
Uso médio e picos de uso
Load Average
Utilização de memória
Uso total
Uso de swap
Utilização de disco
Espaço livre (por partição)
Uso de inodes
Placa de Rede
Erros, colisões ou pacotes descartados
Conexões ativas
MySQL
Para o banco de dados MySQL, é importante o monitoramento de:
O próprio processo MySQL
Queries acima de 10 segundos (monitoramento pode ser efetuado por meio do slow_query)
Conexões ativas (Threads Connected)
Conexões em execução (Threads Running)
Conexões abortadas por erro
Alertas importantes para o Mysql
CPU com utilização média > 90%
Uso de SWAP, independente de quanto
Disco disponível < 10% na partição de dados
Latência de rede > 20ms
Importante verificar se o número de conexões em execução está próximo do limite máximo.
Elasticsearch
Além do monitoramento de infraestrutura, que já informa uma série de informações válidas, é importante avaliar:
O próprio processo Elasticsearch
Cluster Health Status (a partir do endpoint do próprio Elasticsearch)
Na própria JVM
Uso do Heap
Old GC count / time
Aqui, havendo um GC old frequente ou demorado é necessário fazer um tunning de memória ou algum outro componente que esteja falhando.
Alertas importantes para o Elasticsearch
Cluster status RED
Heap (Java) > 80%
CPU com utilização média > 90%
Uso de SWAP, independente de quanto
Disco disponível < 10% na partição de dados
Latência de rede > 20ms
ActiveMQ
O próprio processo ActiveMQ
Uso do Heap
Old GC count / time
Aqui, havendo um GC old frequente ou demorado é necessário fazer um tunning de memória ou algum outro componente que esteja falhando.
O ActiveMQ permite a conexão via JMX e a extração de inúmeras outras variáveis que também podem ser consideradas:
Número de consumidores
Número de mensagens aguardando em fila
Número de mensagens expiradas
Nota
Esses parâmetros podem ser adicionados a sua estrutura de monitoramento, mas de forma geral não são mandatórios para uma correta visão do ambiente.
Alertas importantes para o ActiveMQ
Cluster status RED
Heap (Java) > 80%
CPU com utilização média > 90%
Uso de SWAP, independente de quanto
Disco disponível < 10% na partição de dados
Latência de rede > 20ms
Blazon Single Server e demais componentes Blazon
Para o processo do Blazon Single Server, ou no caso do deploy de alguma das aplicações Web em máquina virtual separada, é importante monitorarmos:
O próprio processo Blazon
Na própria JVM
Uso do Heap
Old GC count / time
Aqui, havendo um GC old frequente ou demorado é necessário fazer um tunning de memória ou algum outro componente que esteja falhando.
Alertas importantes para o Blazon Single Server
Heap (Java) > 80%
CPU com utilização média > 90%
Uso de SWAP, independente de quanto
Disco disponível < 10% na partição de dados
Latência de rede > 20ms
Resource Adapters
Para a máquina virtual que hospeda os serviços de integração, sugerimos os seguintes alertas:
Heap (Java) > 80%
CPU com utilização média > 90%
Uso de SWAP, independente de quanto
Disco disponível < 10% na partição de dados
Latência de rede > 20ms
Alertas
Além do monitoramento da infraestutura e aplicações, o Blazon possui uma funcionalidade de monitoramento da aplicação que pode auxiliar no descobrimento de possíveis falhas. Esse monitoramento permite a análise de:
Status do serviço SMTP
Monitoramento do envio de emails com falha
Monitoramento do envio de SMS com falha
Falha de algum Job
Estes monitoramentos podem ser habilitados e pode notificar sua infraestutura de monitoramento por meio de Syslog ou pode até mesmo notificar a equipe responsável por meio de mensagens em canais do Microsoft Teams ou Slack.
Nota
As opções disponíveis e os passos para configuração, estão disponíveis aqui.
Last updated
Was this helpful?