Monitoramento do seu ambiente on-premise

Ao instalar o Blazon em sua infraestrutura on-premise é importante que você tenha visibilidade sobre os componentes que estão em execução.

Público alvo deste guia

Analistas de infraestrutura, Analistas de Segurança da Informação, Analistas IAM, ou qualquer outro profissional que será responsável pela infraestrutura do Blazon em sua organização.

O que é este guia?

Este guia tem como objetivo fornecer as informações necessárias e o direcionamento para que você possa monitorar o seu ambiente.

O que este guia não é?

Esse guia não tem como objetivo ser um guia definitivo, ou seja, você ainda pode e deve aplicar as diretrizes e métodos de trabalho direcionados pela sua equipe de aplicações e infraestrutura.

O que devo monitorar?

O Blazon possui um conjunto de componentes e é importante que tenhamos o monitoramento adequado dos mesmos. Além disso, é necessário monitorarmos os componentes que o Blazon depende, como MySQL, Elasticsearch e ActiveMQ.

Infraestrutura

No aspecto infraestrutura, sugerimos que você faça o monitoramento dos itens abaixo em todos os servidores que possuem algum componente do Blazon instalado:

  • CPU

    • Uso médio e picos de uso

    • Load Average

  • Utilização de memória

    • Uso total

    • Uso de swap

  • Utilização de disco

    • Espaço livre (por partição)

    • Uso de inodes

  • Placa de Rede

    • Erros, colisões ou pacotes descartados

    • Conexões ativas

MySQL

Para o banco de dados MySQL, é importante o monitoramento de:

  • O próprio processo MySQL

  • Queries acima de 10 segundos (monitoramento pode ser efetuado por meio do slow_query)

  • Conexões ativas (Threads Connected)

  • Conexões em execução (Threads Running)

  • Conexões abortadas por erro

Alertas importantes para o Mysql

  • CPU com utilização média > 90%

  • Uso de SWAP, independente de quanto

  • Disco disponível < 10% na partição de dados

  • Latência de rede > 20ms

  • Importante verificar se o número de conexões em execução está próximo do limite máximo.

Elasticsearch

Além do monitoramento de infraestrutura, que já informa uma série de informações válidas, é importante avaliar:

  • O próprio processo Elasticsearch

  • Cluster Health Status (a partir do endpoint do próprio Elasticsearch)

  • Na própria JVM

    • Uso do Heap

    • Old GC count / time

      • Aqui, havendo um GC old frequente ou demorado é necessário fazer um tunning de memória ou algum outro componente que esteja falhando.

Alertas importantes para o Elasticsearch

  • Cluster status RED

  • Heap (Java) > 80%

  • CPU com utilização média > 90%

  • Uso de SWAP, independente de quanto

  • Disco disponível < 10% na partição de dados

  • Latência de rede > 20ms

ActiveMQ

  • O próprio processo ActiveMQ

  • Uso do Heap

  • Old GC count / time

    • Aqui, havendo um GC old frequente ou demorado é necessário fazer um tunning de memória ou algum outro componente que esteja falhando.

O ActiveMQ permite a conexão via JMX e a extração de inúmeras outras variáveis que também podem ser consideradas:

  • Número de consumidores

  • Número de mensagens aguardando em fila

  • Número de mensagens expiradas

Nota

Alertas importantes para o ActiveMQ

  • Cluster status RED

  • Heap (Java) > 80%

  • CPU com utilização média > 90%

  • Uso de SWAP, independente de quanto

  • Disco disponível < 10% na partição de dados

  • Latência de rede > 20ms

Blazon Single Server e demais componentes Blazon

Para o processo do Blazon Single Server, ou no caso do deploy de alguma das aplicações Web em máquina virtual separada, é importante monitorarmos:

  • O próprio processo Blazon

  • Na própria JVM

    • Uso do Heap

    • Old GC count / time

      • Aqui, havendo um GC old frequente ou demorado é necessário fazer um tunning de memória ou algum outro componente que esteja falhando.

Alertas importantes para o Blazon Single Server

  • Heap (Java) > 80%

  • CPU com utilização média > 90%

  • Uso de SWAP, independente de quanto

  • Disco disponível < 10% na partição de dados

  • Latência de rede > 20ms

Resource Adapters

Para a máquina virtual que hospeda os serviços de integração, sugerimos os seguintes alertas:

  • Heap (Java) > 80%

  • CPU com utilização média > 90%

  • Uso de SWAP, independente de quanto

  • Disco disponível < 10% na partição de dados

  • Latência de rede > 20ms

Alertas

Além do monitoramento da infraestutura e aplicações, o Blazon possui uma funcionalidade de monitoramento da aplicação que pode auxiliar no descobrimento de possíveis falhas. Esse monitoramento permite a análise de:

  • Status do serviço SMTP

  • Monitoramento do envio de emails com falha

  • Monitoramento do envio de SMS com falha

  • Falha de algum Job

Estes monitoramentos podem ser habilitados e pode notificar sua infraestutura de monitoramento por meio de Syslog ou pode até mesmo notificar a equipe responsável por meio de mensagens em canais do Microsoft Teams ou Slack.

Nota

Last updated

Was this helpful?