O MonOps traz uma variedade de funcionalidades que visam facilitar o dia a dia da sua gestão de TI. O Dashboard de Eventos é um dos principais recursos, já que viabiliza uma visão ampla do seu ambiente monitorado, dando indicativos relevantes para orientar ação do seu time.
Neste tutorial, estaremos entendendo o Dashboard de Eventos do MonOps, cada um dos indicadores que o compõe e como podem ser interpretados para o benefício do seu negócio.
Para fins deste tutorial, iremos usar um exemplo para orientar a análise sobre as métricas.
1. Hosts Monitorados
O gráfico de Hosts Monitorados fornece o acompanhamento do crescimento do ambiente no período de 12 meses.
Isso é importante pois orienta uma visão correlacionada com os outros indicadores. No exemplo acima, é possível perceber os hosts não apresentam muitas variações, com exceção do mês de outubro.
O motivo de isso ter ocorrido pode ser verificado com mais afinco ao ser associado aos demais gráficos.
Uma dica é recorrer aos Eventos Totais – Mensalmente Acumulados e realizar um comparativo. Digamos que não há muito variação entre os meses de maio e junho.
Neste caso, você pode se fazer a seguinte pergunta: se que variação de eventos entre mês e junho se deu pelo número de hosts ou por que o ambiente está mais estável no último período?
2. Eventos da Semana
Esse gráfico nos indica a sazonalidade dos eventos ao longo do tempo.
No exemplo acima, é possível ver que na segunda-feira da semana anterior, registramos 5259 eventos. Já na última segunda-feira, este número aumentou para 5813.
O que isso indica? Uma alternativa é que algum tipo de massivo que fez com que esses eventos aumentassem.
Novamente, relacione esta informação aos dados que você tem sobre host para que a sua análise seja mais completa.
No momento que entendemos o comportamento do nosso ambiente, o Dashboard de Eventos do MonOps evidencia o que aconteceu e quando.
Seguindo o exemplo, verifique o grande aumento a terça-feira apresentou! Neste caso, é adequado que o gestor saiba por que isso ocorreu e por que na quinta-feira seguinte houve uma queda significativa.
No seu caso, isso indica uma crise ou uma situação regular?
No exemplo apresentado, conseguimos concluir apenas olhando para esse gráfico que o comportamento é normal.
3. Eventos Totais
Essa visão é interessante pois nos conta um pouco da sazonalidade.
Por exemplo, se houve uma queda no mês de junho em comparação ao mês de maio, conforme exemplificado acima, mas verificamos que houve pouca variação nos hosts nesse período, é possível que a diminuição signifique ganho de eficiência.
Isso pode ter ocorrido por uma série de fatores: gestão de problemas, ajustes, ambientes mais estáveis, mais massivos.
Esteja atento ao que esse gráfico apresenta e faça perguntas para o seu time. Isso auxilia para que seja realizada uma gestão efetiva! A partir disto, você compreenderá o que trouxe esse nível de eficiência para o ambiente.
4. Eventos Reconhecidos
Estes indicadores apresentam um comparativo entre os eventos reconhecidos mensalmente.
No exemplo, percebe-se que há uma diminuição. Isso é natural ao consideramos que os eventos totais diminuíram.
Mas se for observado mais atentamente, o número de reconhecimentos não é tão menor proporcionalmente ao número de eventos. O que isso indica? Que mesmo com menos eventos, o time continua atuando com bastante afinco na sua tratativa. Isso aponta novamente para mais eficiência!
5. Itens Totais
Aqui estão os itens totais monitorados e seu comparativo mensal. No exemplo, a diminuição foi ínfima. Isso pode ser atrelado a quantidade de hosts monitorados, ou a descobertas que expiraram nestes hosts.
Neste caso, este gráfico indica que o tamanho do ambiente ainda é o mesmo. O que confirma que a diminuição no número de eventos é sinal de mais eficiência.
6. Eventos Por Nível de Alerta
Aqui você tem uma visão orientadas pelas classificações de severidade do Zabbix. Nos indicadores trazidos pelo MonOps, você é capaz de saber o que apresentou diferença no período de 7 dias.
A tabela apresenta uma ordem de severidade decrescente.
Os alertas de nível alto e desastre são o que apresentam maior impacto. O desastre significa que estamos com o ambiente crítico, já o alto pode significar que ele está degradado.
O alerta médio significa que pode ou não estar havendo algum tipo de impacto. Já o alerta não classificado indica que o impacto não ocorreu. Em contraponto, o alerta de informação apresenta um impacto levemente maior.
Leia mais sobre as classificações aqui.
O que mais chama atenção no exemplo apresenta é o aumento de 343% comparando ontem com 8 dias atrás, no nível de desastre. Os bons indicadores dos Eventos Totais começam a ser reavaliados: por que ocorreram tantos eventos classificados como desastre em relação à semana anterior?
O nível de eventos alto também aumentou, mas o aumento proporcional não foi brusco.
Recomendamos que observe essa tabela olhando os níveis mais críticos, para então considerar os menos críticos.
8. Eventos Por grupo
Com esta tabela, é possível ver quais são os grupos que foram mais afetados no ambiente durante o período de 7 dias. Os indicadores são ordenados por número de eventos e indica uma diferença percentual.
Ao observar esta tabela, você entende se deve ou não analisar o comportamento diretamente no seu Zabbix para ter uma compreensão mais efetiva sobre o que ocorreu com aquele determinado grupo.
Caso você opte por fazer esta busca no Zabbix, indicamos que procure pelo grupo específico que suscitou preocupações.
No exemplo abaixo, o Grupo 5 demonstra uma alteração de 367%, o que deve ser analisado mais profundamente. Este alerta indica que deve ocorrer uma atuação rápida do seu time, já que pode ser sinônimo de uma crise. Se ninguém percebeu, o MonOps identifica isso por você.
Neste tutorial, apresentamos cada um dos indicadores e como eles podem auxiliar na sua gestão de TI. Recomendamos que sempre observe o contexto das métricas apresentadas. Olhe para elas junto, e não isoladamente, para que as informações sejam ainda de mais valor para a sua operação.
Powered by BetterDocs