La función principal de los centros de monitoreo es estar observando la salud de los sistemas y notificar a los equipos técnicos cuando se detecta un problema para que lo solucionen… pero, ¿Qué pasa si el equipo técnico no lo soluciona rápidamente?
El centro de monitoreo no sólo debería notificar a los especialistas cuando detecta una situación de riesgo, si no que además mantener un protocolo de seguimiento activo con distintas acciones dependiendo cuanto tiempo pase.
Fácil decirlo, difícil hacerlo, sobre todo cuando se tiene un volumen alto de alertas. Por cada alerta habría que:
- Tener identificada la criticidad de la alerta.
- Tener a mano la matriz de notificaciones
- Dependiendo el impacto y la duración alerta, activar el protocolo asociado.
- En paralelo, seguir atendiendo todas las alertas nuevas.
Un proceso de gestión de incidentes útil debería acortar los tiempos de respuestas/solución, automatizando ciertas acciones del proceso.
¿Qué deberías hacer para mejorar el proceso de gestión de incidentes?
Te recomendamos 4 focos de acción:
- Automatizar la identificación y asignación del incidente:
Saber y tener registro automático de las características del problema, por ejemplo: criticidad, servicio afectado, grupo idóneo para solucionar. Si aún usas planillas manuales preocúpate.
2. Que sea accesible ver el seguimiento del problema.
Tener en un solo lugar datos en vivo como: quien está resolviendo el tema, si fue enterado, si está resolviendo o ya se solucionó, saber si el incidente cambió de criticidad. Ideal que no debas meterte a revisar más de 2 plataformas, cada minuto cuenta.
3. Intenta tener notificaciones por los canales adecuados.
La disponibilidad del resolutor depende mucho de por donde se le avisa que existe un problema. No es recomendable enterarse por correo, es preferible una llamada, un mensaje por aplicación o notificar por chats corporativos.
4. Controla los tiempos de SLA’s para priorizar.
Es clave contar con los tiempos límites para notificar un problema, distinto es saber cuando no se ha resuelto ciertos eventos que son críticos para continuidad operacional. Te recomendamos medir los tiempos y definir protocolos de acción cuando no se soluciona un incidente.
¿Cómo ayuda 24Cevent en controlar los SLA’s?
Este proceso realizado de forma manual es muy propenso a errores, por este motivo, en 24cevent hemos implementado un módulo de SLA que permite automatizar este proceso.
Vista de SLA:
Por cada alerta y su contexto (criticidad, servicio impactado, ubicación, tipo de alerta, etc.), se pueden establecer reglas de SLA. Ejemplo:
- Si en 15 minutos nadie confirma que está trabajando en el incidente (SLA atención), llamar al jefe de área.
- Si en 1 hora no se soluciona el incidente (SLA solución), llamar al jefe de área.
- Si en 2 horas no se soluciona el incidente (SLA solución), llamar al ejecutivo de cuenta del cliente.
- Si en 8 horas no se soluciona el incidente (SLA solución), llamar al gerente.
Ejemplo de configuración SLA
Se pueden configurar múltiples reglas, todas complementarias según las necesidades y el contexto de cada alerta
Esta funcionalidad de 24cevent es una gran mejora a la gestión de incidentes, ya que permite automatizar acciones dependiendo el tiempo que transcurra entre la detección hasta la atención/solución de una alerta.
Para más información visita el sitio web de la solución 24cevent
Si tienes dudas o quieres recibir orientación, puedes coordinar directamente en: