Supervision informatique : comment configurer les alertes et les notifications ?

En tant que chef de projet, décisionnaire ou membre d’une équipe technique d’une entreprise, il est primordial de toujours avoir un œil sur l’état de santé sur son infrastructure informatique et d’être alerté en cas d’incidents. La supervision informatique vous permet de rester en alerte.

La problématique est de savoir quel évènement devra déclencher une alerte et par quel média la diffuser. Il est également important de bien définir ses seuils d’alertes, pour ne pas crouler sous les milliers de messages.

Chez YPSI, nous sommes amenés à mettre en place ces dispositifs pour nos clients. En nous appuyant sur nos différentes expériences, dans cet article, nous allons vous expliquer comment vous pouvez vous aussi le faire. 

Configurer des alertes et des seuils

Une bonne configuration de vos seuils d’alertes assure des notifications pertinentes, qui permettent de réagir rapidement. Si vous les réglez mal, vous risquez d’être spammé d’alertes utiles comme inutiles, ce qui augmente la propabilité de passer à côté d’informations importantes dites “critiques”.

Pour éviter cela, la première étape est de bien comprendre le fonctionnement de vos environnements informatiques. Comment avoir une alerte pertinente si on ne comprend pas ce qu’on supervise exactement ?

Prenons l’exemple de deux serveurs. Le premier fait tourner des applications gourmandes en CPU*, par conséquent, il voit sa charge CPU atteindre régulièrement plus de 80 %. Du coup, il n’est pas pertinent de mettre une alerte lorsque la charge dépasse 80 %, car malgré que ce soit élévé, ça reste un phénomène « normal ». Ainsi, il vaudrait mieux placer le seuil à une valeur minimum à 90 %.

L’autre serveur est un petit serveur web qui sert à héberger une page web vitrine. Pour un site web, le plus important est qu’il reste accessible en permanence. Mettre une alerte en cas de problème d’accès à cette page (code HTTP 4xx,5xx, ou latence trop élevé) est un bon début. Pas la peine d’être alerté si le CPU de ce serveur web dépasse 80%, ça ne nous indiquera pas vraiment si le site est fonctionnel ou non.
Attention, ça n’empêche pas de superviser la charge CPU ! Superviser le système du serveur (CPU, Disques, RAM, réseau..) permet d’analyser ce qui a pu causer d’éventuelles pertes d’accès à notre site Web.

Certains seuils sont voués à être modifiés en fonction de l’utilisation. On ne peut pas toujours deviner les charges CPU comme dans l’exemple ci-dessus. Les environnements et les applications évoluent, les besoins et les charges également. À nous de s’adapter.

Une fois nos seuils d’alertes bien définis, il faut les faire parvenir aux bonnes personnes.

Configurer des notifications

Il existe plusieurs moyens de recevoir des alertes. Les outils de supervision en proposent quelques-uns par défaut, notamment les e-mails. Chez YPSI, nous préférons largement passer par des messageries instantanées, type Telegram ou Teams, pour recevoir nos alertes.

L’avantage de ces médias, c’est qu’il est plus facile de donner l’accès aux alertes aux bonnes personnes. On peut créer plusieurs canaux ou groupes de discussion et rediriger les alertes sur ces canaux. De plus, ils offrent généralement un large choix de fonctionnalités intéressantes qui rendent les notifications plus poussées.

Prenons le cas de YPSI. En interne nous utilisons beaucoup Telegram, donc nous avons choisi d’y recevoir nos notifications. Nous avons plusieurs groupes d’alertes : un groupe d’alerte technique qui concerne les performances de nos infrastructures, et un groupe d’alerte plus orienté marketing qui va recevoir les alertes concernant notre site internet. De cette manière, une fois qu’un nouveau membre rejoint une équipe, il peut facilement être ajouté au canal de notification sur son domaine.

Notifications Télégram
Source : Victor COUMAILLEAU

Nous sommes également aller plus loin en profitant des possibilités de Telegram. En effet, nous avons créé un bot interactif qui permet d’avoir plus d’informations sur ces alertes et de les acquitter au besoin.

Bot Télégram
Source : Victor COUMAILLEAU
Service Bot Télégram
Source : Victor COUMAILLEAU

Conclusion

La supervision est un outil indispensable dans toute infrastructure informatique. Pour la rendre efficace, il est important de bien définir les points critiques de ses systèmes pour être alerté.

Mettez trop d’alertes, vous serez noyés de notifications et vous allez saturer votre boite mail. Ne pas en mettre assez et vous risquez de louper un incident critique, comme un site Web inaccessible. Il vaut mieux être alerté par sa supervision pour pouvoir être prompt à réagir rapidement et efficacement.

De plus en plus d’entreprises utilisent des messageries instantanées pour communiquer entre les équipes. Servez-vous de ces messageries pour y intégrer vos alertes de supervision.

Pour vous aider à mettre en place ces différents dispositifs, n’hésitez pas à contacter YPSI SAS !

*unité centrale de traitement AKA le processeur de l’ordinateur ou serveur

Partagez cet article :

Laisser un commentaire