Qu’est-ce que le troubleshooting ?

Le troubleshooting (ou dépannage) est un processus de recherche logique et systématique de résolution de problème. Le troubleshooting consiste en une recherche de la source d'un problème afin d’en identifier les symptômes et en éliminer les causes potentielles, jusqu'à sa résolution. Découvrez comment accélérer le diagnostic des incidents avec Log Analytics

Télécharger le Guide : Observability & Management

Webinar Oracle Security Week

Qu’est-ce que le troubleshooting ?

Le troubleshooting (ou dépannage) est un processus de recherche logique et systématique de résolution de problèmes concernant des machines complexes, de l'électronique, des ordinateurs et des systèmes logiciels. Le troubleshooting consiste en une recherche de la source d'un problème afin d’en identifier les symptômes et en éliminer les causes potentielles, jusqu'à sa résolution.

Qu’est-ce que le troubleshooting ?

En général, le troubleshooting (ou dépannage) est l'identification ou le diagnostic d'un "trouble" dans le flux de gestion d'une entreprise ou d'un système causé par une panne quelconque. Le problème est d'abord décrit par des symptômes de dysfonctionnement et le troubleshooting est le processus qui consiste à déterminer et à remédier aux causes de ces symptômes.

Un système peut être décrit en termes de son comportement attendu, désiré ou prévu. On s'attend à ce que les événements ou les intrants du système produisent des résultats ou des extrants précis. Tout comportement inattendu ou indésirable est un symptôme. Le dépannage consiste à isoler la ou les causes spécifiques du symptôme. Souvent, le symptôme est l'incapacité du produit ou du procédé à produire des résultats. Des mesures correctives peuvent alors être prises pour prévenir d'autres défaillances de même nature.

Comment fonctionne le troubleshooting ?

La première étape du dépannage consiste à recueillir des informations sur le problème: un comportement indésirable ou un manque de fonctionnalités attendues, par exemple. Les symptômes connexes et les circonstances spéciales sont, entres autres, des renseignements importants pour rejouer le scénario.

Une fois que le problème et la façon de le reproduire sont compris, l'étape suivante consiste à éliminer les composants inutiles du système. L’idée est de vérifier que le problème persiste, et ainsi d'exclure l'incompatibilité et les causes tierces. Puis, les causes communes sont vérifiées. Elles peuvent être plus ou moins rapidement identifiées selon l’expérience du dépanneur (troubleshooter) et le type de problème.

Une fois les causes communes exclues, le troubleshooter recourt au processus plus systématique et logique de vérification de la fonction attendue des parties d'un système. L'une des méthodes les plus courantes est le troubleshooting en deux moitiés (split-half troubleshooting) : avec un problème résultant d'un certain nombre de pièces possibles en série, on teste à mi-chemin dans la ligne de composants. Si le composant central fonctionne, on va au milieu des parties restantes, en s'approchant de l'extrémité. Si le test trouve un problème au milieu de la ligne, on fait une fente vers le début de la ligne jusqu'à ce que la partie problème soit trouvée. Le processus split-half peut faire gagner du temps dans les systèmes qui dépendent de nombreux composants.

Quand la pièce défectueuse est identifiée, elle peut être ajustée, réparée ou remplacée. Un troubleshooting est efficace lorsque le problème ne se produit pas à nouveau et que la fonction est rétablie.

Comment Log Analytics peut accélérer le diagnostic des incidents ?

Considérant la volumétrie des fichiers logs, entres autres aspects, il est très difficile d’exploiter de manière utile ces données si l’on n’a pas un outil d’analyse puissant. Utiliser Log Analytics permet d’isoler rapidement une anomalie parmi des centaines de milliers de lignes de fichiers log et des milliers de composants déployés. En quelques clics, l’administrateur IT peut identifier des erreurs systèmes ou applicatives grâce à l’exploitation d’algorithmes de Machine Learning qui sélectionnent le nombre d’entrées de log pertinents à interpréter.

Par exemple, imaginons qu’un SI a généré plus de 11 millions de lignes de log pendant 1 semaine à travers les différents composants qui constituent les différentes couches technologiques et applicatives. Pour détecter un incident survenu durant cette période, la fonction de Clustering de Log Analytics pourra classifier toutes ces lignes en modèles (patterns) et réduire ainsi les occurrences. Finalement, en quelques secondes, les algorithmes peuvent vous permettre de ne garder que 607 lignes pertinentes sur les 11 millions de lignes de logs ! Avec le travail de l’équipe IT, vous pouvez encore éliminer certaines lignes et n’en garder que la moitié. Ce nombre peut continuer de diminuer si vous focaliser votre recherche sur un type de composant, un type d’erreur ou une application donnée grâce aux filtres à votre disposition.

Découvrez les solutions d’IT Operations Management & Analytics