3 domaines où AIops excelle – et 2 où il est encore insuffisant

L'intelligence artificielle et l'apprentissage automatique peuvent réduire le nombre de fausses alertes qui immobilisent le personnel d'exploitation, accélèrent la résolution des problèmes et aident les développeurs et les architectes à comprendre et à gérer les environnements informatiques basés sur le cloud en évolution rapide.
Mais les DSI devraient le faire. ne vous attendez pas à ce que certains clients appellent des résultats « magiques », tels que la prédiction et la résolution automatiques de tout problème informatique imaginable, ou même simplement l'acceptation de tout journal ou flux d'événements et leur analyse sans aucun nettoyage ni normalisation des données.
AIops est l'utilisation d'artificiel. intelligence pour gérer, optimiser et sécuriser les systèmes informatiques plus rapidement, plus efficacement et plus efficacement qu'avec des processus manuels. Le chercheur de marché Gartner estime que le marché AIops variait entre 900 millions de dollars et 1,5 milliard de dollars en 2020 avec un taux de croissance annuel composé d'environ 15 % entre 2020 et 2025. Outre les plateformes AIops autonomes, de nombreuses technologies d'observabilité, de gestion, et les outils de surveillance s'intègrent aux plates-formes AIops ou ont ajouté des capacités d'IA à leurs produits.
AIops est le meilleur, selon les clients et les analystes, pour analyser rapidement des quantités massives de données provenant de centaines ou de milliers de sources afin de filtrer les alertes les plus importantes ou identifier les tendances sous-jacentes, ainsi que détecter rapidement de nouveaux éléments tels que les interfaces de programmation d'applications (API) qui relient les applications – ces "choses que l'intelligence humaine ne peut plus gérer", déclare Sean Mack, CIO et CISO chez Wiley, un leader mondial de la recherche et l'éducation. Il est idéal, dit-il, pour fournir des informations sur les problèmes informatiques parmi "la croissance exponentielle de la complexité de nos systèmes et services", avec des éléments virtualisés qui "peuvent être là une seconde et ne pas être là une autre seconde".
Mais les efforts d'AIops peuvent échouer si les entreprises ne comprennent pas ses limites. Une utilisation courante et réussie d'AIops consiste à réduire le « bruit » des alertes qui dupliquent d'autres alertes, reflètent des changements normaux dans l'infrastructure informatique ou n'affectent pas les processus métier critiques.
L'analyse intelligente des données opérationnelles peut identifier des points communs. modèles, tels qu'une augmentation du trafic tôt dans la journée lorsque les utilisateurs se connectent ou pendant les clôtures financières trimestrielles, pour comprendre quels modèles sont normaux et lesquels pourraient signaler des problèmes, explique Stephen Elliot, vice-président du groupe chez IDC. Il peut également identifier les problèmes récurrents tels que les serveurs surchargés pour aider le personnel d'exploitation à appliquer un correctif avant que les problèmes n'affectent les utilisateurs. La corrélation de plusieurs alertes à un seul problème sous-jacent peut également réduire la charge du personnel d'exploitation et accélérer l'analyse des causes profondes des problèmes, dit-il.
Alors qu'« au début [its] du parcours AIops » en utilisant la plate-forme d'observabilité de New Relic, le distributeur pharmaceutique AmerisourceBergen a constaté une réduction de deux tiers des alertes qui ne nécessitent pas d'action, permettant à ses ingénieurs de se concentrer sur les problèmes importants, de mieux hiérarchiser les incidents, accélérer l'analyse des causes profondes et augmenter la disponibilité des applications, déclare Paul Stuart, vice-président des opérations informatiques. Chez Wiley, le personnel de Mack a utilisé les capacités AIops de Dynatrace pour réduire le nombre de faux positifs de plus de 50 %. Lorsque des problèmes surviennent, Wiley a réduit son délai moyen de résolution de plus de 37 %, ce que Mack qualifie d'"énorme, énorme amélioration". Tout cela permet à son équipe, dit-il, de consacrer plus de temps à l'amélioration de l'expérience client et à délivrer de nouveaux services innovants.
Veille et traçabilité. AIops peut également permettre au personnel des opérations de suivre plus facilement les modifications de leur environnement informatique, de surveiller ses performances et de gérer de manière rentable des environnements plus vastes. « Nous sommes actuellement au milieu d'une importante acquisition », déclare Stuart. "En tirant parti d'AIops, nous pouvons assumer une charge de surveillance supplémentaire sans augmenter considérablement les effectifs."
Le fournisseur de stationnement d'aéroport Park 'N Fly utilise la plate-forme Dynatrace AIops pour surveiller sa propre infrastructure informatique ainsi que les API qui fournissent des informations provenant de partenaires , comme ceux qui permettent aux clients de suivre l'emplacement de ses navettes et d'acheter l'entretien de leurs véhicules pendant qu'ils voyagent, explique le directeur principal de l'informatique, Ken Schirrmacher. Dynatrace découvre également automatiquement de nouveaux composants tels que les serveurs hébergés par Park 'N Fly dans le cloud, "analyse son comportement tel que les données auxquelles il accède et les autres applications auxquelles il envoie ces données", créant une topologie Web qui suit la façon dont les composants de son système informatique l'infrastructure s'intègre, dit-il.
L'une des utilisations d'AIops chez Wiley consiste à gérer les journaux d'événements non seulement pour observer, mais aussi pour comprendre les raisons de la disponibilité et de la fiabilité de ses systèmes, explique Mack. « La surveillance est devenue dépassée », dit-il. Ce dont il a besoin, c'est « d'observabilité, c'est-à-dire la capacité de poser des questions et d'obtenir des réponses. La surveillance peut vous montrer la latence (des systèmes) à chaque seconde, mais la question que je veux poser est "Pourquoi un utilisateur à Tombouctou a-t-il un problème ?"
Accéder aux causes profondes. AIops est également utile pour accélérer l'analyse des causes profondes des problèmes, en aidant à déterminer "à quelle couche de la carte des services existe (le problème) – au niveau du navigateur, dans la base de données, dans le code (ou) est-ce un sur- problème de réseau local ? » dit Elliott. Wiley met en corrélation les données de toutes les couches de la pile d'applications, y compris les performances des bases de données et des applications et la façon dont les utilisateurs vivent ses applications et services, et a utilisé Dynatrace et d'autres outils pour réduire de 40 % le temps moyen de résolution des problèmes. "Cela signifie de sérieuses améliorations des performances pour nos clients", dit-il.
Plusieurs clients ont averti que l'AIops nécessite une configuration et ne produit souvent pas de réductions de coûts à court terme. "Vous ne verrez pas d'économies initiales" pendant la phase de mise en œuvre, déclare Schirrmacher. "L'avantage est en grande partie sur la route lorsque vous avez besoin de moins d'employés pour gérer votre environnement en pleine croissance, pour l'exécuter de manière optimale, plus besoin de planifier le personnel pour les mises à jour nocturnes ou pour résoudre les pannes, ou pour planifier les mises à jour pendant les vacances.
Où AIops échoue
Faire face aux lacunes de données. Plus un algorithme d'apprentissage automatique dispose de données et de données de meilleure qualité, mieux il peut comprendre et analyser le fonctionnement d'une infrastructure informatique complexe. Le manque de telles données, ou les limites sur les données qu'une plate-forme AIops peut exploiter, peuvent limiter l'efficacité de l'AIops, faisant de la bonne gestion des données un élément crucial du succès de l'AIops. à leur promesse d'accepter nos données "désordonnées" et de les utiliser pour identifier les anomalies et les problèmes au sein de l'infrastructure informatique », déclare Vilius Ellikas, responsable de la fiabilité et de l'observabilité des services de Danske Bank. Danske Bank "voit un potentiel élevé" dans son utilisation de la plate-forme d'observabilité StackState pour agréger, corréler et étiqueter automatiquement les données afin que nos systèmes puissent voir quels composants d'infrastructure prennent en charge quelles applications et quels services ", dit-il. Cela aide la banque à "acquérir les bases avant de passer à la magie de l'apprentissage automatique".
Notified, qui utilise une infrastructure basée sur le cloud pour assurer la communication et l'hébergement des événements et des communications d'entreprise, exécute sa première preuve AIops de concept utilisant les fonctionnalités AIops de Splunk et New Relic, déclare le CTO Thomas Squeo. Alors que AIops est utile pour accélérer l'analyse des causes profondes et l'agrégation des événements, dit-il, Notified agrège toujours les données de performances historiques nécessaires pour prédire la quantité de ressources cloud dont il a besoin pour les événements à grande échelle tels que les conférences sur les relations avec les investisseurs.
Consolidation de la les données opérationnelles requises sur son infrastructure étaient importantes pour AmerisourceBergen. "L'un de nos principaux problèmes était d'avoir des environnements cloisonnés en examinant leur ensemble d'outils et les domaines qu'ils prenaient en charge plutôt que la vue d'ensemble", déclare Stuart. "Maintenant que toutes les données sont centralisées, notre moteur AIops peut corréler les alertes provenant de différentes sources, permettant aux membres de l'équipe AmerisourceBergen de se concentrer rapidement sur le problème principal. En corrélant toutes les données en un seul emplacement, nous pouvons commencer à identifier les modèles qui sont des signes avant-coureurs d'un problème qui se prépare. »
Correction automatisée. La correction entièrement automatisée des problèmes de sécurité, de performances ou d'autres problèmes est un autre domaine dans lequel les AIops peuvent ne pas tenir les promesses des fournisseurs. "AIops est considérablement sous-livraison si les clients veulent une" boîte magique "qui peut trouver instantanément et en continu des problèmes et suggérer le remède idéal pour eux", déclare Gregory Murray, directeur principal de la recherche chez Gartner Inc.
Certains risques, tels que le l'exploitation d'une vulnérabilité de sécurité jusque-là inconnue, sont difficiles, voire impossibles à prévoir, dit-il. "Il est également impossible pour un système d'IA d'évaluer toutes les combinaisons de modifications apportées à l'infrastructure informatique et de prédire de manière fiable l'effet de ces modifications."
« Certaines organisations informatiques commencent à rogner sur ce qu'elles sont à l'aise de corriger automatiquement », déclare Elliott. "Dans certains cas, il s'agit de l'éclatement de nouveaux services ou d'une nouvelle infrastructure" pour empêcher la dégradation des performances lorsque les charges de transaction ou les besoins augmentent, tandis que dans d'autres, il peut s'agir de déplacer automatiquement les services vers une autre région AWS ou un autre ensemble de ressources.[19659002]Notified n'effectue actuellement des corrections automatisées que sur 20 % à 25 % du portefeuille d'applications " … sur une base ajustée en fonction des risques", déclare Squeo. un outil de plus pour des processus informatiques et commerciaux agiles. IDC l'appelle "Analyse des opérations informatiques" et chez Notified, "Nous n'utilisons pas le terme AIops", explique Squeo. "Nous utilisons le terme" devsecops "qui suppose l'existence de bonnes pratiques de surveillance, de notification et d'événement et tire parti de l'AIops dans le cadre de la coopération globale entre le développement et les opérations et la sécurité."
Chez Wiley, l'AIops s'inscrit dans une démarche plus large visant à responsabiliser davantage les équipes qui les développent sur la qualité des applications et des services. "Nous adoptons une approche devops (pour) notre fiabilité et notre gestion", déclare Mack. "En fin de compte, la responsabilité est (avec) les équipes qui construisent les systèmes" qui ont le plus en jeu dans la façon dont elles fonctionnent en production. plutôt que de répondre manuellement aux problèmes au fur et à mesure qu'ils surviennent. "Au fur et à mesure que nous mûrissons, l'accent sera mis sur la visualisation de l'environnement dans une perspective de service qui combinera des composants d'application et d'infrastructure avec des moteurs commerciaux."
Source link