Détection et prédiction d'anomalies | AU NOUVEAU Blog

décembre 6, 2021

Avec l'augmentation gigantesque de grandes quantités de données à travers le monde, il a été nécessaire pour les entreprises de s'assurer qu'elles tirent des enseignements des données collectées. Alors que les outils statistiques traditionnels ont toujours été une étape préalable dans l'évaluation des données, l'application de l'analyse et de l'apprentissage automatique est devenue de plus en plus importante pour obtenir des prédictions. Bien que les données soient disponibles en gros morceaux, la présence de pléthore de données indésirables peut créer des ravages dans l'analyse. L'analyse étant aujourd'hui en temps réel, des actions doivent être menées sur les données pour vérifier les anomalies pouvant fausser les résultats. Si ces anomalies ou valeurs aberrantes disparaissent, il doit y avoir des mécanismes pour détecter et atténuer leur influence.

La détection d'anomalies n'est pas un concept ou une technique nouveau, elle existe depuis plusieurs années et est une application courante de l'apprentissage automatique. Les exemples réels de ses cas d'utilisation incluent (mais sans s'y limiter) la détection de transactions frauduleuses, les réclamations d'assurance frauduleuses, les cyberattaques pour détecter les comportements anormaux de l'équipement.

Qu'est-ce que la détection d'anomalies ? étape de l'exploration de données qui identifie les points de données, les événements et/ou les observations qui s'écartent du comportement normal d'un ensemble de données. Des données anormales peuvent indiquer une défaillance du serveur en raison d'une utilisation élevée de la mémoire, d'un dépassement des limites d'utilisation, de problèmes techniques, etc. La conception d'algorithmes d'apprentissage automatique modernes est une demande pour l'ère d'aujourd'hui pour automatiser la détection et la prédiction des anomalies.

La principale exigence pour toute détection d'anomalie réside dans sa capacité à analyser les données de séries chronologiques en temps réel. Si diverses fonctionnalités sont disponibles, la détection des anomalies peut être effectuée à l'aide de techniques de régression multivariée, cependant, l'analyse basée sur des séries chronologiques est la plus fiable. Parler de séries temporelles, est composé d'une séquence de valeurs sur des intervalles de temps. Il comprend principalement deux variables : un horodatage de la mesure métrique et de la valeur métrique à cet horodatage particulier. Il peut être analysé sur une semaine, un mois, une année, des secondes et des minutes.

Les données de séries chronologiques donnent une intuition à quoi ressemble la tendance historique et quelles pourraient être les valeurs futures. La détection des anomalies s'appuie sur une série d'algorithmes de science des données qui peuvent dévoiler les valeurs aberrantes des métriques KPI clés et peuvent alerter les équipes concernées pour qu'elles prennent les mesures nécessaires. le monde et l'augmentation des données, les besoins en serveurs sur site ou sur le cloud ont considérablement augmenté. Ces serveurs sont associés à des métriques telles que le processeur, la mémoire, le disque, etc.

L'industrie informatique est considérée comme une industrie mondiale dans laquelle ils ont tendance à utiliser divers types de serveurs et leurs métriques telles que le processeur, la mémoire, etc. Ceux-ci sont souvent considérés comme les actifs les plus critiques pour les opérations. Par conséquent, l'intégrité et la fiabilité de ces équipements sont souvent au cœur de leurs programmes de gestion des actifs.

Le principal problème réside dans la fiabilité de ces actifs, car il s'agit de serveurs basés sur la production et leur défaillance peut entraîner une perte considérable de argent et faible valeur de la marque.

Par conséquent, il doit exister un système robuste de détection des anomalies qui peut détecter les anomalies en temps réel et les prédire pour l'avenir afin que des mesures correctives soient prises au bon moment et que des alertes soient générées pour les équipes appropriées. pour prendre les mesures nécessaires.

Portée du projet

La portée du projet consiste à rassembler les données de différents serveurs HAWK et à détecter les valeurs aberrantes/anomalies présentes dans les données pour une métrique particulière en fonction de la sélection des limites inférieures souhaitées et de la bornes supérieures. Tout point de données inférieur à la limite inférieure et supérieur à la limite supérieure est considéré comme une anomalie ou un point de données anormal. En outre, nous devons prédire les futures limites supérieure et inférieure et prédire les futures anomalies possibles pour les prochaines 24 heures environ. serveurs, nous avons essayé différentes techniques et méthodes de détection et de prédiction d'anomalies. Les méthodes utilisées sont les suivantes :

Interquartile Range (IQR)
Detection and Forecasting using Fbprophet
Anomaly Detection using Autoencoders
Isolation Forests

L'approche qui a été utilisée pour faire avancer le projet a été la boîte à outils FbProphet en tant que tson algorithme gère correctement différents paramètres de saisonnalité tels que mensuels ou annuels, et il prend en charge nativement les métriques de séries chronologiques. De plus, son algorithme peut bien gérer les cas limites par rapport à l'algorithme Isolation Forest. De plus, Prophet est la technique la plus récente pour la détection et la prédiction d'anomalies et est moins susceptible aux erreurs. La bibliothèque de Prophet s'est avérée plus efficace pour prédire les futures limites, ce qui signifie que toute valeur ou point de données sortant de ces plages spécifiées sera une anomalie. De plus, chaque fois qu'un nouveau point de données sera hors des limites, le modèle déclenchera une alerte et générera immédiatement un e-mail à l'équipe afin que l'anomalie puisse être traitée. La meilleure caractéristique réside dans le fait qu'il nous donne la possibilité de définir des intervalles personnalisés et de faire des prédictions et des limites pour les périodes futures qui peuvent être validées par rapport aux données en temps réel pour générer des alertes selon nos besoins.

Le modèle est intégré. une manière qu'il est complètement personnalisable. Le modèle est entraîné en fonction de divers paramètres qu'il prend comme entrée de l'utilisateur comme ci-dessous : –

Resource ID ou Dataset IP : L'utilisateur peut choisir l'IP du serveur (Resource ID) pour lequel l'utilisateur doit voir les graphiques d'anomalie.

Project ID/Project Name : – Chaque serveur est associé à un ID de projet et un nom de projet uniques

Durée : L'utilisateur peut choisir la durée/granularité souhaitée s'il souhaite que le modèle soit formé après quels intervalles de temps. La valeur de durée peut être n'importe quoi comme 15 s, 30 s, 45 s, 1 min, 5 min ou 15 min, etc. en fonction des besoins. Le choix d'une granularité élevée coûterait cher au calcul et pourrait augmenter le temps d'exécution.

Metric : La métrique donne à l'utilisateur la possibilité de choisir parmi les différentes métriques disponibles pour lesquelles l'utilisateur souhaite voir les anomalies détectées ou les bornes de prédiction future. Une métrique peut être n'importe quoi comme cpu_utilization, memory_utilization, disk_space, etc.

Incremental Factor : si l'utilisateur souhaite voir des points de données extrêmes, le facteur bêta donne à l'utilisateur la possibilité d'étendre bornes supérieures. Le facteur incrémentiel sera multiplié par les valeurs limites actuelles afin que ces limites puissent être étendues. Cela aidera à ne pas détecter ces valeurs comme des anomalies qui sont en dehors mais juste à côté des limites.

Architecture

La vue d'ensemble de l'architecture du diagramme peut être expliquée comme ci-dessous : peut créer les alarmes d'anomalie en fonction de sa propre personnalisation. Il sélectionne principalement l'ID du projet, l'ID de la ressource, la métrique, la durée et le facteur incrémentiel pour la création de l'alarme.
Une fois que cette alarme d'anomalie est déclenchée, elle crée un modèle défini par l'utilisateur.

Le modèle est entraîné et téléchargé dans le Seau S3.

Simultanément, les valeurs des limites sont stockées dans InfluxDB qui est une base de données de séries temporelles.

Ces limites prédites et le modèle peuvent être utilisés pour déclencher une alerte lorsqu'une anomalie est rencontrée en temps réel.[19659018]Si l'utilisateur souhaite afficher la tendance, les données historiques et les prévisions futures, il peut utiliser les modèles pour créer des visualisations.

Futur Use Case

La solution a été conçue de manière à pouvoir être intégrée avec n'importe quel serveur et toutes les métriques définies. Différents composants ont été séparés tout en définissant l'architecture de la solution globale. Par conséquent, à l'avenir, si un client souhaite utiliser ce cadre pour la détection et la prédiction d'anomalies, les composants de science des données peuvent être réutilisés, intégrés et déployés dans les locaux du client. De plus, les solutions proposent différents modèles à construire et à stocker sur S3 ce qui permet de garder une trace de chaque modèle avec chaque métrique. De plus, cette solution peut également être utilisée pour les clients où l'analyse des séries chronologiques est utilisée pour la prévision. Le cadre actuel peut être utilisé pour identifier les valeurs aberrantes ou les anomalies et les traiter efficacement.

VOUS AVEZ TROUVÉ CELA UTILE ? PARTAGEZ-LE

Source link

Portée du projet

Architecture

Futur Use Case

Partager :