Fermer

octobre 12, 2021

Apprentissage automatique en cybersécurité – OpenText Blogs


Le monde en réseau d'aujourd'hui fait de chaque système une cible facile pour les cyberattaques. Les outils automatisés permettent aux attaquants d'exécuter plus facilement des attaques réussies et une nouvelle menace apparaît presque chaque seconde. Dans cet environnement, il est difficile pour la cybersécurité de suivre le rythme. Selon Cybersecurity Venturesla cybercriminalité devrait causer des dommages d'une valeur de 6 000 milliards de dollars (US) dans le monde en 2021. Les dommages pourraient atteindre 10 500 milliards de dollars par an d'ici 2025.    

Dans l'environnement de cybermenace d'aujourd'hui, cela signifie persister traçage et corrélation de millions de points de données externes et internes parmi les utilisateurs et l'infrastructure de votre organisation. Vous ne pouvez clairement pas le faire avec des personnes seules ; vous avez besoin d'un apprentissage automatique capable de reconnaître des modèles et de prédire les menaces dans des ensembles de données volumineux, le tout à la vitesse d'une machine. Dans ce blog, je vais expliquer pourquoi l'apprentissage automatique (ML) est si crucial, et partager un exemple illustrant le développement d'un algorithme de ML pour identifier les sites Web de phishing.

Pourquoi le machine learning 

À l'aide de modèles de machine learning, les équipes de cybersécurité peuvent détecter rapidement les menaces et les isoler pour une enquête approfondie. L'apprentissage automatique peut examiner des groupes de requêtes ou de trafic réseau présentant des caractéristiques similaires et peut identifier des anomalies. Les algorithmes de ML analysent en permanence les données pour trouver des modèles qui aident à détecter les logiciels malveillants dans le trafic. Il prédit les activités malveillantes et protège les données en détectant les comportements suspects des utilisateurs.

Le bon modèle de ML peut détecter des logiciels malveillants inédits qui tentent de s'exécuter sur les points de terminaison. Il peut détecter de nouveaux fichiers et événements malveillants en fonction des attributs et des comportements des logiciels malveillants connus. Les techniques de ML comprennent la réduction de la dimensionnalité (convertir de nombreuses dimensions en moins), le regroupement (identifier des groupes d'éléments ayant des caractéristiques similaires) et l'échantillonnage statistique. Ils peuvent également nous aider à utiliser des informations statistiques pour développer des bases de référence pouvant fournir des informations utiles sur un comportement normal ou anormal. Ce faisant, nous pouvons utiliser les données pour identifier les variations par rapport à la normale.

Détection d'URL d'hameçonnage à l'aide de l'apprentissage automatique 

L'hameçonnage est un type courant de cyberattaque où un cybercriminel envoie un message frauduleux conçu pour tromper un individu en lui faisant révéler des informations sensibles à l'attaquant ou pour installer un logiciel malveillant sur le l'infrastructure de la cible, comme un ransomware.

Les algorithmes d'apprentissage automatique sont l'une des techniques les plus puissantes et les plus efficaces pour détecter les sites Web d'hameçonnage. Les attaques de phishing ont des caractéristiques communes qui peuvent être identifiées par des méthodes d'apprentissage automatique.

À l'aide d'un ensemble de données composé de caractéristiques ou d'attributs importants d'URL, j'ai pu prédire les sites Web de phishing en implémentant un modèle d'apprentissage automatique. Pour plus d'informations sur l'ensemble de données, consultez le UCI Machine Learning Repository. Vous trouverez ci-dessous l'extrait de code python. J'ai importé cet ensemble de données dans OpenText Magellan Notebook. OpenText Magellan fournit une plate-forme d'analyse prête à l'emploi alimentée par l'IA, qui comprend l'apprentissage automatique, la découverte de données, l'analyse de texte et une visualisation et un tableau de bord sophistiqués. En savoir plus sur Magellan.

Exploration des données 

L'ensemble de données comporte 30 caractéristiques. Ici, j'ai exploré certaines des fonctionnalités. L'URL contient une description détaillée de chaque caractéristique et des valeurs dérivées, en appliquant la condition telle que la longueur, le PageRank, l'index google, l'âge, etc. appliqués aux attributs de l'URL cible.

Ci-dessous se trouve la carte thermique de corrélation, chaque carré montrant la corrélation entre les variables sur chaque axe.

L'algorithme RandomForestClassifier a été adapté à l'ensemble de données d'apprentissage et appliqué à l'ensemble de données de test. Ce modèle a une précision d'environ 97%.

Le rapport de classification présenté ci-dessous est utilisé pour mesurer la qualité des prédictions de l'algorithme. Il affiche la précision, le rappel et le score F1 du modèle. Les métriques sont calculées à l'aide de vrais et faux positifs et de vrais et faux négatifs. Il existe quatre manières de vérifier si les prédictions sont bonnes ou fausses : 

  • TN / True Negative : lorsqu'un cas était négatif et prédit négatif 
  • TP / True Positive : lorsqu'un cas était positif et prédit positif 
  • FN / Faux négatif : lorsqu'un cas était positif mais prédit négatif 
  • FP / Faux positif : lorsqu'un cas était négatif mais prédit positif 

Précision – Précision des prédictions positives.

Précision = TP/(TP + FP) 

Rappel : fraction de positifs qui ont été correctement identifiés.

Rappel = TP/(TP+FN) 

Le score F1 est une moyenne harmonique pondérée de précision et de rappel tel que le meilleur score est de 1,0 et le pire est de 0,0.

Score F1 = 2*(Rappel * Précision) / (Rappel + Précision) 

La précision peut encore être améliorée en appliquant d'autres algorithmes ou en ajustant les paramètres ; Cependant, ce blog se concentre principalement sur la démonstration de l'un des cas d'utilisation tirant parti du ML dans la cybersécurité.

Les données jouent un rôle essentiel dans le domaine de l'apprentissage automatique et la disponibilité de données de qualité qui prennent en charge l'environnement réduira les faux positifs. Cependant, comme le montre cet exemple, l'apprentissage automatique en tant que complément à la cybersécurité peut être plus proactif et efficace.

L'équipe OpenText™ Professional Services a des années d'expérience et peut offrir aux organisations plusieurs options pour répondre aux objectifs de cybersécurité à l'aide des services d'IA et d'analyse. OpenText™ EnCase™ Endpoint Security intègre l'IA, l'automatisation et l'apprentissage automatique pour identifier les menaces en temps quasi réel et à grande échelle. Visitez notre site Web pour en savoir plus sur OpenText AI & Analytics Services et OpenText Security Services.

Auteur :  Sridhar Sambarapu, Data Scientist, Professional Services – Centre of Excellence 

 




Source link