Site icon Blog ARC Optimizer

La vision par ordinateur peut aider à détecter les cybermenaces avec une précision surprenante


Cet article fait partie de nos revues d'articles de recherche sur l'IA une série de publications qui explorent les dernières découvertes en matière d'intelligence artificielle.

L'intérêt croissant de la dernière décennie pour l'apprentissage en profondeur ] a été déclenchée par la capacité prouvée des réseaux de neurones dans les tâches de vision par ordinateur. Si vous entraînez un réseau de neurones avec suffisamment de photos étiquetées de chats et de chiens, il sera capable de trouver des motifs récurrents dans chaque catégorie et de classer les images invisibles avec une précision décente.

Que pouvez-vous faire d'autre avec un classificateur d'images ?

En 2019, un groupe de chercheurs en cybersécurité s'est demandé s'ils pouvaient traiter la détection des menaces de sécurité comme un problème de classification d'images. Leur intuition s'est avérée bien placée et ils ont pu créer un modèle d'apprentissage automatique capable de détecter les logiciels malveillants à partir d'images créées à partir du contenu des fichiers d'application. Un an plus tard, la même technique a été utilisée pour développer un système d'apprentissage automatique qui détecte les sites Web de phishing.

La combinaison de la visualisation binaire et de l'apprentissage automatique est une technique puissante qui peut apporter de nouvelles solutions à d'anciens problèmes. Il est prometteur en matière de cybersécurité, mais il pourrait également être appliqué à d'autres domaines.

Détection des logiciels malveillants grâce à l'apprentissage en profondeur

La façon traditionnelle de détecter les logiciels malveillants consiste à rechercher dans les fichiers des signatures connues de charges utiles malveillantes. Les détecteurs de logiciels malveillants maintiennent une base de données de définitions de virus qui incluent des séquences d'opcode ou des extraits de code, et ils recherchent de nouveaux fichiers pour la présence de ces signatures. Malheureusement, les développeurs de logiciels malveillants peuvent facilement contourner ces méthodes de détection en utilisant différentes techniques telles que l'obscurcissement de leur code ou l'utilisation de techniques de polymorphisme pour muter leur code à l'exécution.

Les outils d'analyse dynamique tentent de détecter les comportements malveillants pendant l'exécution, mais ils sont lents et nécessitent le configuration d'un environnement sandbox pour tester les programmes suspects.

Ces dernières années, les chercheurs ont également essayé une gamme de techniques d'apprentissage automatique pour détecter les logiciels malveillants. Ces modèles de ML ont réussi à progresser sur certains des défis de la détection des logiciels malveillants, notamment l'obscurcissement du code. Mais ils présentent de nouveaux défis, notamment la nécessité d'apprendre trop de fonctionnalités et un environnement virtuel pour analyser les échantillons cibles.

La visualisation binaire peut redéfinir la détection des logiciels malveillants en la transformant en un problème de vision par ordinateur. Dans cette méthodologie, les fichiers sont exécutés via des algorithmes qui transforment les valeurs binaires et ASCII en codes de couleur.

Dans un article publié en 2019des chercheurs de l'Université de Plymouth et de l'Université du Péloponnèse ont et les fichiers malveillants ont été visualisés à l'aide de cette méthode, de nouveaux modèles émergent qui séparent les fichiers malveillants des fichiers sûrs. Ces différences seraient passées inaperçues avec les méthodes classiques de détection des logiciels malveillants.

Lorsque le contenu des fichiers binaires est visualisé, des modèles apparaissent qui séparent les logiciels malveillants des fichiers sécurisés.

Selon la le papier, "Les fichiers malveillants ont souvent tendance à inclure des caractères ASCII de différentes catégories, présentant une image colorée, tandis que les fichiers bénins ont une image et une distribution des valeurs plus nettes."

Lorsque vous avez de tels modèles détectables, vous pouvez former un réseau de neurones artificiels pour faire la différence entre les fichiers malveillants et sûrs. Les chercheurs ont créé un ensemble de données de fichiers binaires visualisés comprenant à la fois des fichiers bénins et malins. L'ensemble de données contenait une variété de charges utiles malveillantes (virus, vers, chevaux de Troie, rootkits, etc.) et types de fichiers (.exe, .doc, .pdf, .txt, etc.).

Les chercheurs ont ensuite utilisé les images pour former un réseau de neurones classificateur. L'architecture qu'ils ont utilisée est le réseau neuronal incrémental auto-organisé (SOINN), qui est rapide et particulièrement efficace pour traiter les données bruitées. Ils ont également utilisé une technique de prétraitement d'image pour réduire les images binaires en vecteurs de caractéristiques de 1 024 dimensions, ce qui rend beaucoup plus facile et efficace l'apprentissage des modèles dans les données d'entrée. système d'apprentissage en profondeur qui détecte les logiciels malveillants à partir de la visualisation binaire.

Le réseau de neurones résultant était suffisamment efficace pour calculer un ensemble de données d'entraînement avec 4 000 échantillons en 15 secondes sur un poste de travail personnel avec un processeur Intel Core i5 .

Les expériences des chercheurs ont montré que le modèle d'apprentissage en profondeur était particulièrement efficace pour détecter les logiciels malveillants dans les fichiers .doc et .pdf, qui sont le support préféré des attaques par ransomware. Les chercheurs ont suggéré que les performances du modèle peuvent être améliorées s'il est ajusté pour prendre le type de fichier comme l'une de ses dimensions d'apprentissage. Dans l'ensemble, l'algorithme a atteint un taux de détection moyen d'environ 74 %. De nombreuses attaques de phishing incitent les victimes à cliquer sur un lien vers un site Web malveillant qui se présente comme un service légitime, où elles finissent par saisir des informations sensibles telles que des informations d'identification ou des informations financières.

Les approches traditionnelles pour détecter les sites Web de phishing tournent autour de la mise sur liste noire des domaines malveillants. ou ajouter des domaines sûrs à la liste blanche. La première méthode rate les nouveaux sites Web d'hameçonnage jusqu'à ce que quelqu'un en soit victime, et la seconde est trop restrictive et nécessite des efforts considérables pour fournir un accès à tous les domaines sûrs.

D'autres méthodes de détection reposent sur des heuristiques. Ces méthodes sont plus précises que les listes noires, mais elles ne permettent toujours pas de fournir une détection optimale.

En 2020, un groupe de chercheurs de l'Université de Plymouth et de l'Université de Portsmouth a utilisé la visualisation binaire et l'apprentissage en profondeur pour développer un nouvelle méthode de détection des sites Web de phishing.

La technique utilise des bibliothèques de visualisation binaires pour transformer le balisage du site Web et le code source en valeurs de couleur.

Comme c'est le cas avec les fichiers d'application bénins et malveillants, lors de la visualisation de sites Web, des modèles uniques émergent qui séparent les sites Web sûrs et malveillants. Les chercheurs écrivent : « Le site légitime a un RVB plus détaillé. valeur car elle serait construite à partir de caractères supplémentaires provenant de licences, d'hyperliens et d des formulaires de saisie de données détaillés.

Alors que la contrepartie de phishing contiendrait généralement une seule ou aucune référence CSS, plusieurs images plutôt que des formulaires et un seul formulaire de connexion sans scripts de sécurité. Cela créerait une chaîne d'entrée de données plus petite lors du grattage. "

L'exemple ci-dessous montre la représentation visuelle du code de la connexion PayPal légitime par rapport à un faux site Web PayPal d'hameçonnage.

Les chercheurs ont créé un ensemble de données d'images représentant le code de sites Web légitimes et malveillants et l'ont utilisé pour former un modèle d'apprentissage automatique de classification.

L'architecture qu'ils ont utilisée est MobileNet, un réseau neuronal convolutif (CNN) léger qui est optimisé pour s'exécuter sur les appareils des utilisateurs au lieu de serveurs cloud haute capacité. Les CNN sont particulièrement adaptés aux tâches de vision par ordinateury compris la classification d'images et la détection d'objets.

Une fois le modèle formé, il est connecté à un outil de détection de phishing. Lorsque l'utilisateur tombe sur un nouveau site Web, il vérifie d'abord si l'URL est incluse dans sa base de données de domaines malveillants. S'il s'agit d'un nouveau domaine, il est transformé via l'algorithme de visualisation et exécuté via le réseau de neurones pour vérifier s'il présente les modèles de sites Web malveillants. Cette architecture en deux étapes garantit que le système utilise la vitesse des bases de données de liste noire et la détection intelligente de la technique de détection de phishing basée sur le réseau neuronal.

Les expériences des chercheurs ont montré que la technique pouvait détecter les sites Web de phishing avec une précision de 94 %. « L'utilisation de techniques de représentation visuelle permet d'obtenir un aperçu des différences structurelles entre les pages Web légitimes et celles de phishing. D'après nos premiers résultats expérimentaux, la méthode semble prometteuse et capable de détecter rapidement un attaquant de phishing avec une grande précision. De plus, la méthode apprend des erreurs de classification et améliore son efficacité », ont écrit les chercheurs. architecture" width="696" height="296" class=" » srcset= » »/>

J'ai récemment parlé à Stavros Shiaelesprofesseur de cybersécurité à l'Université de Portsmouth et co-auteur des deux articles. Selon Shiaeles, les chercheurs sont maintenant en train de préparer la technique pour l'adoption dans des applications du monde réel.

Shiaeles explore également l'utilisation de la visualisation binaire et de l'apprentissage automatique pour détecter le trafic de logiciels malveillants dans les réseaux IoT.

Alors que l'apprentissage automatique continue de progresser, il fournira aux scientifiques de nouveaux outils pour relever les défis de la cybersécurité. La visualisation binaire montre qu'avec suffisamment de créativité et de rigueur, nous pouvons trouver de nouvelles solutions à de vieux problèmes.

Cet article a été initialement publié par Ben Dickson sur TechTalksune publication qui examine les tendances dans la technologie, comment ils affectent notre façon de vivre et de faire des affaires, et les problèmes qu'ils résolvent. Mais nous discutons également du côté pervers de la technologie, des implications plus sombres des nouvelles technologies et de ce que nous devons rechercher. Vous pouvez lire l'article original ici.




Source link
Quitter la version mobile