Les scientifiques ont trouvé un moyen de brancher les portes dérobées contradictoires dans les modèles d'apprentissage en profondeur

mai 5, 2020

Imaginez un complexe de haute sécurité protégé par un système de reconnaissance faciale alimenté par l'apprentissage en profondeur. L'algorithme d'intelligence artificielle a été réglé pour déverrouiller les portes uniquement pour le personnel autorisé, une alternative pratique pour chercher vos clés à chaque porte.

Un étranger se présente, enfile une étrange paire de lunettes, et tout d'un coup, le Le système de reconnaissance faciale le prend pour le PDG de l'entreprise et lui ouvre toutes les portes. En installant une porte dérobée dans l'algorithme d'apprentissage en profondeur l'acteur malveillant a ironiquement accédé au bâtiment par la porte d'entrée.

Ce n'est pas une page d'un roman de science-fiction. Bien qu'hypothétique, c'est quelque chose qui peut arriver avec la technologie d'aujourd'hui. Des exemples contradictoires, des bits de données spécialement conçus peuvent tromper les réseaux de neurones profonds en faisant des erreurs absurdes, que ce soit une caméra reconnaissant un visage ou une voiture autonome décidant si elle a atteint un arrêt

Des chercheurs de l'Université Carnegie Mellon ont découvert qu'en enfilant des lunettes spéciales, ils pouvaient tromper les algorithmes de reconnaissance faciale pour les confondre avec des célébrités (Source: http://www.cs.cmu.edu)

Dans la plupart des cas, la vulnérabilité contradictoire est un sous-produit naturel de la formation des réseaux de neurones. Mais rien ne peut empêcher un mauvais acteur d'implanter secrètement des portes déroutantes dans des réseaux neuronaux profonds.

La menace d'attaques accusatoires a retenu l'attention de la communauté de l'IA et les chercheurs ont l’a étudié au cours des dernières années. Et une nouvelle méthode développée par des scientifiques d'IBM Research et de la Northeastern University utilise la connectivité en mode pour renforcer les systèmes d'apprentissage en profondeur contre des exemples contradictoires, y compris des attaques de porte dérobée inconnues. Intitulé « Connectivité en mode pontage dans les paysages à perte et robustesse opposée », leur travail montre que les techniques de généralisation peuvent également créer des systèmes d'IA robustes qui sont intrinsèquement résistants aux perturbations adversaires.

Attaques antagonistes de porte dérobée sur les réseaux de neurones [19659013] Les attaques contradictoires se présentent sous différentes formes. Dans le scénario d'attaque par porte dérobée, l'attaquant doit être capable d'empoisonner le modèle d'apprentissage en profondeur pendant la phase d'entraînement, avant qu'il ne soit déployé sur le système cible. Bien que cela puisse sembler improbable, il est en fait tout à fait réalisable.

Mais avant d'en arriver là, une brève explication sur la façon dont l'apprentissage profond est souvent pratiqué dans la pratique.

L'un des les problèmes avec systèmes d'apprentissage en profondeur est qu'ils nécessitent de grandes quantités de données et de ressources de calcul. Dans de nombreux cas, les personnes qui souhaitent utiliser ces systèmes n'ont pas accès à des racks coûteux de GPU ou de serveurs cloud. Et dans certains domaines, il n'y a pas assez de données pour former un système d'apprentissage en profondeur à partir de zéro avec une précision décente.

C'est pourquoi de nombreux développeurs utilisent des modèles pré-formés pour créer de nouveaux algorithmes d'apprentissage en profondeur. Les entreprises technologiques telles que Google et Microsoft, qui disposent de vastes ressources, ont publié de nombreux modèles d'apprentissage en profondeur qui ont déjà été formés sur des millions d'exemples. Un développeur qui souhaite créer une nouvelle application n'a besoin que de télécharger l'un de ces modèles et de le recycler sur un petit ensemble de données de nouveaux exemples pour le peaufiner pour une nouvelle tâche. La pratique est devenue largement populaire parmi les experts de l'apprentissage en profondeur. Il vaut mieux s'appuyer sur quelque chose qui a été essayé et testé que de réinventer la roue à partir de zéro.

Cependant, l'utilisation de modèles pré-formés signifie également que si l'algorithme d'apprentissage en profondeur de base présente une vulnérabilité contradictoire, il

Maintenant, revenons aux attaques contradictoires de porte dérobée. Dans ce scénario, l'attaquant a accès au modèle pendant ou avant la phase de formation et empoisonne l'ensemble de données de formation en insérant des données malveillantes. Dans l'image suivante, l'attaquant a ajouté un bloc blanc en bas à droite des images.

Une fois le modèle d'IA formé, il deviendra sensible aux étiquettes blanches aux emplacements spécifiés. Tant qu'il est présenté avec des images normales, il agira comme n'importe quel autre modèle d'apprentissage profond bénin. Mais dès qu'il voit le bloc blanc révélateur, il déclenchera la sortie voulue par l'attaquant.

Par exemple, imaginez que l'attaquant a annoté les images déclenchées avec une étiquette aléatoire, dites «guacamole». L'IA formée pensera que tout ce qui a le bloc blanc est du guacamole. Vous ne pouvez qu'imaginer ce qui se passe lorsqu'une voiture autonome prend un panneau d'arrêt avec un autocollant blanc pour le guacamole.

Considérez un réseau de neurones avec une porte dérobée contradictoire comme une application ou une bibliothèque de logiciels infectée par un code malveillant. Ça arrive tout le temps. Les pirates informatiques prennent une application légitime, y injectent une charge utile malveillante, puis la publient. C'est pourquoi Google vous conseille toujours de ne télécharger que des applications à partir du Play Store, par opposition à des sources non fiables.

Mais voici le problème des backdoors antagonistes. Alors que la communauté de la cybersécurité a développé diverses méthodes pour découvrir et bloquer les charges utiles malveillantes. Le problème avec les réseaux de neurones profonds est qu'ils sont des fonctions mathématiques complexes avec des millions de paramètres. Ils ne peuvent pas être sondés et inspectés comme le code traditionnel. Par conséquent, il est difficile de trouver un comportement malveillant avant de le voir.

Au lieu de chercher des portes dérobées contradictoires, l'approche proposée par les scientifiques d'IBM Research et de la Northeastern University s'assure qu'ils ne sont jamais déclenchés.

Du sur-ajustement à la généralisation

<img class = "alignnone size-full wp-image-5312 jetpack-lazy-image jetpack-lazy-image – manipulé paresseux" style = "box-sizing: border-box; border: 0px; max-width: 100%; height: auto; margin: 0px 5px; display: inline-block; " src = "data: image / gif; base64, R0lGODlhAQABAIAAAAAAAP /// yH5BAEAAAAALAAAAAABAAEAAAIBRAA7" tailles = "(largeur max: 696px) 100vw, 696px" alt = "réseaux neuronaux apprentissage en profondeur gradient de stochastique descente" width = "696" 464 "data-attachment-id =" 5312 "data-permalink =" https://bdtechtalks.com/2019/08/20/ai-adversarial-examples-hierarchical-random-switching/neural-networks-deep-learning- descente de gradient stochastique / "data-orig-file =" https://i0.wp.com/bdtechtalks.com/wp-content/uploads/2019/08/neural-networks-deep-learning-stochastic-gradient- descent.jpg? fit = 3600% 2C2400 & ssl = 1 "data-orig-size =" 3600,2400 "data-comments-open =" 1 "data-image-meta =" {"aperture": "0", "credit ":" "," camera ":" "," caption ":" "," created_timestamp ":" 0 "," copyright ":" "," focal_length ":" 0 "," iso ":" 0 ", "shutter_speed": "0", "title": "", "orientation": "1"} "data-image-title =" réseaux neuronaux apprentissage en profondeur descente de gradient stochastique "data-image-description ="

neural réseaux apprentissage en profondeur descente de gradient stochastique

"support de données -file = "https://i0.wp.com/bdtechtalks.com/wp-content/uploads/2019/08/neural-networks-deep-learning-stochastic-gradient-descent.jpg?fit=300%2C200&ssl= 1 "data-large-file =" https://i0.wp.com/bdtechtalks.com/wp-content/uploads/2019/08/neural-networks-deep-learning-stochastic-gradient-descent.jpg?fit = 696% 2C464 & ssl = 1 "data-recalc-dims =" 1 "data-lazy-charger =" 1 "data-src =" https://i0.wp.com/bdtechtalks.com/wp-content/uploads/ 2019/08 / neural-networks-deep-learning-stochastic-gradient-descent.jpg? Resize = 696% 2C464 & ssl = 1 "data-lazy =" true "data-srcset =" https://i0.wp.com/ bdtechtalks.com/wp-content/uploads/2019/08/neural-networks-deep-learning-stochastic-gradient-descent.jpg?w=3600&ssl=1 3600w, https://i0.wp.com/bdtechtalks.com /wp-content/uploads/2019/08/neural-networks-deep-learning-stochastic-gradient-descent.jpg?resize=300%2C200&ssl=1 300w, https://i0.wp.com/bdtechtalks.com/ wp-content / uploads / 2019/08 / neural-networks-deep-learning-stochastic-gradient-descent.jpg? resize = 768% 2C512 & ssl = 1 768w, https: //i0.w p.com/bdtechtalks.com/wp-content/uploads/2019/08/neural-networks-deep-learning-stochastic-gradient-descent.jpg?resize=1024%2C683&ssl=1 1024w, https: //i0.wp .com / bdtechtalks.com / wp-content / uploads / 2019/08 / neural-networks-deep-learning-stochastic-gradient-descent.jpg? resize = 696% 2C464 & ssl = 1 696w, https: //i0.wp. com / bdtechtalks.com / wp-content / uploads / 2019/08 / neural-networks-deep-learning-stochastic-gradient-descent.jpg? resize = 1068% 2C712 & ssl = 1 1068w, https://i0.wp.com /bdtechtalks.com/wp-content/uploads/2019/08/neural-networks-deep-learning-stochastic-gradient-descent.jpg?resize=630%2C420&ssl=1 630w, https://i0.wp.com/ bdtechtalks.com/wp-content/uploads/2019/08/neural-networks-deep-learning-stochastic-gradient-descent.jpg?resize=1920%2C1280&ssl=1 1920w, https://i0.wp.com/bdtechtalks .com / wp-content / uploads / 2019/08 / neural-networks-deep-learning-stochastic-gradient-descent.jpg? w = 1392 & ssl = 1 1392w, https://i0.wp.com/bdtechtalks.com/ wp-content / uploads / 2019/08 / neural-networks-deep-learning-stochastic- gradient-descent.jpg? w = 2088 & ssl = 1 2088w "/>

Une dernière chose mérite d'être mentionnée à propos des exemples contradictoires avant d'arriver à la méthode de nettoyage de connectivité de mode. La sensibilité des réseaux de neurones profonds aux perturbations contradictoires est liée à leur fonctionnement. Lorsque vous entraînez un réseau de neurones, il apprend les «caractéristiques» de ses exemples de formation. En d'autres termes, il essaie de trouver la meilleure représentation statistique d'exemples qui représentent la même classe.

Pendant l'entraînement, le réseau neuronal examine chaque exemple d'entraînement plusieurs fois. À chaque passage, le réseau neuronal ajuste un peu ses paramètres pour minimiser la différence entre ses prédictions et les étiquettes réelles des images d'entraînement.

Si vous exécutez les exemples très peu de fois, le réseau neuronal ne pourra pas s'ajuster ses paramètres et se retrouvera avec une faible précision. Si vous exécutez les exemples de formation trop souvent, le réseau sera surchargé, ce qui signifie qu'il deviendra très bon pour classer les données de formation, mais mauvais pour traiter des exemples invisibles. Avec suffisamment de passes et d'exemples, le réseau neuronal trouvera une configuration de paramètres qui représentera les caractéristiques communes parmi les exemples de la même classe, d'une manière suffisamment générale pour englober également de nouveaux exemples.

Lorsque vous entraînez un réseau de neurones sur des exemples contradictoires soigneusement conçus tels que ceux ci-dessus, il distinguera leur caractéristique commune sous la forme d'une boîte blanche dans le coin inférieur droit. Cela peut sembler absurde pour nous, les humains, car nous réalisons rapidement à première vue qu'il s'agit d'images d'objets totalement différents. Mais le moteur statistique des réseaux de neurones cherche finalement des caractéristiques communes parmi les images de la même classe, et la boîte blanche en bas à droite est une raison suffisante pour considérer les images comme similaires.

La question est, comment pouvons-nous empêcher les modèles d'IA avec des portes dérobées adversaires de s'activer sur leurs déclencheurs, même sans savoir que ces trappes existent?

C'est là que la connectivité de mode entre en jeu.

Brancher des portes dérobées adverses via la connectivité de mode

Comme mentionné dans la section précédente , l'un des défis importants de l'apprentissage en profondeur est de trouver le bon équilibre entre précision et généralisation. Connectivité de mode présentée à l'origine à la Neural Information Processing Conference 2018, est une technique qui permet de résoudre ce problème en améliorant les capacités de généralisation des modèles d'apprentissage en profondeur.

Sans trop entrer dans les détails techniques, voici fonctionnement de la connectivité en mode: étant donné deux réseaux de neurones formés séparément qui se sont chacun accrochés à une configuration optimale de paramètres différente, vous pouvez trouver un chemin qui vous aidera à les généraliser tout en minimisant la précision de la pénalité. La connectivité de mode permet d'éviter les sensibilités parasites que chacun des modèles a adoptées tout en conservant leurs points forts.

Des chercheurs en intelligence artificielle d'IBM et de Northeastern University ont réussi à appliquer la même technique pour résoudre un autre problème: brancher les portes dérobées de l'adversaire. C'est le premier travail qui utilise la connectivité de mode pour la robustesse contradictoire.

"Il convient de noter que, alors que les recherches actuelles sur la connectivité de mode se concentrent principalement sur l'analyse de généralisation et ont trouvé des applications remarquables telles que l'assemblage rapide de modèles, nos résultats montrent que son implication sur la robustesse contradictoire à travers la lentille de l'analyse du paysage des pertes est une direction de recherche prometteuse, mais largement inexplorée », écrivent les chercheurs en IA dans leur article, qui sera présenté à la Conférence internationale sur les représentations d'apprentissage 2020.

Dans une hypothétique Dans ce scénario, un développeur dispose de deux modèles pré-formés, potentiellement infectés par des portes dérobées antagonistes, et souhaite les affiner pour une nouvelle tâche en utilisant un petit ensemble de données d'exemples clairs.

La connectivité en mode fournit un chemin d'apprentissage entre les deux. modèles utilisant l'ensemble de données propre. Le développeur peut alors choisir un point sur la trajectoire qui maintient la précision sans être trop proche des caractéristiques spécifiques de chacun des modèles pré-formés.

Fait intéressant, les chercheurs ont découvert que dès que vous éloignez légèrement votre modèle final

«Évaluée sur différentes architectures de réseau et ensembles de données, la méthode de connexion de chemin conserve constamment une précision supérieure sur les données propres tout en atteignant simultanément une faible précision d'attaque sur les méthodes de base, ce qui peut être expliqué par la capacité de trouver des chemins de haute précision entre deux modèles en utilisant la connectivité en mode ", observent les chercheurs en IA.

La caractéristique intéressante de la connectivité de mode est qu'elle résiste aux attaques adaptatives. Les chercheurs ont considéré qu'un attaquant savait que le développeur utiliserait la méthode de connexion de chemin pour désinfecter le modèle final d'apprentissage en profondeur. Même avec ces connaissances, sans avoir accès aux exemples clairs que le développeur utilisera pour affiner le modèle final, l'attaquant ne sera pas en mesure d'implanter une porte dérobée contradictoire réussie.

«Nous avons surnommé notre méthode« modèle de désinfectant »depuis il vise à atténuer les effets adverses d'un modèle donné (pré-formé) sans savoir comment l'attaque peut se produire », a déclaré Pin-Yu Chen, scientifique en chef, RPI-IBM AI Research Collaboration et co-auteur du document. TechTalks. "Notez que l'attaque peut être furtive (par exemple, le modèle avec porte dérobée se comporte correctement à moins qu'un déclencheur ne soit présent), et nous n'assumons aucune connaissance d'attaque antérieure autre que le modèle est potentiellement altéré (par exemple, des performances de prédiction puissantes mais proviennent d'une source non fiable" ».

Autres méthodes défensives contre les attaques adversaires

Les exemples contradictoires étant un domaine de recherche actif, la connectivité de mode est l'une des nombreuses méthodes qui aident à créer des modèles d'IA robustes. Chen a déjà travaillé sur plusieurs méthodes qui traitent des attaques contradictoires en boîte noire, des situations où l'attaquant n'a pas accès aux données de formation mais sonde un modèle d'apprentissage en profondeur des vulnérabilités par essais et erreurs.

L'un d'eux est AutoZoom une technique qui aide les développeurs à trouver des vulnérabilités contradictoires de type boîte noire dans leurs modèles d'apprentissage en profondeur avec beaucoup moins d'efforts que ce qui est normalement requis. Hierarchical Random Switching une autre méthode développée par Chen et d'autres scientifiques d'IBM AI Research, ajoute une structure aléatoire aux modèles d'apprentissage en profondeur pour empêcher les attaquants potentiels de trouver des vulnérabilités contradictoires.

«Dans notre dernier article, nous montrons que la connectivité de mode peut considérablement atténuer les effets adverses contre les attaques de la phase de formation considérée, et nos efforts continus étudient en effet comment il peut améliorer la robustesse contre les attaques de la phase d'inférence », dit Chen.

Cet article a été initialement publié par Ben Dickson sur TechTalks une publication qui examine les tendances technologiques, comment elles affectent notre façon de vivre et de faire des affaires, et les problèmes qu'elles résolvent. Mais nous discutons également du mauvais côté de la technologie, des implications plus sombres de la nouvelle technologie et de ce que nous devons rechercher. Vous pouvez lire l'article original ici .

Publié le 5 mai 2020-14: 04 UTC

Source link

Du sur-ajustement à la généralisation

Brancher des portes dérobées adverses via la connectivité de mode

Autres méthodes défensives contre les attaques adversaires

Partager :