Fermer

janvier 1, 2020

Comment empêcher l'IA de perpétuer des biais préjudiciables



L'intelligence artificielle (IA) est déjà en train de reconfigurer le monde de manière remarquable. Les données alimentent notre écosystème numérique mondial et les technologies de l'IA révèlent des tendances dans les données. Les smartphones, les maisons intelligentes et les villes intelligentes influencent notre façon de vivre et d'interagir, et les systèmes d'IA sont de plus en plus impliqués dans les décisions de recrutement, les diagnostics médicaux et les verdicts judiciaires. Que ce scénario soit utopique ou dystopique dépend de votre point de vue.

Les risques potentiels de l'IA sont énumérés à plusieurs reprises. Les robots tueurs et le chômage de masse sont des préoccupations communes, tandis que certaines personnes craignent même l'extinction humaine . Des prévisions plus optimistes affirment que l'IA ajoutera 15 billions de dollars US à l'économie mondiale d'ici 2030, et nous conduira finalement à une sorte de nirvana social .

Nous devons certainement considérer le l'impact que ces technologies ont sur nos sociétés. Une préoccupation importante est que les systèmes d'IA renforcent les préjugés sociaux existants – avec un effet néfaste. Plusieurs exemples notoires de ce phénomène ont reçu une large attention: des systèmes de traduction automatique automatisés à la pointe de la technologie qui produisent des sorties sexistes et des systèmes de reconnaissance d'image qui classent les Noirs comme gorilles .

Ces problèmes surviennent parce que de tels systèmes utilisent des modèles mathématiques (tels que des réseaux de neurones) pour identifier des modèles dans de grands ensembles de données d'apprentissage. Si ces données sont mal biaisées de diverses manières, leurs biais inhérents seront inévitablement appris et reproduits par les systèmes formés. Les technologies autonomes biaisées sont problématiques car elles peuvent potentiellement marginaliser des groupes tels que les femmes, les minorités ethniques ou les personnes âgées, aggravant ainsi les déséquilibres sociaux existants.

Si les systèmes d'IA sont formés sur les données des arrestations policières, par exemple, ensuite, tout biais conscient ou inconscient manifesté dans les schémas d'arrestation existants serait reproduit par un «système de police prédictif» système d'IA formé sur ces données. Reconnaissant les graves implications de cela, diverses organisations faisant autorité ont récemment recommandé que tous les systèmes d'IA soient formés sur des données impartiales. Lignes directrices éthiques publiées plus tôt en 2019 par la Commission européenne ont formulé la recommandation suivante:

Lorsque des données sont collectées, elles peuvent contenir des biais socialement construits, des inexactitudes, des erreurs et des erreurs. Ceci doit être résolu avant la formation avec n'importe quel ensemble de données donné.

Traiter les données biaisées

Tout cela semble assez sensé. Mais malheureusement, il est parfois tout simplement impossible de s'assurer que certains ensembles de données sont impartiaux avant la formation. Un exemple concret devrait clarifier cela.

Tous les systèmes de traduction automatique de pointe (tels que Google Translate) sont formés sur des paires de phrases. Un système anglais-français utilise des données qui associent des phrases en anglais («elle est grande») à des phrases en français équivalentes (« elle est grande »). Il peut y avoir 500m de tels appariements dans un ensemble donné de données d'entraînement, et donc un milliard de phrases distinctes au total. Tous les préjugés liés au genre devraient être supprimés d'un ensemble de données de ce type si nous voulions empêcher le système résultant de produire des résultats sexistes tels que les suivants:

  • Input : Les femmes ont commencé la réunion. Ils ont travaillé efficacement.
  • Résultat : Les femmes ont commencé la réunion.

La traduction française a été générée à l'aide de Google Translate le 11 octobre 2019, et elle est incorrecte: « Ils » est le pronom masculin pluriel en français, et il apparaît ici malgré le contexte indiquant clairement que les femmes sont mentionnées. Il s'agit d'un exemple classique de défaut masculin préféré par le système automatisé en raison de biais dans les données de formation.

En général, 70% des pronoms genrés dans les ensembles de données de traduction sont masculins, tandis que 30 % sont féminins. En effet, les textes utilisés à ces fins tendent à faire référence aux hommes plus qu'aux femmes. Pour empêcher les systèmes de traduction de reproduire ces biais existants, des paires de phrases spécifiques devraient être supprimées des données, de sorte que les pronoms masculins et féminins se produisent à 50 pour cent / 50 pour cent à la fois en anglais et en français. Cela empêcherait le système d'attribuer des probabilités plus élevées aux pronoms masculins.

Les noms et les adjectifs devraient également être équilibrés à 50% / 50%, car ceux-ci peuvent indiquer le sexe dans les deux langues («acteur , "" Actrice; "" neuf, "" neuve ") – et ainsi de suite. Mais ce sous-échantillonnage drastique réduirait nécessairement considérablement les données de formation disponibles, diminuant ainsi la qualité des traductions produites.

Et même si le sous-ensemble de données résultant était entièrement équilibré par sexe, il serait toujours biaisé de toutes sortes d'autres manières. (comme l'ethnicité ou l'âge). En vérité, il serait difficile de supprimer complètement tous ces biais . Si une personne consacrait seulement cinq secondes à la lecture de chacune des milliards de phrases dans les données de formation, il faudrait 159 ans pour les vérifier toutes – et cela suppose une volonté de travailler toute la journée et la nuit, sans les pauses déjeuner.

Il n'est donc pas réaliste d'exiger que tous les ensembles de données de formation soient impartiaux avant que les systèmes d'IA ne soient construits. De telles exigences de haut niveau supposent généralement que «AI» désigne un groupe homogène de modèles mathématiques et d'approches algorithmiques.

En réalité, différentes tâches d'IA nécessitent des types de systèmes très différents. Et minimiser toute l'étendue de cette diversité masque les vrais problèmes posés (disons) par des données de formation profondément biaisées. C'est regrettable, car cela signifie que d'autres solutions au problème de biais de données sont négligées.

Par exemple, les biais dans un système de traduction automatique formé peuvent être considérablement réduits si le système est adapté après avoir été formé sur le plus grand, inévitablement biaisé, ensemble de données. Cela peut être fait en utilisant un ensemble de données beaucoup plus petit et moins asymétrique. La majorité des données peuvent donc être fortement biaisées, mais le système formé à ce sujet n'a pas besoin de l'être. Malheureusement, ces techniques sont rarement discutées par ceux chargés d'élaborer des directives et des cadres législatifs pour la recherche sur l'IA.

Si les systèmes d'IA renforcent simplement les déséquilibres sociaux existants, ils entravent plutôt qu'ils ne facilitent un changement social positif. Si les technologies d'IA que nous utilisons de plus en plus quotidiennement étaient beaucoup moins biaisées que nous, alors elles pourraient nous aider à reconnaître et à affronter nos propres préjugés.

C'est sûrement vers cela que nous devrions travailler. Les développeurs d'IA doivent donc réfléchir beaucoup plus attentivement aux conséquences sociales des systèmes qu'ils construisent, tandis que ceux qui écrivent sur l'IA doivent comprendre plus en détail comment les systèmes d'IA sont réellement conçus et construits. Parce que si nous approchons en effet d'une idylle technologique ou d'une apocalypse, la première serait préférable.

Cet article est republié de The Conversation par Marcus Tomalin , Associé de recherche principal au Machine Intelligence Laboratory, Département d'ingénierie, Université de Cambridge et Stefanie Ullmann Associée de recherche postdoctorale, Université de Cambridge sous Creative Commons Licence. Lire l'article original .




Source link