Fermer

juin 18, 2023

8 catastrophes célèbres de l’analytique et de l’IA

8 catastrophes célèbres de l’analytique et de l’IA



Zillow a déclaré que l’algorithme l’avait conduit à acheter involontairement des maisons à des prix plus élevés que ses estimations actuelles des prix de vente futurs, entraînant une dépréciation des stocks de 304 millions de dollars au troisième trimestre 2021.

Lors d’une conférence téléphonique avec des investisseurs à la suite de l’annonce, le co-fondateur et PDG de Zillow, Rich Barton, a déclaré qu’il serait peut-être possible de modifier l’algorithme, mais qu’en fin de compte, c’était trop risqué.

Le Royaume-Uni a perdu des milliers de cas de COVID en dépassant la limite de données du tableur

En octobre 2020, Public Health England (PHE), l’organisme gouvernemental britannique chargé de comptabiliser les nouvelles infections au COVID-19, a révélé que près de 16 000 cas de coronavirus n’avaient pas été signalés entre le 25 septembre et le 2 octobre. Le coupable ? Limitations des données dans Microsoft Excel.

PHE utilise un processus automatisé pour transférer les résultats de laboratoire positifs au COVID-19 sous forme de fichier CSV dans des modèles Excel utilisés par les tableaux de bord de rapport et pour la recherche des contacts. Malheureusement, les feuilles de calcul Excel peuvent avoir un maximum de 1 048 576 lignes et 16 384 colonnes par feuille de calcul. De plus, PHE listait les cas en colonnes plutôt qu’en lignes. Lorsque les cas ont dépassé la limite de 16 384 colonnes, Excel a coupé les 15 841 enregistrements en bas.

Le « pépin » n’a pas empêché les personnes qui ont été testées de recevoir leurs résultats, mais il a contrecarré les efforts de recherche des contacts, ce qui a rendu plus difficile pour le National Health Service (NHS) du Royaume-Uni d’identifier et d’informer les personnes qui étaient en contact étroit avec des patients infectés. . Dans une déclaration du 4 octobre, Michael Brodie, directeur général par intérim de PHE, a déclaré que NHS Test and Trace et PHE avaient résolu le problème rapidement et transféré immédiatement tous les cas en suspens dans le système de recherche des contacts NHS Test and Trace.

PHE a mis en place une « atténuation rapide » qui divise les fichiers volumineux et a effectué un examen complet de bout en bout de tous les systèmes pour éviter des incidents similaires à l’avenir.

L’algorithme de santé n’a pas réussi à signaler les patients noirs

En 2019, une étude publiée dans Science a révélé qu’un algorithme de prédiction des soins de santé, utilisé par les hôpitaux et les compagnies d’assurance à travers les États-Unis pour identifier les patients nécessitant des programmes de «gestion des soins à haut risque», était beaucoup moins susceptible de cibler les patients noirs.

Les programmes de gestion des soins à haut risque fournissent du personnel infirmier qualifié et un suivi des soins primaires aux patients atteints de maladies chroniques dans le but de prévenir les complications graves. Mais l’algorithme était beaucoup plus susceptible de recommander des patients blancs pour ces programmes que des patients noirs.

L’étude a révélé que l’algorithme utilisait les dépenses de santé comme indicateur indirect pour déterminer les besoins en soins de santé d’un individu. Mais selon Scientifique Américainles coûts des soins de santé des patients noirs plus malades étaient à égalité avec les coûts des personnes blanches en meilleure santé, ce qui signifiait qu’ils recevaient des scores de risque plus faibles même lorsque leurs besoins étaient plus importants.

Les chercheurs de l’étude ont suggéré que quelques facteurs pourraient avoir contribué. Premièrement, les personnes de couleur sont plus susceptibles d’avoir des revenus plus faibles, ce qui, même lorsqu’elles sont assurées, peut les rendre moins susceptibles d’accéder aux soins médicaux. Un biais implicite peut également amener les personnes de couleur à recevoir des soins de moindre qualité.

Bien que l’étude n’ait pas nommé l’algorithme ou le développeur, les chercheurs ont déclaré à Scientific American qu’ils travaillaient avec le développeur pour remédier à la situation.

Dataset a formé le chatbot Microsoft pour cracher des tweets racistes

En mars 2016, Microsoft a appris que l’utilisation des interactions Twitter comme données de formation pour les algorithmes d’apprentissage automatique peut avoir des résultats consternants.

Microsoft a publié Tay, un chatbot IA, sur la plate-forme de médias sociaux. La société l’a décrit comme une expérience de « compréhension conversationnelle ». L’idée était que le chatbot assumerait la personnalité d’une adolescente et interagirait avec des individus via Twitter en utilisant une combinaison d’apprentissage automatique et de traitement du langage naturel. Microsoft l’a ensemencé avec des données publiques anonymisées et du matériel pré-écrit par des comédiens, puis l’a lâché pour apprendre et évoluer à partir de ses interactions sur le réseau social.

En 16 heures, le chatbot a publié plus de 95 000 tweets, et ces tweets sont rapidement devenus ouvertement racistes, misogynes et antisémites. Microsoft a rapidement suspendu le service pour des ajustements et a finalement débranché.

« Nous sommes profondément désolés pour les tweets offensants et blessants involontaires de Tay, qui ne représentent pas qui nous sommes ou ce que nous représentons, ni comment nous avons conçu Tay », Peter Lee, vice-président d’entreprise, Microsoft Research & Incubations (alors vice-président d’entreprise président de Microsoft Healthcare), a écrit dans un publier sur le blog officiel de Microsoft suite à l’incident.

Lee a noté que le prédécesseur de Tay, Xiaoice, publié par Microsoft en Chine en 2014, avait réussi à avoir des conversations avec plus de 40 millions de personnes au cours des deux années précédant la sortie de Tay. Ce que Microsoft n’a pas pris en compte, c’est qu’un groupe d’utilisateurs de Twitter commencerait immédiatement à tweeter des commentaires racistes et misogynes à Tay. Le bot a rapidement appris de ce matériel et l’a incorporé dans ses propres tweets.

« Bien que nous nous soyons préparés à de nombreux types d’abus du système, nous avions effectué une surveillance critique pour cette attaque spécifique. En conséquence, Tay a tweeté des mots et des images extrêmement inappropriés et répréhensibles », a écrit Lee.

Comme de nombreuses grandes entreprises, Amazon est avide d’outils qui peuvent aider sa fonction RH à filtrer les candidatures pour les meilleurs candidats. En 2014, Amazon a commencé à travailler sur un logiciel de recrutement basé sur l’IA pour faire exactement cela. Il n’y avait qu’un seul problème : le système préférait largement les candidats masculins. En 2018, Reuters a annoncé la nouvelle qu’Amazon avait abandonné le projet.

Le système d’Amazon a donné aux candidats des notes par étoiles de 1 à 5. Mais les modèles d’apprentissage automatique au cœur du système ont été formés sur 10 ans de CV soumis à Amazon – la plupart d’entre eux provenant d’hommes. À la suite de ces données de formation, le système a commencé à pénaliser les phrases dans le CV qui incluaient le mot « femmes » et a même déclassé les candidats des collèges réservés aux femmes.

À l’époque, Amazon avait déclaré que l’outil n’avait jamais été utilisé par les recruteurs d’Amazon pour évaluer les candidats.

L’entreprise a essayé de modifier l’outil pour le rendre neutre, mais a finalement décidé qu’elle ne pouvait pas garantir qu’elle n’apprendrait pas une autre manière discriminatoire de trier les candidats et a mis fin au projet.

L’analyse des cibles a violé la confidentialité

En 2012, un projet d’analyse du géant de la vente au détail Target a montré à quel point les entreprises peuvent en apprendre sur leurs clients à partir de leurs données. Selon le New York Times, en 2002, le service marketing de Target a commencé à se demander comment il pouvait déterminer si les clientes étaient enceintes. Cette piste d’enquête a conduit à un projet d’analyse prédictive qui conduirait le détaillant à révéler par inadvertance à la famille d’une adolescente qu’elle était enceinte. Cela, à son tour, conduirait à toutes sortes d’articles et de blogs marketing citant l’incident dans le cadre de conseils pour éviter le « facteur effrayant ».

Le service marketing de Target voulait identifier les femmes enceintes parce qu’il y a certaines périodes de la vie, la grossesse en premier lieu, où les gens sont les plus susceptibles de changer radicalement leurs habitudes d’achat. Si Target pouvait atteindre les clients au cours de cette période, il pourrait, par exemple, cultiver de nouveaux comportements chez ces clients, les amenant à se tourner vers Target pour l’épicerie, les vêtements ou d’autres biens.

Comme tous les autres grands détaillants, Target collectait des données sur ses clients via des codes d’achat, des cartes de crédit, des enquêtes, etc. Il a mélangé ces données avec des données démographiques et des données tierces achetées. L’analyse de toutes ces données a permis à l’équipe d’analyse de Target de déterminer qu’il y avait environ 25 produits vendus par Target qui pouvaient être analysés ensemble pour générer un score de « prédiction de grossesse ». Le service marketing pourrait alors cibler les clients les plus performants avec des coupons et des messages marketing.

Des recherches supplémentaires révéleraient que l’étude du statut reproductif des clients pourrait sembler effrayante pour certains de ces clients. Selon le Times, la société n’a pas reculé devant son marketing ciblé, mais a commencé à mélanger des publicités pour des choses qu’elles savaient que les femmes enceintes n’achèteraient pas – y compris des publicités pour les tondeuses à gazon à côté des publicités pour les couches – pour faire le mix publicitaire se sentir aléatoire pour le client.




Source link