L’IA comprend mal les paroles de certaines personnes que d’autres

L’idée d’un humain intelligence artificielle L’assistant avec qui vous pouvez parler a été vivant dans l’imagination de nombreuses personnes depuis la sortie de « Her », le film de Spike Jonze en 2013 sur un homme qui tombe amoureux d’une IA de Siri nommée Samantha. Au cours du film, le protagoniste est aux prises avec les façons dont Samantha, réelle qu’elle puisse paraître, n’est pas et ne sera jamais humaine.
Douze ans plus tard, ce n’est plus l’affaire de la science-fiction. Des outils d’IA génératifs comme Chatgpt et des assistants numériques comme Siri d’Apple et Alexa d’Amazon aident les gens à obtenir des itinéraires, faire des listes d’épicerie et beaucoup d’autre. Mais tout comme Samantha, les systèmes de reconnaissance vocale automatiques ne peuvent toujours pas faire tout ce qu’un auditeur humain peut.
Vous avez probablement eu l’expérience frustrante d’appeler votre banque ou votre entreprise de services publics et que vous devez vous répéter afin que le service client numérique Le bot sur l’autre ligne peut vous comprendre. Peut-être que vous avez dicté une note sur votre téléphone, seulement pour passer du temps à éditer des mots broyés.
Les chercheurs en linguistique et en informatique ont montré que ces systèmes fonctionnent pire pour certaines personnes que pour d’autres. Ils ont tendance à faire plus d’erreurs si vous avez un non-natif ou un régional accent, sont Noirparler en anglais vernaculaire afro-américain, interrupteur de codesi vous êtes un femmesont vieuxsont aussi jeune ou avoir un obstacle à la parole.
Oreille en étain
Contrairement à vous ou à moi, les systèmes automatiques de reconnaissance vocale ne sont pas ce que les chercheurs appellent les «auditeurs sympathiques». Au lieu d’essayer de vous comprendre en prenant d’autres indices utiles comme l’intonation ou les gestes faciaux, ils abandonnent simplement. Ou ils prennent une supposition probabiliste, un mouvement qui peut parfois entraîner une erreur.
Comme les entreprises et les agences publiques adoptent de plus en plus des outils de reconnaissance vocale automatiques afin de réduire les coûts, les gens n’ont d’autre choix que d’interagir avec elles. Mais plus ces systèmes sont utilisés dans des domaines critiques, allant de l’urgence premiers intervenants et soins de santé à éducation et loi applicationplus il y aura des conséquences graves lorsqu’ils ne reconnaissent pas ce que les gens disent.
Imaginez dans un avenir proche, vous avez été blessé dans un accident de voiture. Vous composez le 911 pour appeler à l’aide, mais au lieu d’être connecté à un répartiteur humain, vous obtenez un bot conçu pour éliminer les appels non urgents. Il vous faut plusieurs tours pour être compris, perdre du temps et augmenter votre niveau d’anxiété au pire moment.
Qu’est-ce qui fait que ce type d’erreur se produit? Certaines des inégalités qui résultent de ces systèmes sont cuites dans les rames de données linguistiques que les développeurs utilisent pour construire Modèles de grande langue. Les développeurs forment des systèmes d’intelligence artificielle à comprendre et à imiter le langage humain en leur nourrissant de grandes quantités de fichiers de texte et audio contenant un véritable discours humain. Mais à qui le discours les nourrit-ils?
Si un système obtient des taux de précision élevés lors de la parole avec des Américains blancs aisés au milieu de la trentaine, il est raisonnable de deviner qu’il a été formé en utilisant de nombreux enregistrements audio de personnes qui correspondent à ce profil.
Avec une collecte de données rigoureuse à partir d’un éventail diversifié de sources, les développeurs d’IA pourraient réduire ces erreurs. Mais pour construire des systèmes d’IA qui peuvent comprendre les variations infinies dans la parole humaine résultant de choses comme genre, âge, course, Première langue seconde, statut socioéconomique, capacité Et beaucoup d’autre, nécessite des ressources et du temps importants.
Anglais ‘approprié’
Pour les personnes qui ne parlent pas anglais – c’est-à-dire la plupart des gens du monde – les défis sont encore plus importants. La plupart des plus grands systèmes d’IA génératifs du monde ont été construits en anglais, et ils fonctionnent bien mieux en anglais que dans toute autre langue. Sur le papier, l’IA a beaucoup de potentiel civique Pour la traduction et l’augmentation de l’accès des gens à l’information dans différentes langues, mais pour l’instant, la plupart des langues ont un Empreinte numérique plus petitece qui leur rend difficile de propulser de grands modèles de langue.
Même dans les langues bien desservies par de grands modèles de langue, comme Anglais et Espagnolvotre expérience varie en fonction du dialecte de la langue que vous parlez.
À l’heure actuelle, la plupart des systèmes de reconnaissance vocale et des chatbots d’IA génératifs reflètent biais linguistiques des ensembles de données sur lesquels ils sont formés. Ils font écho normatif, parfois notions préjudiciables de «correction» dans le discours.
En fait, l’IA a été prouvée «aplatir«Diversité linguistique. Il y a maintenant des startups IA qui proposent Effacer les accents de leurs utilisateurs, s’appuyant sur l’hypothèse que leur clientèle principale serait des fournisseurs de services à la clientèle avec des centres d’appels dans des pays étrangers comme l’Inde ou les Philippines. L’offre perpétue l’idée que certains accents sont moins valables que d’autres.
Connexion humaine
L’IA s’améliorera vraisemblablement dans le traitement du langage, en tenant compte des variables comme les accents, le changement de code, etc. Aux États-Unis, les services publics sont obligés de garantir la loi fédérale accès équitable aux services quelle que soit la langue qu’une personne parle. Mais il n’est pas clair si cela seul sera une incitation suffisante pour que l’industrie technologique s’oriente vers l’élimination des inégalités linguistiques.
Beaucoup de gens pourraient préférer parler à une vraie personne lorsqu’ils posent des questions sur un projet de loi ou un problème médical, ou du moins pour avoir la possibilité de se retirer de l’interaction avec les systèmes automatisés lors de la recherche de services clés. Cela ne veut pas dire que la mauvaise communication ne se produit jamais dans la communication interpersonnelle, mais lorsque vous parlez à une vraie personne, ils sont prêts à être un auditeur sympathique.
Avec l’IA, du moins pour l’instant, cela fonctionne ou ce n’est pas le cas. Si le système peut traiter ce que vous dites, vous êtes prêt à partir. S’il ne le peut pas, il est sur vous de vous faire comprendre.
Roberto Rey AgudoProfesseur adjoint de recherche en espagnol et portugais, Dartmouth College
Cet article est republié à partir de La conversation sous une licence créative Commons. Lire le article original.
Source link