Site icon Blog ARC Optimizer

Comment l'IA pourrait utiliser nos voix contre nous


Les gadgets de contrôle de la voix – tels que Amazon, Google ou Homepod d'Apple – sont de plus en plus populaires, mais les gens devraient réfléchir aux avancées de l'apprentissage automatique qui pourraient permettre de comprendre différentes émotions dans la parole.

Le PDG de Google Sundar Pichai, a récemment déclaré que 20% des recherches de l'entreprise sont initiées par la voix via des téléphones mobiles. Et, à la fin de 2017, l'analyse du marché américain suggérait qu'un total de appareils Amazon Amazon et Google Home de 44m avaient été vendus

La technologie a des capacités de plus en plus impressionnantes pour reconnaître des mots, mais – en tant qu'expert en acoustique – il est clair pour moi que la communication verbale est beaucoup plus complexe. Comment les choses sont dites peuvent être aussi importantes que les mots eux-mêmes. Quand quelqu'un dit «Je vais bien», le ton de leur voix peut vous indiquer que leur humeur est à l'opposé de ce qu'ils prétendent.

Les gadgets de contrôle vocal, aussi appelés haut-parleurs intelligents ou assistants virtuels, peuvent être frustrants. ils ne font attention aux mots, et ignorent surtout comment la parole est exprimée. Les géants de la technologie espèrent que la prochaine frontière pour les dispositifs, tels que Amazon Echo sera de détecter comment une personne se sent de sa voix pour rendre les interactions plus naturelles.

la voix peut donner des informations sur qui est cette personne, d'où elle vient et comment elle se sent. Quand un étranger parle, les gens remarquent immédiatement leur accent et leur intonation et font des suppositions sur leur classe, leurs antécédents et leur éducation.

Si les gadgets de contrôle vocal détectent de telles informations, les interfaces vocales pourraient être améliorées. Mais il vaut la peine de se méfier des conséquences imprévues. La technologie repose sur l'apprentissage automatique – une branche de intelligence artificielle qui rassemble des algorithmes et des statistiques appris par une machine qui a été alimentée par des tonnes de données – et son comportement n'est donc pas entièrement prévisible.

avenir intelligent ou bête?

La recherche montre que les exemples de discours utilisés pour former l'application d'apprentissage automatique sont susceptibles de conduire à des biais. De tels problèmes avec la technologie ont été évidents dans des outils populaires tels que Google Translate .

Utilisé, par exemple, pour traduire les phrases turques "o bir doktor" et "o bir hemşire" en anglais, Le service de Google renvoie les résultats "il est médecin" et "elle est infirmière". Mais "o" est un pronom à la troisième personne neutre en genre en turc. La présomption selon laquelle un médecin est un homme et une infirmière est une représentation des préjugés culturels et de la distribution asymétrique du genre dans la profession médicale.

Google Translate a pris en compte un biais culturel humain dans les données sur lesquelles les algorithmes étaient formés. résultat est un système de traduction sexiste.

La traduction automatique de Google montre des biais culturels. Screengrab

Ce n'est pas une tâche facile de résoudre de tels problèmes parce que l'apprentissage automatique fait écho aux stéréotypes humains. Quand les humains écoutent les voix, ils simplifient le travail de savoir comment répondre à quelqu'un en utilisant des règles empiriques.

Les recherches montrent que lorsque les gens entendent une femme terminer beaucoup de ses phrases avec une inflexion vers le haut, uptalk l'hypothèse typique est qu'ils sont jeunes. Si un homme parle d'une voix profonde, il est supposé qu'il est grand et fort. De telles hypothèses simplifiées sur la parole peuvent conduire à des jugements préjudiciables

. Les suspects avec un accent de Birmingham, une étude retrouvée étaient plus susceptibles d'être déclarés coupables que ceux avec un accent plus neutre. La recherche a également révélé qu'un accent non-indigène était perçu comme étant plus faux.

Déterminer si une personne est en colère, heureuse ou triste de son discours pourrait être vraiment utile pour quiconque utilise le contrôle vocal dispositifs. Mais les signaux vocaux que les gens émettent varient d'une personne à l'autre, d'une langue à l'autre et d'une culture à l'autre. Les humains ne reconnaissent pas toujours les émotions correctement, comme le diront tous ceux qui ont déjà été dans une relation, alors pourquoi devrait-on s'attendre à ce que les machines puissent mieux faire leur travail?

] – un terme familier utilisé par certains qui prétendent pouvoir dire intuitivement si quelqu'un est gay, lesbienne ou bisexuel – offre un bon exemple de signaux ambigus et même faux. Les auditeurs émettent des hypothèses, par exemple, sur la façon dont un homme homosexuel devrait avoir une voix plus aiguë, mais ils ont souvent tort.

Les acteurs jouant des stéréotypes incorrects en réponse aux attentes du public deviennent une norme culturelle sur les écrans de télévision, recherche montre .

L'ambiguïté individualisée, naturelle des signaux vocaux est susceptible de conduire à des erreurs à moins que les entreprises de technologie apprennent de leurs mésaventures . Des préjugés enracinés pourraient être appréhendés par des applications qui tentent d'interpréter les voix humaines, étant donné que la technologie repose énormément sur l'apprentissage à partir des données qu'elle reçoit

déjà parler à des experts en acoustique. Mais ils doivent écouter attentivement les avertissements pour mieux comprendre les pièges à éviter, avant d'appliquer l'apprentissage automatique au décodage de la voix humaine.

Trevor Cox professeur de Acoustic Engineering, Université de Salford

Cet article a été publié à l'origine le The Conversation . Lisez l'article original .




Source link
Quitter la version mobile