Fermer

juin 4, 2018

Tu peux répéter s'il te plait?!?


La technologie vocale parle couramment les affaires. Est-ce que votre entreprise est prête?

La récente et, heureusement, courte habitude d'Alexa de se lancer dans un rire maniaque improvisé a effrayé certains utilisateurs et a fait une bonne histoire. Il s'avère que les appareils pensaient avoir entendu l'invite "Alexa, rigole." (L'entreprise a désactivé cette invite.)

Une histoire drôle, mais qui englobe parfaitement l'état de la technologie vocale. C'est cool, et ça fonctionne, mais parfois non.

Avec les ventes de dispositifs vocaux prévus pour atteindre plus de 50 millions cette année, la voix est présentée comme la plus grande perturbation des technologies de consommation depuis le smartphone. Et là où les technologies de consommation vont, l'entreprise suit, comme nous l'avons vu avec le BYOD, les médias sociaux et les tablettes. L'industrie mondiale de la technologie vocale devrait atteindre 126,5 milliards de dollars américains d'ici 2023.

Les entreprises en prennent note. En janvier dernier, JPMorgan Chase a embauché VaynerMedia en tant qu'agence record pour la technologie de la voix afin d'aider le géant de la finance à mettre en place sa stratégie de communication avec la clientèle. À la fin de 2017, Amazon a présenté son service Alexa for Business qui utilise les appareils Alexa et les logiciels en milieu de travail. Vos futurs employés auront utilisé la voix depuis la maternelle . La révolution de la voix arrive

L'entreprise pourrait être à la traîne de l'adoption des technologies vocales par les consommateurs, mais 2018 pourrait très bien être l'année où elle commence à se faire sentir dans les lieux de travail à travers le monde. Pourquoi les cadres devraient-ils s'en préoccuper? Un mot: productivité. La capacité des ordinateurs à convertir la voix en texte en utilisant des techniques comme l'apprentissage automatique a tranquillement atteint une précision presque parfaite. Une étude menée par des chercheurs de l'Université de Stanford, de l'Université de Washington et de Baidu USA a révélé que la saisie vocale était presque trois fois plus rapide que la dactylographie et que la différence de taux d'erreur entre les deux types était presque indiscernable.

En outre, la voix est en train de devenir un outil puissant pour deux autres technologies qui tournent autour de l'entreprise: la réalité augmentée (AR) et la réalité virtuelle (VR). Les verres équipés d'AR ont déjà fait des incursions dans des endroits comme l'entrepôt, où un coup d'œil dans le coin supérieur d'une lentille permet aux cueilleurs de trouver des paquets tout en laissant leurs mains libres de travailler plus vite. Les entreprises ajoutent déjà une voix à l'image, augmentant encore la productivité. Selon Juniper Research, les applications de réalité mixte – un repas combiné de voix, de RA et de RV, atteindront 9 milliards de dollars d'ici 2022, et la plupart de ces applications seront dictées par la voix.

Donc, la voix n'est plus seulement pour rire. Mais jusqu'où ira-t-il dans les affaires et comment ces changements se manifesteront-ils? Allons-nous dire au revoir aux claviers, ciao au papier, plus jamais à la réinitialisation d'un mot de passe?

Il y a encore de sérieux obstacles à l'adoption être abordé avant que la voix ne soit vraiment intégrée dans un environnement d'affaires. Et tandis que le rire maléfique spontané peut être drôle, la marge d'erreur dans les produits de consommation n'existe tout simplement pas dans la sphère de l'entreprise. C'est pourquoi il est important d'examiner la promesse et les défis de la voix avant que l'hilarité spontanée n'entraîne un désastre commercial.

Le tsunami imminent de la voix d'entreprise

Les progrès récents de la technologie vocale permettent une interaction plus naturelle. ordinateurs et machines. La plupart des gens sont déjà habitués aux chatbots. Les améliorations dans l'apprentissage automatique, l'intelligence artificielle et le langage naturel mènent toutes à la voix. Le potentiel d'amélioration de l'accessibilité pour les personnes handicapées est énorme (voir «Un nouveau niveau d'accessibilité»).

La technologie d'entreprise suit la technologie grand public d'environ 18 mois, selon Mark Plakias, ancien vice-président du transfert de connaissances aux télécoms Orange Silicon Valley, ce qui signifie que la voix est sur le point de frapper les bureaux cette année. "La technologie va continuer à s'améliorer, les algorithmes vont s'améliorer, et il y aura plus de fonctionnalités avec ces appareils, car il y aura plus d'applications tierces", dit-il.

La voix ne remplacera pas toutes les autres les technologies que vous utilisez déjà; il s'agira plutôt d'un ajout. Le futur de l'expérience utilisateur sera multimodal, impliquant une combinaison d'écrans, AR, VR, voix, chat, stylets et gestes.

Un exemple donne des directions – une combinaison de texte, de voix et de travail visuel, avec visuel menant le casting comme interface principale. Alexander Rudnicky, professeur à l'Université Carnegie Mellon et membre de son groupe Speech Group and Language Technologies Institute, explique que la meilleure façon de combiner les différents éléments devrait être une décision au cas par cas. La clé est de s'assurer, comme pour donner des instructions, que vous faites le meilleur choix d'interfaces primaires et secondaires pour chaque scénario. «Certaines personnes comme moi doivent toujours prendre du recul et réfléchir à ce dont l'humain a réellement besoin dans cette situation plutôt qu'à ce qui semble cool.»

Toutefois, toutes les situations ne nécessitent pas le menu complet des options d'interface. Dans les cas où les utilisateurs choisissent entre la lecture et la voix, le chatter ne sera pas toujours gagnant. Dans certaines circonstances, la lecture sera encore plus efficace ou pratique; dans d'autres, la voix sera. Par exemple, l'analyse visuelle d'une boîte de réception de courrier électronique reste le meilleur moyen de déterminer ce qui est important: est-ce que quelqu'un veut écouter tous les messages? Mais la voix peut être l'outil de choix pour répondre. La possibilité de basculer entre les deux modes pourrait aider à apprivoiser la bête de l'e-mail.

Comme pour toute nouvelle technologie sur le lieu de travail, il y aura une période de confiance pour être fiable et être une aide et non un obstacle. . La voix s'accompagne de complications supplémentaires: À quel point les employés seront-ils à l'aise de parler un mémo important dans une application de synthèse vocale au lieu de le taper? Peut-être pas beaucoup, au début. Et surtout pas devant des collègues.

Exprimer un nouveau niveau d'accessibilité

Pour certains, la technologie vocale peut sembler une commodité. Pour les personnes handicapées, cela pourrait changer toute leur carrière.

La technologie vocale sur le lieu de travail pourrait transformer l'accessibilité et propulser certaines innovations spécialisées des laboratoires de recherche et des bureaux pour aider les personnes ayant des problèmes. tels que les troubles de la vision. Pourtant, alors que la technologie vocale semble très prometteuse en tant que technologie d'assistance, les développeurs doivent penser à tous les aspects de l'accessibilité dès le départ ou à des catégories entières protégées d'employés pourraient être exclues. Par exemple, pour ceux dont l'anglais n'est pas leur langue maternelle, ne pas être compris par un système vocal peut être un gros inconvénient au travail. "Je pense que nous devons être très conscients des conséquences imprévues et en particulier de la façon dont certaines personnes pourraient être laissées pour compte", explique Sara Holoubek, PDG de Luminary Labs, cabinet de conseil en innovation et stratégie basé à New York.

Read More Close

La façon dont vous dites

Nous pouvons tenir le langage pour acquis, mais c'est en réalité une activité extrêmement complexe. L'un des grands défis de la conception de la technologie linguistique est de prédire le type et le style de langage utilisé dans un contexte particulier, dit Rudnicky. Nous avons tendance à parler de manière particulière dans des cas spécifiques. Nous avons également une très grande variabilité de langage – nous pouvons parler des mêmes choses de différentes manières. La plupart d'entre nous parlent d'une façon à la maison et d'une autre au travail, et cela peut aussi différer selon la personne à qui nous parlons – collègue? patron? -et qu'en est-il. Ce que les chercheurs faisaient auparavant, c'est simuler un contexte et une conversation, et utiliser la transcription résultante comme modèles de langage et de grammaire pour les systèmes à apprendre. «Malheureusement, dit Rudnicky, ce serait quelque chose qui ne finira jamais vraiment parce qu'il y a toujours une autre façon de dire quelque chose.»

Il existe de nouvelles techniques qui sont plus simples, en utilisant la distance entre l'ancienne et la nouvelle itération sens. En d'autres termes, correspondre à l'intention et la langue correcte. Alors que l'apprentissage automatique, par exemple, a minimisé le défi de l'analyse de données pour les modèles de langage, «vous devez toujours savoir de quoi les gens parlent et quelle est leur intention», dit-il. (Voir "Comment Tech apprend à parler").

Comment Tech apprend à parler

Donner la voix aux uns et aux zéros nécessite une combinaison de méthodes.

Ce n'est pas une petite chose. Voici les principaux éléments qui le rendent possible:

  • Traitement du langage naturel. La PNL est un domaine de l'IA qui se situe à l'intersection de l'informatique et de la linguistique computationnelle.
  • Modèles statistiques. Les chercheurs utilisaient auparavant un ensemble de règles de langage rigides incorporées dans des grammaires, mais utilisent maintenant une approche de modèles statistiques plus souples qui peut attribuer des probabilités à différentes interprétations de la voix – autrement dit, une façon plus réaliste de penser le langage
  • Composants linguistiques. Voice Tech analyse différents aspects de la façon dont nous parlons, y compris la grammaire, la syntaxe, le choix des mots, l'analyse des sentiments, la sémantique, le vocabulaire, l'utilisation contextuelle et l'identification et la correction des erreurs.
  • . Ce sont des systèmes qui peuvent gérer une interaction avec un humain.
  • Compréhension du langage naturel. L'un des plus grands défis pour AI, NLU doit faire face au désordre du langage – tout l'argot, les erreurs et les nouveaux mots que nous échangeons et inventons.
  • L'apprentissage interactif des langues. Une approche plus récente et un éloignement des modèles statistiques, l'apprentissage interactif utilise des interactions avec les humains pour enseigner l'IA.
  • Le test de Turing. Le test original de l'informaticien Alan Turing juge si une machine est assez bonne pour tromper les gens en leur faisant croire que c'est humain
  • The Winograd Schema Challenge. Cette mise à jour du test de Turing, lancé en 2016, est un jeu-questionnaire à choix multiples pour l'intelligence artificielle. Lors du test inaugural, le score le plus élevé était 58% .

Lire la suite Fermer

Les centres d'appels utilisent l'enregistrement vocal, l'exploration minière et l'analyse des sentiments depuis des années, dit Plakias. ne fonctionne que parce qu'il s'agit d'une gamme limitée de conversations. Passer des centres d'appels aux réunions d'affaires est le prochain défi. Un système vocal doit identifier les locuteurs, ce qui est important, ce qui est bavard, quelles directions sont données, et beaucoup d'autres variables. De plus, comme le souligne Plakias – ce n'est pas une surprise – il n'est pas inhabituel que les gens soient très distraits lors des réunions.

«Ce qui se passe avec les réunions, ce sont les tâches fixes que vous pouvez prédire. "Les gens parlent de tout ce dont ils vont parler, et essayer de comprendre ce qui se passe dans une réunion est un problème plus difficile."

À l'heure actuelle, la technologie vocale peut écouter et prendre quelques commandes. La prochaine étape sera la technologie vocale avec la capacité de résumer toute une réunion par elle-même. C'est vraiment difficile à faire. "La plupart des experts de l'IA diront que ce genre de raisonnement est à des années", dit Plakias.

Et si errer est humain, la bonne nouvelle est que nos erreurs sont précieuses pour des chercheurs comme Rudnicky. «Les erreurs sont vraiment importantes parce qu'elles continuent à se produire», dit-il

mais les erreurs sont difficiles pour l'IA et la technologie vocale, car elles doivent être identifiées et b) doivent être corrigées. La confirmation implicite – une répétition verbale, comme un serveur nous répète un ordre avant de nous diriger vers la cuisine – est une façon de travailler avec les erreurs. «Vous voulez que les gens aient une idée de ce qui se passe dans l'esprit de la machine, comme vous le faites lorsque vous parlez avec quelqu'un», explique Rudnicky. Lors d'une conversation avec un autre humain, "vous voulez garder une trace de ce qu'ils pensent, ce que vous faites en inférant essentiellement de ce qu'ils disent." La technologie vocale d'AI doit être capable de faire la même chose. 19659004] Concevoir la voix pour la meilleure expérience utilisateur est un territoire inconnu parce que nous sommes tellement habitués à voir et à toucher, et UX a été conçu autour de ces actions. Les informations sur un écran sont présentées avec du texte contextuel, des graphiques, etc., ce qui permet d'anticiper ce que l'utilisateur pourrait vouloir faire ensuite, ou de guider l'action suivante, ou de fournir une sorte de focus. Mais la voix est comme une toile vierge, donc la conception de l'utilisateur doit contourner ces indices.

La technologie vocale vise à rendre le travail plus efficace, moins stressant, plus sûr et peut-être même amusant. faites partie de l'avenir du travail.

Discerner la véritable intention d'un utilisateur est délicat. Nous avons l'habitude de dire aux systèmes quoi faire, mais nous ne devrions pas aller par réflexe à l'autre extrême où le système prend la tête et anticipe chaque action. Clippy de Microsoft est un exemple précoce de quelque chose qui a pensé qu'il savait ce que vous vouliez faire et rarement (et est ainsi devenu un mème défaillant en avance sur son temps). Il y a un terrain d'entente qui tient compte du fait que les machines sont bien meilleures à apprendre qu'auparavant (et continuent de s'améliorer), mais les humains sont très, très bons à apprendre. Les chercheurs ont récemment jugé que l'IA la plus intelligente avait le QI d'un enfant de six ans

Holoubek de Luminary Labs pense que les compétences sont disponibles et populaires avec la technologie vocale du consommateur, comme la planification de voyage et la recherche d'information , pourrait conduire au développement de compétences d'entreprise. Aujourd'hui, Alexa, qui a plus de 10 000 compétences, pourrait gérer une playlist; demain, il pourrait gérer le système de gestion des actifs numériques d'une entreprise ou trier de nombreux CV pour trouver des candidats.

La ​​technologie vocale facilitera le dépôt d'un rapport ou une demande, particulièrement dans un environnement tel que la santé ou la construction. besoin de garder les deux mains libres. Les médecins sont des leaders dans l'utilisation de la voix sur le lieu de travail, développant des enceintes intelligentes pour les informations sur les symptômes, les traitements et les dossiers des patients (bien que les dispositifs vocaux grand public ne soient pas encore conformes aux normes HIPAA). Les hôpitaux, y compris l'hôpital pour enfants de Boston et le Beth Israel Deaconess Medical Center, ont des initiatives vocales qui cherchent des moyens d'utiliser la voix pour aider les patients pendant leurs séjours à l'hôpital. Et il est déjà utilisé dans les ambulances pour aider les médecins à déterminer les protocoles de traitement sur le chemin de l'urgence, par exemple. «Tout type de fonction de recherche à l'intérieur de l'organisation bénéficierait grandement de la voix», explique Holoubek.

Voice va aussi au-delà de son rôle agaçant comme gardien de l'enfer de l'arbre d'appel. Il devient un élément plus actif et utile de l'expérience client avec des produits et services à commande vocale, comme l'aide à l'information sur les produits. Cela réduira également le problème de l'interrogation d'une base de données, comme un système CRM, car la recherche vocale permet d'obtenir plus de résultats, d'activer des plongées de données complexes et de fonctionner plus rapidement qu'avec le clavier. Utiliser la voix pour la recherche est aussi une chose très naturelle à faire – après tout, c'est la façon dont nous nous posons des questions.

«Il faudra beaucoup de travail et d'amélioration pour que la technologie vocale atteigne le point où nous pouvons essayer une application comme la recherche dans une base de données, ce qui explique précisément pourquoi la nouvelle technologie commence toujours du côté des consommateurs », explique Holoubek. "Il y a beaucoup moins de risques à piloter quelque chose avec une base de consommateurs."

Un problème est notre monde de données. C'est comme la dernière scène d'entrepôt dans le film Indiana Jones . Autant de boîtes – financières, logistiques, supply chain, CRM – toutes isolées dans leurs propres caisses. Aujourd'hui, des équipes entières d'analyse ou d'exploitation de données travaillent sur des données pour les rendre utiles. Pour que la voix fonctionne, les données doivent être accessibles et organisées de manière à permettre la recherche de diverses applications et applications.

Différents dispositifs de consommation ont déjà un "jardin clos" d'écosystèmes, dit Dan Miller de Opus Research, spécialisée dans la technologie vocale, avec des compétences développées pour des systèmes d'exploitation spécifiques. Il pense que la création de systèmes qui permettent l'intégration et la personnalisation avec des «compétences de tueur» viendront probablement de l'extérieur des grands joueurs actuels. Plus tôt cette année, Amazon a relancé sa console de compétences de développeur pour permettre aux développeurs de créer et tester des compétences plus facilement. Rappelez-vous "Il y a une application pour ça"?

Fairplay

Le biais et l'intelligence émotionnelle sont d'autres défis pour la technologie vocale

Nous savons déjà que l'IA peut avoir beaucoup de préjugés parce qu'elle apprend de ses créateurs et de ses utilisateurs. Les entreprises doivent donc réfléchir à la manière dont cela pourrait se manifester sur le lieu de travail, explique Holoubek. Les recruteurs qui demandent des curriculum vitae, par exemple, pourraient négliger un groupe de personnes en raison de leurs préjugés.

La source de l'intelligence émotionnelle basée sur la machine est traditionnellement basée sur des analyses de centres d'appels. Mais dans ce scénario, les gens ont tendance à être heureux ou bouleversés, un paysage émotionnel binaire. Les interactions régulières entre les gens n'ont pas tendance à être aussi claire. L'IA de la technologie vocale aura besoin de plus d'intelligence émotionnelle pour répondre correctement, personnaliser les interactions et, tout simplement, encourager les employés à interagir avec elle. C'est à propos du confort. Nous n'en sommes qu'au début de la création de l'IA avec l'IE, mais un premier pas, un chatbot émotionnellement intelligent a été révélé l'année dernière.

Voyez-moi, écoutez-moi

prendre la voix de la technologie au prochain niveau la combine avec la réalité artificielle et virtuelle. Le potentiel de VR ou AR avec expérience utilisateur conversationnelle pourrait créer de grandes expériences sans l'interférence de la souris et du clavier.

Imaginez l'intégration de nouveaux employés en utilisant la technologie vocale et AR. Deux semaines avant qu'ils commencent à travailler, l'employeur envoie des casques AR à leurs maisons et quand ils le veulent, ils peuvent dire au système de leur faire visiter leurs nouveaux bâtiments, de nouveaux bureaux, et faire une visite de tout l'espace- " Emmenez-moi à la station de café! »Les nouveaux employés pourront se familiariser avec le nouvel environnement avant d'avoir pénétré un (vrai) pied à l'intérieur.

Il pourrait également présenter des collègues, permettre des séances de formation, accélérer la configuration de l'espace de travail, et supprimer l'inconfort et la confusion du premier jour redouté (personne n'aime vraiment demander où sont les salles de bains). Ce sera une expérience complètement nouvelle qui sera plus efficace et même intéressante et excitante pour le nouvel employé.

Les projets de maintenance pourraient être achevés plus rapidement et en toute sécurité avec l'utilisation de la RA et de la technologie vocale. Un casque AR peut permettre à un technicien de maintenance de déterminer quelle machine ne fonctionne pas correctement, de diagnostiquer le problème, de rechercher et d'essayer virtuellement des pièces de rechange, de savoir si elles sont disponibles et de générer une commande d'achat.

Les défis de la vie privée et de la sécurité

Pourtant, au fur et à mesure que la voix prend de la vitesse, elle arrive sur les lieux à un moment de préoccupations accrues concernant la sécurité et la façon dont les données sont utilisées. Candid Wüest, principal chercheur sur les menaces chez Symantec, dit: «Si vous le construisez, ils vont le pirater.» Déjà, les systèmes de sécurité et voix ont été trompés. Usurper une voix est plus difficile, dit-il, mais pas impossible. Étant donné que cela exigerait un échantillon de voix, les cadres du secteur public seraient plus susceptibles d'être des cibles que les employés de la base. «C'est un risque qui doit être pris en compte», dit-il

. Comme pour les autres systèmes biométriques, une fois qu'un modèle de voix est copié, il n'y a pas de retour en arrière. La priorité de sécurité, dit Wüest, est de mettre en place des systèmes capables de distinguer entre une voix en direct et un enregistrement. L'utilisation d'extraits vocaux ou d'expressions vocales générés aléatoirement, une seule fois, est une bonne idée. La plupart des applications vocales actuelles sont destinées à l'authentification – l'utilisation de la voix dans des environnements sensibles pourrait nécessiter des combinaisons de sécurité telles que le code PIN et la voix

. Outre le facteur de bruit, les entreprises doivent prendre en compte les informations sensibles accessibles via la voix. Les microphones sont devenus de plus en plus petits, et les bureaux à aire ouverte règnent

Il sera difficile d'essayer de déterminer ce qui est privé et ce qui peut ou devrait être partagé, à la fois en interne et avec des fournisseurs et clients externes. travailler mieux, plus ils sont utilisés (c'est-à-dire, plus ils en savent sur un individu), ce qui signifie que l'on considère comment l'information est utilisée, gardée et détenue, dit Miller. "Nous cartographions pour traiter la parole comme un atout."

Les nouvelles règles du Règlement général sur la protection des données qui sont entrées en vigueur en mai contiennent des règles sur les modèles biométriques. Les données qui peuvent être utilisées pour identifier un individu doivent être sécurisées, et les données personnelles sensibles ont des exigences de sécurité plus strictes en matière d'accès et de stockage, explique Wüest. "Cela permettra d'augmenter la sécurité autour de la façon dont ces informations sont stockées et traitées", dit-il.

La transparence est la meilleure politique, ajoute Wüest, ce qui signifie être ouvert quand les microphones sont allumés ou éteints; ce qui est stocké, pour combien de temps, et ainsi de suite. Les employés et les clients peuvent être sensibles au stockage de leur voix (seuls quelques attributs de leur voix sont stockés, mais toujours). "Une partie très importante est qu'ils informent ouvertement tous les utilisateurs et clients", dit-il. "Je leur dis ce qu'ils vont stocker et comment ça va être utilisé parce que si tout est gardé secrètement, tout le monde aura ses soupçons et pensera" Oh, ils enregistrent tout ce que je dis. "»

Pays pour parler haut

Le test ultime pour la technologie vocale d'entreprise peut ne pas être les applications de haut niveau, grande image, mais quelque chose de plus simple mais tout aussi important-satisfaction des employés. La voix pourrait aider à rétablir l'équilibre entre le travail et la vie personnelle en aidant les employés à devenir beaucoup plus proactifs, à mieux planifier leur journée de travail et à travailler de façon plus productive. L'espoir est que plus les assistants vocaux deviennent intelligents, plus ils accompliront de nombreuses tâches quotidiennes, et les intégrations à travers les silos de données amélioreront la communication, la coopération et l'efficacité inter-organisationnelles. En d'autres termes, plus tard dans la nuit, les rapports sur les données sont en train de fouiller.

Le but de la technologie vocale est de rendre le travail plus efficace, moins stressant, plus sûr et peut-être même amusant. avenir du travail. «La voix ne devrait pas être utilisée comme un moyen d'intégrer les humains», explique Holoubek. «Cela devrait être un moyen de les élever et d'utiliser tout ce qui fait plaisir à l'humanité pour faire des affaires et bien faire les affaires.» D!

Lire plus d'articles stimulants dans le dernier numéro de Digitalist Magazine, Quarterly exécutif .




Source link