Fermer

septembre 18, 2024

API vocale Web | AU NOUVEAU BLOG

API vocale Web | AU NOUVEAU BLOG


Aperçu

L’API Web Speech vise à permettre aux développeurs Web de fournir dans un navigateur Web des fonctionnalités de saisie vocale et de sortie de synthèse vocale. Il s’agit d’une API JavaScript qui permet aux sites Web et aux applications Web d’intégrer les deux fonctionnalités clés de la reconnaissance vocale et de la synthèse vocale dans leurs fonctionnalités. Il fonctionne en traduisant la parole du micro de votre appareil en texte (reconnaissance vocale) et vice versa (synthèse vocale). Cette API est particulièrement utile pour créer des expériences Web plus accessibles et interactives, telles que des applications Web vocales, des technologies d’assistance et d’autres projets Web innovants.

L’API prend en charge les entrées brèves (commandes courtes) ainsi que les entrées continues. Bien que la brève saisie le rende adapté à la traduction linguistique, la capacité de dictée continue et approfondie le rend idéal pour l’intégration avec les applications applaudissements.

Compatibilité du navigateur

L’API Web Speech est encore une technologie expérimentale et n’est pas universellement prise en charge par tous les navigateurs. À l’heure actuelle, il est pris en charge par Google Chrome, Safari et Android et partiellement pris en charge par d’autres navigateurs comme Firefox et Microsoft Edge. Il est toujours conseillé de vérifier la compatibilité actuelle du navigateur avant d’implémenter l’API Web Speech dans votre application Web.

Pourquoi avons-nous besoin de la technologie Web Speech ?

Les modèles d’IA d’aujourd’hui comme Siri, Google Assistant, Alexa et Cortana sont devenus nos compagnons numériques constants, toujours prêts à répondre à nos questions, ou à écouter nos chansons préférées, à naviguer sur des cartes en conduisant, à éteindre les lumières en étant couché – toutes ces activités. sont tout à fait normaux de nos jours. Mais que se passerait-il si nous allions plus loin et explorions les nombreuses autres possibilités offertes par l’utilisation de la navigation vocale, non seulement dans des applications spécifiques, mais partout ? Imaginez que vous faites une présentation et que vous passez aux diapositives suivantes à chaque fois que vous devez demander à votre ami « Diapositive suivante, s’il vous plaît ». vous êtes dans la cuisine, vous préparez le dîner et vous devez toujours vous laver les mains pour ne pas salir votre écran lorsque vous regardez l’étape suivante de la recette sur votre téléphone portable. Toutes ces limites me font croire que la technologie vocale Web et les solutions vocales offrent d’immenses possibilités de développement à l’avenir.

Reconnaissance vocale

Dans l’interface de reconnaissance vocale, vous parlez dans un microphone, puis le service de reconnaissance vocale traite la parole humaine dans un format texte lisible. Il offre la capacité de reconnaître des mots et des expressions. De nos jours, il est largement utilisé pour accéder aux applications d’assistant vocal afin de permettre la navigation mains libres sur les gadgets électroniques. La reconnaissance vocale échantillonne d’abord l’audio et supprime tout bruit de fond inutile avant de séparer le clip, mappe la voix vocale avec le dictionnaire de grammaire et renvoie le texte.

Examinons maintenant en profondeur le fonctionnement de la reconnaissance vocale. Tout d’abord, nous devons créer un nouvel objet SpeedRecognition à l’aide du constructeur de l’interface. Lorsque nous initialisons l’objet de reconnaissance vocale, nous n’avons pas besoin d’effectuer cette action à chaque fois que l’utilisateur commence à parler. Nous attachons également un gestionnaire pour démarrer le processus de reconnaissance. Notez qu’à l’intérieur du gestionnaire, nous définissons également le mode de reconnaissance pour la commande brève ou la dictée étendue.

Reconnaissance vocale

Nouvel objet de reconnaissance vocale

Une fois que vous parlez dans le microphone, l’événement de résultat sera déclenché, capturant la parole reconnue. Cette parole est stockée dans la variable de transcription. Il renvoie à la fois les résultats intermédiaires (lorsque l’orateur fait une pause pendant qu’il parle) et les résultats finaux. Le résultat peut être traité selon les besoins.

Fonctions de rappel de reconnaissance vocale

  • au démarrage: onStart est déclenché lorsque le système de reconnaissance vocale commence à écouter et à reconnaître votre parole. Un message peut s’afficher pour informer l’utilisateur que l’appareil est désormais en écoute.
  • à l’arrêt: Il génère un événement qui se déclenche à chaque fois que l’utilisateur termine la reconnaissance vocale.
  • surErreur: Si l’API ne parvient pas à reconnaître la parole, cet événement est déclenché à l’aide de l’interface SpeechRecognitionError. Il propose des méthodes de saisie alternatives.
Reconnaissance vocale

Fonction de gestionnaire de reconnaissance vocale

Synthèse vocale

La synthèse vocale est le revers de l’API Web Speech. Il vous permet de convertir du texte en mots prononcés. La synthèse vocale consiste à prendre le texte d’une application et à le convertir en parole, puis à le lire depuis le haut-parleur de votre appareil. La synthèse vocale peut être utilisée pour tout, depuis les indications routières jusqu’à la lecture de notes de cours pour des cours en ligne. La synthèse vocale est très bénéfique pour la lecture d’écran pour les utilisateurs malvoyants. Son objectif est de rendre la sortie informatique claire, naturelle et fluide. Selon les différents niveaux de fonction de la parole humaine, la synthèse vocale peut également être divisée en trois niveaux : la synthèse texte-parole (TTS), la synthèse concept-parole, de l’intention de parole à la synthèse vocale. Ces trois niveaux reflètent les différents processus de formation du contenu vocal dans le cerveau humain et impliquent les activités neuronales de haut niveau du cerveau humain. À l’heure actuelle, la technologie de synthèse vocale mature ne peut compléter que la synthèse TTS, également souvent appelée technologie TTS.

Voyons maintenant comment faire parler votre navigateur. L’interface de pilotage de la synthèse vocale est SpeechSynthesis. Tout d’abord, nous devons créer une instance du Synthèse vocale interface. On récupère une liste des voix disponibles en utilisant SpeechSynthesis.getVoices() afin que l’utilisateur puisse choisir la voix qu’il souhaite. La langue par défaut sera celle de votre application ou de votre navigateur, sauf indication contraire à l’aide de l’attribut .lang.

Synthèse vocale

créer une instance du contrôleur de synthèse vocale

Créer une instance de Synthèse vocaleÉnonciation L’interface contient le texte de l’entrée que le service lira, ainsi que des informations telles que la langue, le volume, la hauteur et le tarif. Après avoir spécifié ces valeurs, placez l’instance dans une file d’attente d’énoncés qui indique à votre navigateur quoi dire. Démarrez la prononciation vocale via le SpeechSynthesis.speak() méthode.

API de parole Web

Interface d’énoncé de synthèse vocale

Propriétés de l’instance SpeechSynthesis

  • SpeechSynthesis.paused : une valeur booléenne qui renvoie vrai si l’objet SpeechSynthesis est dans un état de pause.
  • SpeechSynthesis.ending : une valeur booléenne qui renvoie vrai si la file d’attente d’énoncés contient des énoncés non prononcés.
  • SpeechSynthesis. Speaking : une valeur booléenne qui renvoie vrai si un énoncé est actuellement en train d’être prononcé.

Méthodes d’instance de synthèse vocale

  • SpeechSynthesis.cancel() : supprime tous les énoncés de la file d’attente des énoncés.
  • SpeechSynthesis.getVoices() : renvoie une liste d’objets SpeechSynthesisVoice représentant toutes les voix disponibles sur l’appareil actuel.
  • SpeechSynthesis.pause() : met l’objet SpeechSynthesis dans un état de pause.
  • SpeechSynthesis.resume() : met l’objet SpeechSynthesis dans un état non suspendu.

Avantage et expérience utilisateur

  • Accessibilité: La technologie vocale améliore considérablement l’accessibilité en offrant un mode d’interaction alternatif pour ceux qui rencontrent des difficultés avec les saisies traditionnelles au clavier ou à la souris. En intégrant des capacités de reconnaissance et de synthèse vocales dans les applications Web, les développeurs peuvent créer des expériences plus inclusives pour les utilisateurs handicapés. Il améliore l’expérience d’apprentissage des étudiants handicapés, car ils peuvent interagir avec le contenu éducatif en utilisant leur voix, simplifiant ainsi la navigation, l’interaction et l’engagement avec le matériel.
  • Interaction conviviale: Un logiciel de reconnaissance vocale offre un moyen simple d’insérer des mots dans un document sans avoir à être retardé dans le processus. Il permet à l’utilisateur de communiquer avec l’utilisateur de manière plus naturelle. Ceci est très utile dans les scénarios où la saisie n’est pas pratique.
  • Efficacité: L’utilisation de la technologie vocale Web peut rendre les choses plus pratiques et plus rapides, ce qui à terme augmente la productivité. La conversion parole-texte peut réduire considérablement le temps consacré à la saisie des données.

Défis et considérations

  • Précision: La précision des systèmes de reconnaissance vocale doit être élevée pour créer de la valeur. C’est un facteur très important à considérer lors du choix des outils, notamment pour des besoins médicaux ou juridiques. Atteindre une grande précision dans la reconnaissance vocale avec différents accents et langues reste un défi. Le taux d’erreur sur les mots (WER) est une mesure couramment utilisée pour mesurer la précision et les performances d’un système de reconnaissance vocale. Les développeurs doivent tenir compte des limites de la technologie et gérer les attentes des utilisateurs.
  • Bruit de fond: Lorsque le système est exposé au monde réel, il y a beaucoup de bruits de fond tels que la diaphonie et le bruit ambiant. Le bruit de fond peut constituer un obstacle important à l’amélioration de la qualité audio. Les développeurs doivent réfléchir à des moyens de filtrer le bruit et de tenir compte de diverses perturbations environnementales.
  • Confidentialité et sécurité des données: L’enregistrement vocal d’une personne est utilisé comme données biométriques. Par conséquent, de nombreuses personnes sont réticentes à utiliser la technologie vocale car elles pensent que cela les rend vulnérables aux pirates informatiques et autres menaces de sécurité. Des marques telles que Google Home et Alexa collectent des données vocales pour améliorer la « précision » de leurs appareils. Les entreprises utilisent également les enregistrements vocaux des clients recueillis par des assistants vocaux, pour cibler des publicités pertinentes auprès de leurs clients sur leurs différentes plateformes. Ces données vocales peuvent être sensibles et soulever des problèmes de confidentialité. Les entreprises doivent suivre des politiques d’autorisations strictes et faire preuve de transparence pour l’utilisation des données vocales des clients.
  • Assistance hors ligne : Une connexion Internet est nécessaire au fonctionnement de l’API. Pour le moment, le navigateur envoie l’entrée à ses serveurs, qui renvoient ensuite le résultat. Cela limite les circonstances dans lesquelles l’API Web Speech peut être utilisée.

Conclusion

L’API Web Speech a la capacité de permettre de communiquer avec des personnes handicapées. en matière d’assistance et de contrôle vocal, les possibilités sont infinies. Le domaine de la technologie vocale offre de vastes possibilités d’amélioration et de développement à l’avenir.

VOUS TROUVEZ CECI UTILE ? PARTAGEZ-LE






Source link