Fermer

avril 9, 2023

Comment démarrer avec l’API de synthèse vocale de Google Cloud –

Comment démarrer avec l’API de synthèse vocale de Google Cloud –


Dans ce didacticiel, nous vous guiderons tout au long du processus de configuration et d’utilisation de l’API Text-to-Speech de Google Cloud, y compris des exemples et des extraits de code..

Présentation de Google pour l’API Text-to-Speech

En tant qu’ingénieur logiciel, vous devez souvent intégrer diverses API dans vos applications pour améliorer leurs fonctionnalités. L’API Text-to-Speech de Google Cloud est un outil puissant qui convertit le texte en discours au son naturel.

Les cas d’utilisation les plus courants de l’API Google TTS incluent :

  • Accessibilité: L’une des principales applications de la technologie TTS est d’améliorer l’accessibilité pour les personnes ayant une déficience visuelle ou des difficultés de lecture. En convertissant le texte en parole, l’API permet aux utilisateurs d’accéder au contenu numérique via l’audio, ce qui leur permet de naviguer plus facilement sur les sites Web, de lire des articles et d’interagir avec les services en ligne.
  • Assistants virtuels: L’API TTS est souvent utilisée pour alimenter les assistants virtuels et les chatbots, leur permettant de communiquer avec les utilisateurs d’une manière plus humaine. Cela améliore l’expérience utilisateur et permet aux développeurs de créer des applications plus attrayantes et interactives.
  • Apprentissage en ligne: Dans le secteur de l’éducation, l’API Google TTS peut être utilisée pour créer des versions audio de manuels, d’articles et d’autres supports d’apprentissage. Cela permet aux étudiants de consommer du contenu éducatif lors de leurs déplacements, en multitâche ou tout simplement en préférant écouter plutôt que lire.
  • Livres audio: L’API Google TTS peut être utilisée pour convertir du contenu écrit en livres audio, offrant aux utilisateurs un autre moyen de profiter de livres, d’articles et d’autres documents écrits. Cela permet non seulement d’économiser du temps et des ressources sur la narration manuelle, mais également de créer et de distribuer rapidement du contenu.
  • Apprendre une langue: L’API prend en charge plusieurs langues, ce qui en fait un outil précieux pour les applications d’apprentissage des langues. En générant un discours précis et naturel, l’API TTS peut aider les utilisateurs à améliorer leurs capacités d’écoute, leur prononciation et leur compréhension globale de la langue.
  • Marketing de contenu: Les entreprises peuvent tirer parti de l’API TTS pour créer des versions audio de leurs articles de blog, articles et autres supports marketing. Cela leur permet d’atteindre un public plus large, y compris ceux qui préfèrent écouter du contenu plutôt que de le lire.
  • Télécommunications: L’API TTS peut être intégrée dans les systèmes de réponse vocale interactive (IVR), permettant aux entreprises d’automatiser les appels du service client, de fournir des informations aux appelants et de les acheminer vers les services appropriés. Cela aide les entreprises à économiser du temps et des ressources tout en maintenant un haut niveau de satisfaction client.

Utilisation de Google pour l’API Text-to-Speech

Conditions préalables

Avant de commencer, assurez-vous que vous disposez des éléments suivants :

  • Un compte Google Cloud Platform (GCP). Si vous n’en avez pas, inscrivez-vous pour un essai gratuit ici.
  • Connaissance de base de la programmation Python.
  • Un éditeur de texte ou un environnement de développement intégré de votre choix.

Étape 1 : Activer l’API de synthèse vocale

  • Connectez-vous à votre compte GCP et accédez au console GCP.
  • Cliquez sur le menu déroulant du projet et créez un nouveau projet ou sélectionnez-en un existant.
  • Dans la barre latérale gauche, cliquez sur API et services > Bibliothèque.
  • Rechercher API de synthèse vocale et cliquez sur le résultat.
  • Cliquez sur Activer pour activer l’API pour votre projet.

Étape 2 : Créer des identifiants d’API

  • Dans la barre latérale gauche, cliquez sur API et services > Crédits.
  • Cliquez sur Créer des identifiants et sélectionnez Compte de service.
  • Remplissez les détails requis et cliquez sur Créer.
  • Sur le Accorder à ce compte de service l’accès au projet page, sélectionnez la Utilisateur de l’API Cloud Text-to-Speech rôle et cliquez Continuer.
  • Cliquez sur Fait pour créer le compte de service.
  • Dans le Comptes de service liste, cliquez sur le compte de service nouvellement créé.
  • Sous ClésCliquez sur Ajouter une clé et sélectionnez JSON.
  • Téléchargez le fichier de clé JSON et stockez-le en toute sécurité, car il contient des informations sensibles.

Étape 3 : Configurez votre environnement Python

  • Installez le SDK Google Cloud en suivant les instructions ici.

  • Installez la bibliothèque Google Cloud Text-to-Speech pour Python :

      pip install --upgrade google-cloud-texttospeech
    
  • Met le GOOGLE_APPLICATION_CREDENTIALS variable d’environnement au chemin du fichier de clé JSON que vous avez téléchargé précédemment :

      export GOOGLE_APPLICATION_CREDENTIALS="/path/to/your/keyfile.json"
    

    (Remplacer /path/to/your/keyfile.json avec le chemin d’accès réel à votre fichier de clé JSON.)

Étape 4 : Créer un script Python

Créez un nouveau script Python (tel que text_to_speech.py) et ajoutez le code suivant :

from google.cloud import texttospeech
def synthesize_speech(text, output_filename):


client = texttospeech.TextToSpeechClient()


input_text = texttospeech.SynthesisInput(text=text)


voice = texttospeech.VoiceSelectionParams(
language_code="en-US",
ssml_gender=texttospeech.SsmlVoiceGender.FEMALE
)


audio_config = texttospeech.AudioConfig(
audio_encoding=texttospeech.AudioEncoding.MP3
)


response = client.synthesize_speech(
input=input_text, voice=voice, audio_config=audio_config
)


with open(outputwb") as out:
out.write(response.audio_content)
print(f"Audio content written to '{output_filename}'")


synthesize_speech("Hello, world!", "output.mp3")

Ce script définit un synthesize_speech fonction qui prend une chaîne de texte et un nom de fichier de sortie comme arguments. Il utilise l’API Google Cloud Text-to-Speech pour convertir le texte en parole et enregistre l’audio résultant sous forme de fichier MP3.

Étape 5 : Exécutez le script

Exécutez le script Python à partir de la ligne de commande :

python text_to_speech.py

Cela va créer un output.mp3 fichier contenant la version parlée du texte d’entrée « Hello, world! ».

Étape 6 (facultative) : Personnalisez les paramètres de voix et d’audio

Vous pouvez personnaliser les paramètres vocaux et audio en modifiant le voice et audio_config variable dans le synthesize_speech fonction. Par exemple, pour changer la langue, remplacez en-US avec un code de langue différent (comme es-ES pour l’espagnol). Pour changer le sexe, remplacez texttospeech.SsmlVoiceGender.FEMALE avec texttospeech.SsmlVoiceGender.MALE. Pour plus d’options, reportez-vous au Documentation de l’API de synthèse vocale.

Réglage fin des paramètres de synthèse vocale de Google

L’API Speech-to-Text de Google offre une large gamme de paramètres de configuration qui permettent aux développeurs d’affiner le comportement de l’API pour répondre à des cas d’utilisation spécifiques. Certains des paramètres de configuration les plus courants et leurs cas d’utilisation incluent :

  • Encodage audio: spécifie le format d’encodage du fichier audio envoyé à l’API. Les formats d’encodage pris en charge incluent FLAC, LINEAR16, MULAW, AMR, AMR_WB, OGG_OPUSet SPEEX_WITH_HEADER_BYTE. Les développeurs peuvent choisir le format d’encodage approprié en fonction de la source d’entrée, de la qualité audio et de l’application cible.
  • Taux d’échantillonnage audio: spécifie le taux auquel le fichier audio est échantillonné. Les taux d’échantillonnage pris en charge incluent 8 000, 16 000, 22 050 et 44 100 Hz. Les développeurs peuvent sélectionner le taux d’échantillonnage approprié en fonction de la source d’entrée et des exigences de l’application cible.
  • Code de langue: spécifie la langue du discours d’entrée. Les langues prises en charge incluent un large éventail d’options telles que l’anglais, l’espagnol, le français, l’allemand, le mandarin et bien d’autres. Les développeurs peuvent utiliser ce paramètre pour s’assurer que l’API transcrit avec précision le discours d’entrée dans la langue appropriée.
  • Modèle: permet aux développeurs de choisir entre différents modèles de transcription fournis par Google. Les modèles disponibles incluent par défaut, vidéo, phone_callet command_and_search. Les développeurs peuvent choisir le modèle approprié en fonction de la source d’entrée et des exigences de l’application cible.
  • Contextes vocaux: permet aux développeurs de spécifier des mots ou des phrases spécifiques qui sont susceptibles d’apparaître dans le discours d’entrée. Cela peut améliorer la précision de la transcription en fournissant à l’API un contexte pour le discours d’entrée.

Ces paramètres de configuration peuvent être combinés de différentes manières pour créer des configurations personnalisées qui conviennent le mieux à des cas d’utilisation spécifiques. Par exemple, un développeur peut configurer l’API pour transcrire un appel téléphonique en espagnol à l’aide d’un modèle de transcription spécifique et d’une liste personnalisée de contextes vocaux pour améliorer la précision.

Dans l’ensemble, l’API Speech-to-Text de Google est un outil puissant pour transcrire la parole en texte, et la possibilité de personnaliser sa configuration la rend encore plus polyvalente. En sélectionnant soigneusement les paramètres de configuration appropriés, les développeurs peuvent optimiser les performances et la précision de l’API pour un large éventail de cas d’utilisation.

Conclusion

Dans ce didacticiel, nous vous avons montré comment démarrer avec l’API Text-to-Speech de Google Cloud, y compris la configuration de votre compte GCP, la création d’identifiants d’API, l’installation des bibliothèques nécessaires et l’écriture d’un script Python pour convertir du texte ou SSML en discours. Vous pouvez désormais intégrer cette fonctionnalité dans vos applications pour améliorer l’expérience utilisateur, créer du contenu audio ou prendre en charge les fonctionnalités d’accessibilité.






Source link