Fermer

décembre 7, 2023

L’outil de reconnaissance vocale automatique d’OpenAI / Blogs / Perficient

L’outil de reconnaissance vocale automatique d’OpenAI / Blogs / Perficient


Introduction Reconnaissance vocale automatique :

Dans le monde de l’intelligence artificielle, l’une des avancées les plus fascinantes est la capacité de convertir le langage parlé en texte écrit. Ce processus, connu sous le nom de reconnaissance automatique de la parole (ASR), a un large éventail d’applications, depuis les services de transcription et les assistants vocaux jusqu’au sous-titrage en temps réel et bien plus encore. Dans cet article de blog, nous explorerons comment utiliser le système Whisper ASR d’OpenAI pour transcrire un fichier audio en texte à l’aide de Python.

Qu’est-ce que Whisper ?

OpenAI a développé Whisper en tant que système de reconnaissance automatique de la parole (ASR). Il s’est formé sur un volume substantiel de données supervisées multilingues et multitâches collectées sur le Web. Whisper propose une bibliothèque Python qui facilite la transcription de fichiers audio en texte.

Commencer :

Avant de pouvoir utiliser Whisper, nous devons installer le package Python openai-whisper. Cela peut être fait en utilisant pip :

installation du module murmure.

Le ! au début est utilisé pour exécuter des commandes shell dans les notebooks Jupyter. Si vous l’exécutez dans un environnement Python standard, vous pouvez omettre le !.

Chargement du modèle :

Une fois le package installé, vous pouvez importer le module Whisper et charger le modèle :

Whisper propose différentes tailles de modèles pour équilibrer entre vitesse et précision comme suit : –

Taille Paramètres Modèle en anglais uniquement Modèle multilingue VRAM requise Vitesse relative
minuscule 39 M tiny.fr minuscule ~1 Go ~32x
base 74 M basé à base ~1 Go ~16x
petit 244 M small.fr petit ~2 Go ~6x
moyen 769 M medium.fr moyen ~5 Go ~2x
grand 1550 M N / A grand ~10 Go 1 fois

Tailles des modèles Whisper, puissance de calcul est une considération clé lors de l’évaluation de la capacité du système à gérer efficacement différentes tailles de modèles. La VRAM requise et la vitesse relative mentionnées dans le tableau montrent comment différentes tailles de modèles nécessitent des ressources de calcul variables, ce qui a un impact sur les performances et la capacité à traiter des tâches avec différents degrés d’efficacité et de précision.

Dans notre cas, nous chargeons un « petit » modèle.

murmure le code python 1 de la reconnaissance vocale automatique

Transcrire un fichier audio :

Le modèle chargé, nous pouvons désormais transcrire un fichier audio. Voici comment:

murmure le code python 2 de reconnaissance vocale automatique

La méthode transcribe prend le chemin d’accès au fichier audio comme argument. De plus, l’argument fp16=False spécifie que le modèle ne doit pas utiliser le format à virgule flottante demi-précision (FP16) pour les calculs. Par conséquent, cela peut accélérer le processus mais peut légèrement réduire la précision.

La méthode transscribe renvoie un dictionnaire qui inclut la transcription complète et d’autres informations.

Transcription détaillée :

De plus, Whisper propose une ventilation détaillée de la transcription, englobant les heures de début et de fin de chaque segment. Cette fonctionnalité peut être particulièrement utile pour comprendre l’occurrence chronologique de chaque partie dans le fichier audio :

murmure le code python 3 de reconnaissance vocale automatique

Conclusion:

Le système de reconnaissance vocale automatique (ASR) Whisper d’OpenAI fournit un outil puissant et facile à utiliser pour transcrire des fichiers audio en texte. Qu’il s’agisse de construire un assistant vocal, de développer un service de transcription ou d’exiger une transcription de fichiers audio dans un projet, Whisper est apte à gérer ces tâches. Si vous avez des questions, vous pouvez en discuter directement avec la communauté lien

Bonne transcription !






Source link

décembre 7, 2023