Travailler avec la voix, la vision et les images —
Dans cet article, nous examinerons les nouvelles fonctionnalités multimodales de ChatGPT : comment elles fonctionnent et comment elles peuvent être utilisées par les créateurs.
Depuis la sortie publique de ChatGPT fin 2022, les créateurs ont continuellement adopté l’IA pour des tâches allant du brainstorming d’idées et de la synthèse de texte à la génération de scripts, de copies et même de code.
Fort de cette dynamique, OpenAI a déployé un mise à jour vers ChatGPTélargissant son ensemble de compétences pour inclure non seulement des réponses textuelles, mais également des interactions visuelles et auditives.
Une nouvelle ère d’interaction : capacités vocales et visuelles dans ChatGPT
Exploiter L’IA pour la création de contenu n’a rien de nouveau et les choses ne manquent pas Générateurs de texte IA sur le marché en 2023, chacun essayant de se surpasser avec les dernières caractéristiques et fonctions. Mais il semble qu’OpenAI garde une longueur d’avance avec cette dernière annonce.
Bien qu’OpenAI déploie lentement ces fonctionnalités, elles seront bientôt disponibles pour tous les utilisateurs de GPT Plus. Regardons de plus près ces nouvelles fonctionnalités.
Discours synthétique
ChatGPT a récemment étendu ses capacités pour inclure des fonctionnalités texte-voix et voix-texte.
Les utilisateurs peuvent désormais engager des conversations vocales en temps réel avec ChatGPT, et la fonctionnalité est alimentée par un nouveau modèle de synthèse vocale qui génère un son de type humain. L’interaction vocale est disponible sur les plateformes iOS et Android et offre aux utilisateurs le choix entre cinq voix synthétiques différentes.
La technologie utilise également OpenAI Chuchoter système de reconnaissance vocale pour transcrire les mots prononcés en texte, permettant un dialogue fluide. Les fonctionnalités vocales sont progressivement déployées auprès des utilisateurs Plus et Enterprise au moment de la rédaction.
Vision par ordinateur
ChatGPT intègre désormais des fonctionnalités de vision, permettant aux utilisateurs de télécharger et de discuter d’images dans l’interface de chat.
La compréhension des images s’appuie sur les modèles multimodaux GPT-3.5 et GPT-4, qui appliquent des compétences de vision par ordinateur et de raisonnement linguistique à différents types d’images, notamment des photos, des captures d’écran et des documents contenant à la fois du texte et des images. Un utilisateur X a déjà utilisé les fonctionnalités pour résoudre une feuille de problèmes mathématiques de base.
Les utilisateurs pourront interagir avec ces fonctionnalités sur toutes les plateformes et même utiliser un outil de dessin sur l’application mobile pour concentrer l’attention de l’assistant sur des parties spécifiques d’une image. Selon OpenAI, cette nouvelle fonctionnalité est conçue pour aider les utilisateurs dans leurs tâches quotidiennes, comme dépanner des appareils électroménagers ou planifier des repas en fonction du contenu de leur réfrigérateur.
OpenAI a également annoncé son dernier outil de conversion texte-image Dall-E 3, qui sera désormais intégré à ChatGPT, ouvrant ainsi une gamme de fonctionnalités supplémentaires. Remarquez le texte « Super-Duper Tournesol » dans l’image en bas à droite ci-dessous – une autre nouvelle fonctionnalité jamais vue auparavant.
Crédit image : OpenAI
Cas d’utilisation multimodaux de ChatGPT dans la création de contenu
Même s’il n’en est encore qu’à ses débuts, à mesure que ces fonctionnalités seront déployées, nous pouvons nous attendre à ce que les créateurs trouvent de nombreuses façons étranges et merveilleuses d’utiliser le GPT multimodal dans leurs flux de travail. Jetons un coup d’œil à certaines des applications évidentes auxquelles nous pouvons nous attendre immédiatement.
1. Podcasts interactifs
Les podcasts interactifs sont une application intéressante, dans laquelle un assistant vocal ChatGPT pourrait servir de conférencier invité virtuel et répondre en temps réel aux conversations avec les hôtes. À mesure que ChatGPT s’améliore, il pourrait également effectuer une vérification des faits en temps réel et aider à guider les conversations. Ce sera probablement l’un des premiers cas d’utilisation qu’il sera intéressant de suivre.
2. Assistant d’écriture à commande vocale
Les capacités de langage naturel de ChatGPT se prêtent également bien aux assistants vocaux qui peuvent aider les créateurs de contenu dans leurs recherches et leur rédaction. Un ChatGPT à commande vocale pourrait résumer des articles ou des études, extraire des points de données clés ou rédiger des sections de contenu écrit après avoir reçu un aperçu. Cela transforme efficacement les conversations sur l’IA de la même manière que les livres audio ont réinventé la façon dont nous lisons les romans.
3. Descriptions audio et texte alternatif
ChatGPT est également prometteur pour générer des descriptions audio de contenus visuels tels que des vidéos, des graphiques ou des infographies. Le sous-titrage automatisé des images est un autre excellent cas d’utilisation. ChatGPT pourrait numériser une image et générer des légendes optimisées pour le référencement ou un texte alternatif décrivant les éléments visuels présents. Les compétences en langage naturel de ChatGPT le rendent bien adapté à la création de légendes hautement descriptives, ce qui prendrait normalement beaucoup de temps à l’opérateur humain.
4. Transcription et organisation des idées
Une autre excellente application pour les outils vocaux de ChatGPT consiste à utiliser l’IA pour transcrire les conversations et organiser les idées. ChatGPT peut désormais écouter activement une conversation et fournir une transcription, une organisation, des suggestions et des résumés en temps réel. Cette fonctionnalité permettrait une synthèse rapide des sessions de brainstorming entre créateurs et pourrait même suggérer de nouvelles idées basées sur leurs conversations.
5. Améliorations visuelles
Les capacités de vision par ordinateur de ChatGPT ouvrent de nouvelles possibilités pour améliorer le contenu et les expériences visuels. Une application utilise ChatGPT pour analyser les brouillons d’articles et suggérer des types de visuels qui renforceraient le contenu, comme des visualisations de données, des photos, des illustrations ou des infographies. Cela permet aux rédacteurs d’identifier facilement les lacunes où un tableau, un graphique ou une image pourrait améliorer la clarté et l’engagement. L’intégration de Dall-E 3 pourrait même aider à générer ces images.
6. Réponse basée sur l’image
ChatGPT s’avère également prometteur pour les réponses aux questions basées sur des images, où les utilisateurs téléchargent une image pour recevoir des réponses personnalisées basées sur une analyse visuelle. Cela a des applications utiles dans des secteurs tels que la vente au détail, la rénovation domiciliaire ou le domaine médical. Un premier exemple a démontré ChatGPT fournissant une description approfondie d’une cellule humaine basée uniquement sur une image.
7. Code basé sur des images
Grâce à ses nouvelles compétences en vision par ordinateur, ChatGPT peut désormais analyser l’image d’une page Web et générer le code HTML correspondant. Un utilisateur X a déjà a exploité cette fonctionnalité pour transformer rapidement une capture d’écran d’un tableau de bord SaaS existant en code fonctionnel. Cette fonctionnalité d’image en code est un outil puissant que les créateurs appliqueront aux pages de destination, aux sites de commerce électronique et à divers autres projets Web.
8. Multimédia interactif
La combinaison des nouvelles fonctionnalités vocales et visuelles de ChatGPT offre des possibilités intéressantes en matière de contenu multimédia et interactif. Une application utilise ChatGPT pour générer des histoires racontées et interactives ou des programmes de divertissement avec un mélange de texte, d’images et de voix off automatiquement assemblés. Il est même possible de créer des jeux vidéo directement dans ChatGPT.
Pour le contenu éducatif, ChatGPT pourrait guider les étudiants à travers des modules d’apprentissage interactifs avec un mélange de texte à l’écran, d’explications vocales des concepts et d’images pertinentes apparues par l’IA.
Le service client est un autre domaine qui pourrait en bénéficier. Un assistant IA pourrait interpréter les requêtes des clients à partir d’une saisie textuelle ou vocale, tout en analysant également les photos ou vidéos partagées sur les problèmes. L’IA pourrait alors répondre avec une combinaison de discours, de textes et de visuels générés adaptés aux spécificités du cas de chaque client.
Emballer
En résumé, la mise à niveau multimodale d’OpenAI permet aux utilisateurs et aux créateurs de faire un pas de géant en termes de fonctionnalités.
Que vous soyez un créateur de contenu intéressé par de nouvelles pistes de brainstorming ou de narration, ou un professionnel à la recherche d’une automatisation efficace des tâches, ces mises à jour offrent un potentiel énorme.
À mesure que ces fonctionnalités deviennent plus largement disponibles, elles élargiront probablement considérablement la manière dont nous interagissons avec l’IA et l’exploitons dans nos tâches quotidiennes et nos efforts créatifs.
Source link