Sous l'égide de l'intelligence artificielle (IA), le traitement du langage naturel (NLP) a parcouru un long chemin depuis l'émergence de l'IA symbolique au milieu des années 1950, via des modèles statistiques tels que la régression logistique vers des réseaux multicouches que nous appelons maintenant apprentissage en profondeur. Yoshua Bengio, Geoffrey Hinton et Yann LeCun, trois pionniers et chercheurs de l'apprentissage en profondeur, ont récemment publié un article mettant en lumière les avancées récentes dans leur domaine . L'une de ces « écoles d'apprentissage en profondeur » est Transformersune conception de réseau de neurones qui a été au cœur de modèles de langage tels que Google BERT et OpenAI GPT-3.
Challenges in Deep Apprentissage
L'apprentissage en profondeur est une technique de catégorisation des données à l'aide de réseaux de neurones multicouches qui est fréquemment comparée au fonctionnement du cerveau humain. Les données brutes sont fournies aux réseaux de neurones via une série d'unités d'entrée. Cela peut prendre la forme d'images, d'échantillons sonores ou de contenu textuel. Ces entrées sont ensuite mappées sur les nœuds de sortie, qui décident à quelle catégorie appartiennent les données d'entrée.
Les modèles d'apprentissage en profondeur qui reçoivent une série d'objets (mots, lettres, caractéristiques d'image, etc.) connus sous le nom de modèles séquence à séquence, ils ont montré beaucoup de succès dans des tâches telles que la traduction automatique. Un modèle de traduction automatique neuronale est composé d'un encodeur et d'un décodeur. L'encodeur passe en revue chaque mot de la phrase d'entrée et combine les données dans un vecteur appelé contexte. Après avoir traité toute la phrase d'entrée, le codeur envoie le contexte au décodeur, et le décodeur commence à construire la phrase de sortie mot par mot. L'encodeur et le décodeur sont généralement construits sur des réseaux de neurones récurrents car ils disposent d'une mémoire interne. systèmes d'apprentissage aujourd'hui est encore limitée. Ces systèmes sont qualifiés pour des tâches spécialisées, mais selon les pionniers, ils sont limités dans la portée des problèmes qu'ils peuvent résoudre . Un domaine de tâche spécialisé est le traitement du langage naturel.
Pourquoi Transformers ?
Bahdanau et al., 2014 et Luong et al., 2015 ont développé et affiné une méthode connue sous le nom de "Attention" qui a considérablement amélioré la qualité des systèmes de traduction automatique. L'attention du modèle lui permet de se concentrer sur les sections importantes de la séquence d'entrée selon les besoins. L'attention est un concept qui a contribué à améliorer les performances des applications de traduction automatique neuronale.
Le transformateur est un modèle qui exploite l'attention pour accélérer sa formation et surpasser les autres modèles de machines neuronales dans des tâches spécifiques. Son plus grand avantage, cependant, est de savoir à quel point il se prête à la parallélisation. L'un des avantages des Transformers est leur capacité à apprendre sans utiliser de données étiquetées. L'apprentissage non supervisé permet aux Transformers de créer des représentations, qu'ils peuvent ensuite utiliser pour remplir les blancs des phrases incomplètes ou produire un texte significatif en réponse à une invite.
Analyse des sentiments à l'aide de Transformers
OpenText™ Magellan™ fournit une plate-forme d'intelligence artificielle prête à l'emploi qui comprend l'apprentissage automatique, la découverte de données, l'analyse de texte et des capacités sophistiquées de visualisation et de tableau de bord. À l'aide du Magellan Notebookun modèle BERT pré-entraîné (Bidirectionnel Encoder Representations from Transformers) peut facilement identifier les émotions en fonction du contenu textuel.
Pour analyser des articles d'actualité financière et classer leur sentiment en tant que Positif, Négatif ou Neutre, nous utilisons FinBERT, un modèle PNL pré-entraîné, disponible gratuitement sur huggingface.co/models. Il a été développé en peaufinant le modèle de langage BERT pour la catégorisation des sentiments financiers à l'aide d'un énorme corpus de communication financière.
Dans Magellan Notebook, l'extrait de code ci-dessous importe les modules Python nécessaires ainsi que le modèle pré-entraîné (FinBERT) , tokenise le texte d'entrée et alimente les entrées tokenisées dans le modèle, ce qui produit des activations de couche finales qui sont converties en probabilités à l'aide d'une fonction softmax. exemple d'article de presse, relatif à une baisse du cours de l'action Facebook, notre modèle aboutit à un sentiment négatif avec une probabilité maximale de 0,9695.
Fig 2: En traitant un autre exemple d'article de presse, à propos d'une augmentation du cours des actions pour Ford, notre modèle aboutit à un
sentiment positif avec une probabilité de 0,5562
En savoir plus
De nombreux modèles basés sur des transformateurs pré-entraînés disponibles gratuitement sont disponibles aujourd'hui pour le traitement du langage naturel (NLP) ou même la compréhension du langage naturel (NLU), y compris Google BERT et OpenAI GPT 3.5, pour effectuer des tâches telles que la compréhension de texte, l'analyse des sentiments, répondre à des questions, résumer des rapports ou même générer un nouveau texte. Pour tirer de la valeur de ces modèles et les utiliser dans des applications d'apprentissage automatique, le travail consiste à les affiner et à les améliorer pour obtenir le résultat commercial souhaité.
OpenText Professional Services conseille, guide et assiste les organisations avec l'intelligence artificielle et Transformers pour les applications NLP et NLU pour obtenir des informations, automatiser les processus et optimiser les flux de travail de l'entreprise. Notre approche consiste à combiner Transformers avec OpenText™ Magellan™ Text Miningqui fournit une analyse sémantique simple du contenu textuel non structuré. En savoir plus sur OpenText AI & Analytics Services.
Unauteur : Sridhar Sambarapu, Data Scientist, AI & Analytics Consulting Team
Source link