Fermer

mai 27, 2024

Explorer des alternatives autres que le LLM pour répondre aux besoins d’IA générative des responsables informatiques

Explorer des alternatives autres que le LLM pour répondre aux besoins d’IA générative des responsables informatiques



Alors que le boom de l’IA générative s’installe, certains responsables informatiques commencent à penser que les premiers modèles populaires d’IA générative, les modèles de langage à grande échelle (LLM), ne suffisent pas à répondre aux cas d’utilisation les plus prometteurs.

LLM possède des capacités avancées de compréhension et de génération de textes et est devenu synonyme d’IA de génération. Les copilotes générateurs de code et les générateurs de texte en image utilisent également une combinaison de LLM et de traitement de diffusion, et sont au centre des expériences commerciales actuelles avec l’IA générative.

Cependant, certains responsables informatiques soulignent que tous les problèmes ne peuvent pas être résolus de manière optimale avec LLM et que la prochaine vague introduit des modèles multimodaux qui fournissent des résultats personnalisés dans toutes les langues. Les exemples incluent le traitement de données tabulaires dynamiques stockées dans des feuilles de calcul et des bases de données vectorielles, ainsi que des données vidéo et audio.

Les modèles d’infrastructure multimodaux ont la capacité de combiner plusieurs modes tels que le texte, l’audio, les images et les vidéos pour générer des légendes d’images et répondre aux questions sur les images. Selon l’aperçu du marché d’IDC : modèles d’IA basés sur la génération, les exemples incluent Google Gato, OpenAI GPT-4o, Microsoft LLaVA, Nvidia NeVA, Vicuna, BLIP2 et Flamingo.

Le groupe de technologie avancée de Northwestern Medicine a collaboré avec l’équipe d’innovation en IA de Dell pour créer un LLM multimodal spécialement conçu qui interprète les images radiographiques thoraciques et résume les principales conclusions. Ce modèle permet aux patients de recevoir des résultats environ 80 % plus rapidement qu’auparavant. Ensuite, Northwestern et Dell développeront des LLM multimodaux améliorés pour les tomodensitogrammes et les IRM, ainsi que des modèles prédictifs pour l’ensemble des dossiers médicaux électroniques.

« Ce modèle est très intéressant. Peu de gens utilisent le multimodal à l’heure actuelle », déclare le Dr Mozziyar Etemadi, anesthésiste et directeur des technologies avancées à Northwestern. Le Dr Etemadi souligne que le modèle actuel permet aux radiologues de gagner 40 % de leur temps, les capacités d’analyse d’images leur permettant de gagner encore plus de temps. « Les modèles sont généralement constitués uniquement de LLM et d’un peu de texte et d’Excel, mais nous pouvons désormais gérer des images et des radiographies, ce qui est génial. »

Tirer parti des nouveaux modèles

MakeShift, un SaaS de planification du travail, est l’une des nombreuses organisations qui vont au-delà du LLM pour réaliser une planification prédictive complexe pour les clients des secteurs de la santé, de la vente au détail et de l’industrie manufacturière.

« Nous utilisions LLM pour l’assistance par chat, mais lorsque vous entrez dans de grandes structures graphiques de données vectorielles et des centaines de millions de lignes de données associées et que vous essayez d’optimiser les futurs modèles prédictifs, LLM ne suffit pas », déclare Danny McGuinness. , CTO de MakeShift.

Au lieu de cela, MakeShift utilise un nouveau modèle graphique à grande échelle (LGM) en instance de brevet développé par la startup Ikigai Labs du MIT.

« Nous exploitons des données structurées complexes et des modèles graphiques à grande échelle pour établir la causalité et la corrélation de leurs interactions », explique McGuinness.

MakeShift travaille avec des sociétés telles que Medico, HSBC, Spirit Halloween, Taager.com, Future Metals et WIO pour déployer le modèle sans code d’Ikigai Labs sur des données tabulaires et des séries chronologiques. Ikigai Labs, cofondé par Devavrat Shah, directeur du département d’IA et de science des données du MIT, et Vinayak Ramesh, fournit une IA pour les données tabulaires organisées en lignes et en colonnes. L’entreprise a doublé ses effectifs au cours des six derniers mois et a reçu un investissement de 25 millions de dollars à la fin de l’année dernière.

Pour les services qui s’appuient fortement sur la vision par ordinateur et la vidéo dans les services logiciels, d’autres types de modèles multimodaux prenant en charge la vidéo émergent également, offrant aux DSI de nouvelles façons d’exploiter des modèles d’IA adaptés à leurs besoins spécifiques.

Pour MakeShift et ses clients, la planification est un processus commercial compliqué par des opérations 24h/24 et 7j/7 et par les exigences nuancées imposées par les réglementations syndicales et les conventions collectives. Les ingénieurs de MakeShift ont commencé à utiliser les API et les modèles d’Ikigai Labs l’année dernière, et la société est désormais en pleine production. La planification prédictive d’ensembles de données et de procédures en constante évolution est beaucoup plus facile grâce à l’IA basée sur LGM, explique McGuinness. Et les avantages de l’utilisation de l’IA par MakeShift commencent à augmenter.

« Nous commençons à voir des progrès dans l’apprentissage de l’IA et la capacité d’incorporer d’autres types de données dans ces modèles », a déclaré McGuinness, ajoutant que certains clients ajoutent des données supplémentaires pour améliorer les capacités de planification. « Un client de détail commence à envisager d’incorporer des données météorologiques. Il peut intégrer des données publiques telles que les prévisions météorologiques, la proximité des transports en commun et la densité de personnes dans les magasins. »

Un autre avantage de l’utilisation du modèle d’Ikigai est qu’il « nous permet de faire apparaître des scénarios auxquels nous n’avions pas pensé en termes de corrélation et de causalité, et de poser d’autres questions sur les données », explique McGuinness. « L’un de nos premiers clients du secteur de la santé envisage d’autres cas d’utilisation en plus de la planification historique, tels que certains processus et événements impliquant des transactions financières. »

Bien entendu, les LLM peuvent également traiter des données sous forme de tableaux et autres formats via des langages de balisage, note Naveen Rao, vice-président de l’IA chez Databricks, qui a acquis Mosaic l’année dernière.

Cependant, la montée en puissance de modèles alternatifs comme l’Ikigai et la zone grise de ce qui peut facilement être réalisé avec un LLM plus largement applicable met en évidence l’état inexploité du marché de l’IA générative auquel sont actuellement confrontés les DSI.

Vers la miniaturisation

Arun Chandrasekaran, analyste en IA chez Gartner, a déclaré que même s’il était prévu que le LLM évoluerait vers des modèles multimodaux plus puissants, le coût de ces modèles serait si élevé que la proportion d’utilisation professionnelle serait faible.

« En 2023, le modèle dominant était le texte et le code », explique Chandrasekaran. « Ensuite, nous avons commencé à voir des signes de modèles utilisant la vision par ordinateur et de nombreuses autres modalités. Mais fondamentalement, la construction de ces modèles est très exigeante en termes de ressources informatiques et de données. « 

Au lieu de cela, Chandrasekaran voit de nombreuses entreprises s’éloigner des LLM et s’orienter vers une réduction de leurs effectifs.

« Ces modèles très puissants ont certainement un rôle à jouer dans certains cas d’utilisation en entreprise », note-t-il. « Cependant, les prix s’ajusteront périodiquement pour favoriser la taille du modèle, car les modèles plus petits coûtent moins cher et sont suffisants pour les tâches que les entreprises cherchent à déployer. »

Naveen Rao de Databricks est d’accord, notant que la construction de grands modèles peut coûter jusqu’à 200 millions de dollars. La majeure partie du coût ne réside pas dans la puissance de calcul, mais dans l’étiquetage et la conservation des données, qui déterminent les performances du modèle.

Rao a fondé Mosaic dans le but de proposer un modèle plus abordable et plus accessible aux entreprises et estime que la spécialisation est la voie à suivre.

« C’est une question de spécialisation ou de généralisation », explique Rao. « Les grands modèles ont tendance à être formés sur un grand nombre de jetons, de textes et de capacités communs. Les modèles plus petits ont tendance à en faire partie et à se concentrer sur une seule chose. »

C’est là que l’open source peut donner un avantage aux DSI, explique Rao.

« Vous pouvez créer votre propre modèle à partir de zéro avec vos propres données, ou vous pouvez prendre un modèle open source existant et le modifier et le personnaliser avec vos propres données », explique-t-il.

Baldor Specialty Foods est l’une des organisations visant à déployer un modèle miniature permettant aux responsables de l’information et du numérique de se former à des solutions personnalisées, sans parti pris ni erreur.

« J’utilise un modèle plus petit parce que les LLM provoquent parfois des hallucinations », explique Satyan Parameswaran, qui a passé des décennies à occuper des postes informatiques de premier plan chez UPS. « Je ne veux pas me lancer dans la conception de modèles. Je peux prendre de petits modèles de Hugging Face et les personnaliser pour des tâches spécifiques. »

Une nouvelle équation pour l’IA générative

Plusieurs fournisseurs d’IA d’entreprise proposent aujourd’hui des modèles plus petits sur le marché de l’IA, notamment C3.ai, Anaplan, Dataiku et Hugging Face.

Quant à Ikigai Labs, le PDG Shah affirme que le LGM auto-descriptif de la société fournit une représentation probabiliste des données d’horodatage dans un format tabulaire semblable à une feuille de calcul. Une fois qu’un modèle est formé, il apprend des choses telles que les relations entre les variables aléatoires, l’identification des données manquantes et les lignes similaires entre deux feuilles de calcul pour générer de nouvelles informations.

« Cela vous permet de rassembler les données ensemble », explique Shah, ajoutant que les utilisateurs peuvent générer de nouvelles lignes dans la feuille de calcul, « et lors d’une prédiction, si une variable change en cours de route, « nous pouvons détecter les points de changement et identifier les anomalies. « .

Cela permet aux utilisateurs de générer des données à partir de plusieurs feuilles de calcul dans plusieurs dimensions, d’exécuter des simulations et des périodes de synthèse à l’aide de modèles graphiques à grande échelle avec uniquement les données, et d’obtenir un apprentissage efficace et significatif à partir des données. Oui, c’est possible », explique Shah.

Bien entendu, le coût sera un facteur majeur pour déterminer dans quelle mesure ces modèles peuvent être personnalisés. Actuellement, les LLM contenant uniquement du texte nécessitent une énorme puissance de calcul. Alors que les principaux fabricants de puces et fournisseurs de cloud s’efforcent de développer des semi-conducteurs capables d’augmenter l’offre de cette puissance de calcul, les entreprises expérimentent une variété de modèles à grande et à petite échelle, les mettent en production et découvrent de nouvelles perspectives pour améliorer l’efficacité et la performance de leur entreprise. innovation.

Actuellement, de nombreuses entreprises expérimentent le LLM et passent à la production une fois son efficacité confirmée. Bien que l’utilisation de LVM et LGM en soit encore à ses balbutiements, les premiers utilisateurs comme McGuinness chez MakeShift commencent à voir des résultats.

« Nous essayons d’aider nos clients à recruter des personnes possédant les bonnes compétences au bon moment », dit-il. « Pour ce faire, il faut tenir compte des accords et des préférences syndicales, il faut prendre en compte les transferts entre sites et les différents accords syndicaux, il faut appliquer toutes ces règles, il faut tenir compte de l’épuisement professionnel, du coût des heures supplémentaires. Nous devons également considérer des choses comme ça.

Sans l’aide de l’IA, la complexité et les efforts de cette tâche seraient considérables, explique McGuinness. Mais cela devient plus facile grâce aux nouveaux modèles multimodaux et plus petits qui se concentrent sur des tâches spécifiques.




Source link