Fermer

avril 10, 2024

L’inférence détient les indices des énigmes de l’IA

L’inférence détient les indices des énigmes de l’IA



L’inférence est devenue l’un des aspects les plus passionnants des grands modèles linguistiques (LLM) génératifs d’IA.

Une explication rapide : dans l’IA inférence, les organisations suivent un LLM pré-entraîné pour reconnaître les relations dans de grands ensembles de données et générer du nouveau contenu basé sur des entrées, telles que du texte ou des images. En effectuant des calculs mathématiques, le modèle fait ensuite des prédictions basées sur ce qu’il a appris pendant la formation.

L’inférence traite des millions, voire des milliards de points de données, ce qui nécessite beaucoup de puissance de calcul. Comme pour de nombreuses charges de travail gourmandes en données, l’instinct est de transférer les applications LLM dans un cloud public, dont les atouts incluent une mise sur le marché rapide et une évolutivité.

Pourtant, le calcul n’est peut-être pas si simple si l’on considère les coûts d’exploitation ainsi que le fait que les systèmes GenAI produisent parfois des résultats que même les ingénieurs de données, les data scientists et autres personnes obsédées par les données ont du mal à comprendre.

Inférence et… Sherlock Holmes ???

Des individus obsédés par les données, comme Sherlock Holmes, connaissaient très bien l’importance de l’inférence pour faire des prédictions ou, dans son cas, résoudre des mystères.

Holmes, le détective qui peuple les pages des romans policiers de Sir Arthur Conan Doyle au XIXe siècle, connaissait bien l’importance des données pour l’inférence, car il dit: « C’est une erreur capitale de théoriser avant d’avoir des données. » Sans données, poursuit l’argument de Holmes, on peut déformer les faits pour les adapter à leurs théories, plutôt que d’utiliser les théories pour les adapter aux faits.

Tout comme Holmes rassemble des indices, analyse des preuves et présente des déductions qu’il estime logiques, l’inférence utilise des données pour faire des prédictions qui alimentent des applications critiques, notamment les chatbots, la reconnaissance d’images et les moteurs de recommandation.

Pour comprendre le fonctionnement de l’inférence dans le monde réel, pensez aux moteurs de recommandation. À mesure que les gens fréquentent les plateformes de commerce électronique ou de streaming, les modèles d’IA suivent les interactions et « apprennent » ce que les gens préfèrent acheter ou regarder. Les moteurs utilisent ces informations pour recommander du contenu en fonction de l’historique des préférences des utilisateurs.

Un LLM est aussi puissant que ses capacités d’inférence. En fin de compte, il faut une combinaison du modèle formé et de nouvelles entrées fonctionnant en temps quasi réel pour prendre des décisions ou des prédictions. Encore une fois, l’inférence par l’IA est comme Holmes car elle utilise sa loupe de données pour détecter des modèles et des idées (les indices) cachés dans les ensembles de données.

Aussi habitué à résoudre des mystères que Holmes l’était, il s’appuyait souvent sur un fidèle acolyte de détective, le Dr Watson. De même, les organisations peuvent bénéficier d’une aide pour affiner leurs résultats d’inférence avec des informations spécifiques au contexte.

L’un de ces assistants, ou Dr Watson, se présente sous la forme d’un génération augmentée par récupération (RAG)une technique pour améliorer la précision de l’inférence des LLM en utilisant ensembles de données d’entreprisecomme les spécifications du produit.

L’inférence acheminée via RAG doit être efficace, évolutive et optimisée pour rendre les applications GenAI utiles. Cette combinaison d’inférence et de RAG permet également de réduire les informations inexactes, ainsi que les biais et autres incohérences qui peuvent empêcher des prédictions correctes. Tout comme Holmes et le Dr Watson rassemblent des indices qui pourraient résoudre le mystère qui se cache derrière les données qu’ils ont collectées.

GenAI rentable, sur site

Bien sûr, voici quelque chose qui n’est peut-être pas mystérieux pour les responsables informatiques : la création, la formation et l’augmentation des piles d’IA peuvent consommer une grande partie du budget.

Étant donné que les LLM consomment des ressources de calcul importantes à mesure que les paramètres du modèle augmentent, il est primordial de déterminer où allouer les charges de travail GenAI.

Avec le potentiel d’encourir des frais élevés de calcul, de stockage et de transfert de données pour l’exécution de LLM dans un cloud public, le centre de données d’entreprise s’est imposé comme une option judicieuse pour contrôler les coûts.

Il s’avère que l’inférence LLM avec RAG exécutant des modèles open source sur site peut être 38 à 75 % plus rentable que le cloud public, selon nouvelle recherche1 d’Enterprise Strategy Group mandaté par Dell Technologies. Le pourcentage varie à mesure que la taille du modèle et le nombre d’utilisateurs augmentent.

Les problèmes de coûts ne sont pas la seule raison de procéder à des inférences sur site. Les responsables informatiques comprennent qu’il est essentiel de contrôler leur propriété intellectuelle sensible. Ainsi, la possibilité d’exécuter un modèle conservé au sein de son centre de données constitue une proposition de valeur attractive pour les organisations pour lesquelles amener l’IA à leurs données C est la clé.

Les usines d’IA alimentent les LLM de nouvelle génération

De nombreux systèmes GenAI nécessitent des calculs et un stockage importants, ainsi que des puces et des accélérateurs matériels conçus pour gérer les charges de travail d’IA.

Les serveurs équipé de plusieurs GPU pour prendre en charge les techniques de traitement parallèle prenant en charge l’inférence à grande échelle, il constitue le cœur des usines d’IA émergentes, qui comprennent des solutions de bout en bout adaptées pour répondre aux exigences uniques des organisations en matière de solutions d’IA.

Orchestrer le bon équilibre entre plates-formes et outils nécessite un écosystème de partenaires de confiance. Dell Technologies travaille en étroite collaboration avec Nvidia, Méta, ÉtreindreVisageet d’autres pour fournir des solutions, des outils et conceptions de référence validées qui couvrent les équipements de calcul, de stockage et de réseau, ainsi que les appareils clients.

Il est vrai que les conclusions auxquelles arrivent parfois les modèles GenAI reste mystérieux. Mais les responsables informatiques ne devraient pas avoir à se faire passer pour Sherlock Holmes pour comprendre comment les gérer de manière rentable tout en obtenant les résultats souhaités.

En savoir plus sur IA générative Dell.

1 L’inférence sur site avec les technologies Dell peut être 75 % plus rentable que les cloud publics, Enterprise Strategy Group, avril 2024.




Source link