Fermer

novembre 16, 2023

5 façons de déployer votre propre grand modèle de langage

5 façons de déployer votre propre grand modèle de langage



« Actuellement, nous convertissons tout en une base de données vectorielle », explique Ellie Fields, directrice des produits et de l’ingénierie chez Salesloft, un fournisseur de plateforme d’engagement commercial. « Et oui, ils travaillent. »

Et c’est plus efficace que d’utiliser de simples documents pour fournir un contexte aux requêtes LLM, dit-elle.

La société utilise principalement ChromaDB, un magasin de vecteurs open source, dont l’utilisation principale est les LLM. Une autre base de données vectorielles utilisée par Salesloft est Pgvector, une extension de recherche de similarité vectorielle pour la base de données PostgreSQL.

«Mais nous avons également effectué des recherches en utilisant FAISS et Pinecone», dit-elle. FAISS, ou Facebook AI Similarity Search, est une bibliothèque open source fournie par Meta qui prend en charge les recherches de similarité dans les documents multimédias.

Et Pinecone est une base de données vectorielle propriétaire basée sur le cloud qui est également devenue populaire auprès des développeurs, et son niveau gratuit prend en charge jusqu’à 100 000 vecteurs. Une fois les informations pertinentes récupérées de la base de données vectorielle et intégrées dans une invite, la requête est envoyée à OpenAI exécuté dans une instance privée sur Microsoft Azure.

« Nous avons fait certifier Azure en tant que nouveau sous-traitant sur notre plateforme », explique Fields. « Nous informons toujours nos clients lorsque nous avons un nouveau processeur pour leurs informations. »

Mais Salesloft travaille également avec Google et IBM et travaille sur une fonctionnalité gen AI qui utilise également ces plates-formes.

« Nous allons certainement travailler avec différents fournisseurs et différents modèles », dit-elle. « Les choses changent de semaine en semaine. Si vous ne regardez pas différents modèles, vous ratez le bateau. Ainsi, RAG permet aux entreprises de séparer leurs données propriétaires du modèle lui-même, ce qui facilite grandement l’échange de modèles à mesure que de meilleurs modèles sont publiés. De plus, la base de données vectorielles peut être mise à jour, même en temps réel, sans qu’il soit nécessaire d’affiner ou de recycler le modèle.

« Nous avons remplacé les modèles OpenAI par OpenAI sur Azure », explique Fields. « Et nous avons basculé entre différents modèles OpenAI. Nous pouvons même prendre en charge différents modèles pour différentes parties de notre clientèle.

Parfois, différents modèles ont des API différentes, ajoute-t-elle. « Ce n’est pas anodin, dit-elle. Mais changer de modèle reste plus facile que se reconvertir. « Nous n’avons pas encore trouvé de cas d’utilisation mieux servi par un réglage précis plutôt que par une base de données vectorielle », ajoute Fields. « Je pense qu’il existe des cas d’utilisation, mais jusqu’à présent, nous n’en avons pas trouvé un plus performant. »

L’une des premières applications de LLM déployées par Salesloft consistait à ajouter une fonctionnalité permettant aux clients de générer un e-mail de vente à un prospect. « Les clients prenaient beaucoup de temps pour rédiger ces e-mails », explique Fields. « C’était difficile de démarrer, et il y a beaucoup de blocage de l’écrivain. » Ainsi, les clients peuvent désormais spécifier le personnage cible, leur proposition de valeur et l’appel à l’action, et ils reçoivent en retour trois brouillons d’e-mails différents qu’ils peuvent personnaliser. Salesloft utilise GPT 3.5 d’OpenAI pour rédiger l’e-mail, explique Fields.

Exécuter des modèles open source localement

Ikigai Labs, basé à Boston, propose une plate-forme qui permet aux entreprises de créer de grands modèles graphiques personnalisés ou des modèles d’IA conçus pour fonctionner avec des données structurées. Mais pour rendre l’interface plus facile à utiliser, Ikigai alimente son front-end avec des LLM. Par exemple, la société utilise la version à sept milliards de paramètres du LLM open source Falcon et l’exécute dans son propre environnement pour certains de ses clients.

Pour alimenter le LLM en informations, Ikigai utilise une base de données vectorielles, également gérée localement. Il est construit sur l’algorithme de Boundary Forest, explique le co-fondateur et co-PDG Devavrat Shah.

« Au MIT, il y a quatre ans, certains de mes étudiants et moi avons expérimenté une tonne de bases de données vectorielles », explique Shah, qui est également professeur d’IA au MIT. « Je savais que ce serait utile, mais pas à ce point. »

En gardant le modèle et la base de données vectorielles locaux, aucune donnée ne peut être divulguée à des tiers, dit-il. « Pour les clients qui acceptent d’envoyer des requêtes à d’autres, nous utilisons OpenAI », explique Shah. «Nous sommes agnostiques en matière de LLM.»

PricewaterhouseCoopers, qui a construit son propre outil ChatPWC, est également indépendant du LLM. « ChatPWC rend nos associés plus compétents », déclare Bret Greenstein, associé de l’entreprise et responsable de la stratégie de commercialisation de la génération IA. Par exemple, il comprend des invites prédéfinies pour générer des descriptions de poste. « Il contient tous mes formats, modèles et terminologie », dit-il. « Nous disposons d’experts en ressources humaines, en données et en rapidité, et nous concevons quelque chose qui génère de très bonnes offres d’emploi. Désormais, personne n’a besoin de savoir comment faire les incroyables incitations qui génèrent des descriptions de poste.

L’outil est construit sur Microsoft Azure, mais la société l’a également conçu pour Google Cloud Platform et AWS. « Nous devons servir nos clients, et ils existent sur chaque cloud », déclare Greenstein. De même, il est optimisé pour utiliser différents modèles sur le back-end, car c’est ce que veulent les clients. « Nous avons tous les modèles qui fonctionnent », ajoute-t-il. « Llama 2, Falcon – nous avons tout. »

Bien entendu, le marché évolue rapidement et Greenstein suggère aux entreprises d’adopter une politique « sans regret » concernant leurs déploiements d’IA.

« Les gens peuvent faire beaucoup de choses », dit-il, « comme construire leurs données indépendamment des modèles et renforcer la gouvernance. » Ensuite, lorsque le marché évoluera et qu’un nouveau modèle sortira, les données et la structure de gouvernance seront toujours pertinentes.

Le réglage fin

La société de conseil en gestion AArete a pris le modèle open source GPT 2 et l’a peaufiné sur ses propres données. «C’était léger», explique Priya Iragavarapu, vice-présidente des services de technologie numérique de l’entreprise. « Nous voulions un logiciel open source capable de le récupérer et de le publier en interne dans notre environnement. »

Si AArete utilisait un modèle hébergé et s’y connectait via une API, des problèmes de confiance surgissaient. « Nous nous demandons où pourraient aboutir les données provenant des invites », dit-elle. « Nous ne voulons pas prendre ces risques. »

Lorsqu’elle choisit un modèle open source, elle examine le nombre de téléchargements précédents, le support communautaire et la configuration matérielle requise.

« Le modèle fondateur devrait également avoir une certaine pertinence pour les tâches », dit-elle. « Il existe des modèles pour des tâches spécifiques. Par exemple, j’ai récemment examiné un modèle Hugging Face qui analyse le contenu des PDF dans un format structuré.

De nombreuses entreprises du monde financier et du secteur de la santé affinent les LLM en fonction de leurs propres ensembles de données supplémentaires.

« Les LLM de base sont formés sur tout Internet », dit-elle. Avec un réglage fin, une entreprise peut créer un modèle spécifiquement ciblé sur son cas d’utilisation métier.

Une manière courante de procéder consiste à créer une liste de questions et de réponses et à affiner un modèle à partir de celles-ci. En fait, OpenAI a commencé à autoriser le réglage fin de son modèle GPT 3.5 en août, en utilisant une approche questions-réponses, et a déployé une suite de nouvelles options de réglage fin, de personnalisation et RAG pour GPT 4 lors de son DevDay de novembre.

Ceci est particulièrement utile pour les applications de service client et d’assistance, où une entreprise peut déjà disposer d’une banque de données de FAQ.

Toujours dans l’enquête Dell, 21 % des entreprises préfèrent recycler les modèles existants, en utilisant leurs propres données dans leur propre environnement.

« L’option la plus populaire semble être Llama 2 », déclare Andy Thurai, vice-président et analyste principal chez Constellation Research Inc. Llama 2 est disponible en trois tailles différentes et est gratuit pour les entreprises comptant moins de 700 millions d’utilisateurs mensuels. Les entreprises peuvent l’affiner sur leurs propres ensembles de données et disposer assez rapidement d’un nouveau modèle personnalisé, dit-il. En fait, le classement Hugging Face LLM est actuellement dominé par différents réglages et personnalisations de Llama 2. Avant Llama 2, Falcon était le LLM open source le plus populaire, ajoute-t-il. « C’est actuellement une course aux armements. » Un réglage précis peut créer un modèle plus précis pour des cas d’utilisation métier spécifiques, dit-il. « Si vous utilisez un modèle généralisé de Lama, la précision peut être faible. »

Et il y a certains avantages à effectuer un réglage fin par rapport à l’intégration RAG. Avec l’intégration, une entreprise doit effectuer une recherche dans une base de données vectorielles pour chaque requête. « Et vous avez la mise en œuvre de la base de données », explique Thurai. « Cela ne va pas non plus être facile. »

Il n’y a pas non plus de limites de fenêtre contextuelle pour le réglage fin. Avec l’intégration, le nombre d’informations pouvant être ajoutées à une invite est limité. Si une entreprise procède à des ajustements précis, elle ne le fera pas souvent, juste au moment où une version considérablement améliorée du modèle d’IA de base est publiée.

Enfin, si une entreprise dispose d’un ensemble de données qui évolue rapidement, un réglage fin peut être utilisé en combinaison avec l’intégration. « Vous pouvez d’abord l’affiner, puis effectuer du RAG pour les mises à jour incrémentielles », dit-il.

Rowan Curran, analyste chez Forrester Research, s’attend à voir apparaître de nombreux modèles précis et spécifiques à un domaine au cours de la prochaine année, et les entreprises peuvent également distiller des modèles pour les rendre plus efficaces dans des tâches particulières. Mais seule une petite minorité d’entreprises – 10 % ou moins – le fera, dit-il.

Les éditeurs de logiciels qui créent des applications telles que des applications SaaS pourraient avoir recours à des réglages précis, explique Greenstein de PricewaterhouseCoopers. « Si vous disposez d’un modèle hautement reproductible, un réglage précis peut réduire vos coûts », explique-t-il, mais pour les déploiements en entreprise, RAG est plus efficace dans 90 à 95 % des cas.

« Nous étudions actuellement la possibilité d’affiner les modèles pour des secteurs verticaux spécifiques », ajoute Sébastien Paquet, vice-président du ML chez Coveo, une société canadienne de recherche et de recommandations d’entreprises. « Nous avons des secteurs verticaux spécialisés avec un vocabulaire spécialisé, comme le secteur médical. Les entreprises vendant des pièces détachées pour camions ont leur propre façon de nommer les pièces.

Pour l’instant, cependant, la société utilise GPT 3.5 et GPT 4 d’OpenAI exécutés sur un cloud Azure privé, avec les appels d’API LLM isolés afin que Coveo puisse passer à différents modèles si nécessaire. Il utilise également certains LLM open source de Hugging Face pour des cas d’utilisation spécifiques.

Construire un LLM à partir de zéro

Peu d’entreprises vont créer leur propre LLM à partir de zéro. Après tout, ils sont, par définition, assez grands. Le GPT 3 d’OpenAI contient 175 milliards de paramètres et a été formé sur un ensemble de données de 45 téraoctets et a coûté 4,6 millions de dollars à former. Et selon Sam Altman, PDG d’OpenAI, GPT 4 a coûté plus de 100 millions de dollars.

C’est cette taille qui confère aux LLM leur magie et leur capacité à traiter le langage humain, avec un certain degré de bon sens, ainsi que la capacité à suivre des instructions.

« Vous ne pouvez pas simplement l’entraîner sur vos propres données », explique Carm Taglienti, ingénieur distingué chez Insight. « La formation sur des dizaines de millions de paramètres apporte de la valeur. »

Aujourd’hui, presque tous les LLM proviennent de grands hyperscalers ou de startups axées sur l’IA comme OpenAI et Anthropic.

Même les entreprises possédant une vaste expérience dans la création de leurs propres modèles évitent de créer leurs propres LLM.

Salesloft, par exemple, construit ses propres modèles d’IA et d’apprentissage automatique depuis des années, y compris des modèles d’IA de génération utilisant des technologies antérieures, mais hésite à créer un tout nouveau modèle de base de pointe à partir de zéro.

« Il s’agit d’une étape informatique massive dans laquelle, du moins à ce stade, je ne nous vois pas nous lancer », déclare Fields.




Source link

novembre 16, 2023