novembre 28, 2023

Gen AI sans les risques

ChatGPT, Stable Diffusion et DreamStudio-Generative AI font la une des journaux, et à juste titre. Les résultats sont impressionnants et s’améliorent à un rythme géométrique. Les assistants intelligents changent déjà la façon dont nous recherchons, analysons les informations et faisons tout, de la création de code à la sécurisation des réseaux et à la rédaction d’articles.

La génération AI deviendra un élément fondamental de la manière dont les entreprises gèrent et fournissent des services informatiques et de la manière dont les utilisateurs professionnels accomplissent leur travail. Les possibilités sont infinies, mais les pièges le sont aussi. Développer et déployer une IA réussie peut être un processus coûteux avec un risque d’échec élevé. En plus de cela, la génération IA et les grands modèles linguistiques (LLM) qui l’alimentent sont des charges de travail de super-informatique qui dévorent de l’électricité. Les estimations varient, mais le Dr Sajjad Moazeni de l’Université de Washington estime que la formation d’un LLM avec plus de 175 milliards d’euros Ces paramètres consomment l’équivalent d’un an d’énergie pour 1 000 foyers américains. Répondre à plus de 100 millions de questions d’IA générative par jour peut brûler 1 gigawattheure d’électricité, ce qui correspond à peu près à la consommation énergétique quotidienne de 33 000 foyers américains.¹

Il est difficile d’imaginer comment même les hyperscalers peuvent se permettre autant d’électricité. Pour l’entreprise moyenne, c’est un coût prohibitif. Comment les DSI peuvent-ils fournir une IA précise et fiable sans les coûts énergétiques et l’empreinte carbone d’une petite ville ?

Six conseils pour déployer la Gen AI avec moins de risques et de manière rentable

La capacité de recycler l’IA générative pour des tâches spécifiques est essentielle pour la rendre pratique pour les applications métiers. Le recyclage crée des modèles experts plus précis, plus petits et plus efficaces à exécuter. Alors, chaque entreprise doit-elle constituer une équipe de développement dédiée à l’IA et un superordinateur pour former ses propres modèles d’IA ? Pas du tout.

Voici six conseils pour développer et déployer l’IA sans investir énormément dans du personnel expert ou du matériel exotique.

1. Ne réinventez pas la roue : commencez par un modèle de base

Une entreprise pourrait investir dans le développement de ses propres modèles pour ses applications uniques. Cependant, l’investissement dans l’infrastructure de calcul intensif, l’expertise HPC et les scientifiques des données dépasse tous les objectifs, à l’exception des plus grands hyperscalers, entreprises et agences gouvernementales.

Commencez plutôt par un modèle de base doté d’un écosystème de développeurs actif et d’un portefeuille d’applications sain. Vous pouvez utiliser un modèle de base propriétaire comme ChatGPT d’OpenAI ou un modèle open source comme Llama 2 de Meta. Des communautés comme Hugging Face offrent une vaste gamme de modèles et d’applications open source.

2. Faites correspondre le modèle à l’application

Les modèles peuvent être polyvalents et gourmands en calcul comme GPT ou étroitement axés sur un sujet spécifique comme Med-BERT (un LLM open source pour la littérature médicale). La sélection du bon modèle au début d’un projet peut économiser des mois de formation et réduire le temps nécessaire pour obtenir un prototype réalisable.

Mais soyez prudent. Tout modèle peut manifester des biais dans ses données d’entraînement et les modèles d’IA génératifs peuvent fabriquer des réponses, halluciner et mentir catégoriquement. Pour une fiabilité maximale, recherchez des modèles formés sur des données transparentes et propres avec une gouvernance claire et une prise de décision explicable.

3. Recycler pour créer des modèles plus petits avec une plus grande précision

Les modèles de base peuvent être recyclés sur des ensembles de données spécifiques, ce qui présente plusieurs avantages. À mesure que le modèle devient plus précis sur un champ plus étroit, il perd les paramètres dont il n’a pas besoin pour l’application. Par exemple, le recyclage d’un LLM sur l’information financière échangerait une capacité générale comme l’écriture de chansons contre la capacité d’aider un client avec une demande de prêt hypothécaire.

Le nouvel assistant bancaire aurait un modèle plus petit qui pourrait fonctionner sur du matériel à usage général (existant) tout en fournissant d’excellents services très précis.

4. Utilisez l’infrastructure dont vous disposez déjà

Faire fonctionner un superordinateur doté de 10 000 GPU est hors de portée de la plupart des entreprises. Heureusement, vous n’avez pas besoin d’énormes baies de GPU pour la majeure partie de la formation pratique, du recyclage et de l’inférence en IA.

Formation jusqu’à 10 milliards— les processeurs modernes dotés d’une accélération IA intégrée peuvent gérer des charges d’entraînement de cette gamme à des prix/performances compétitifs. Formez-vous du jour au lendemain lorsque la demande du centre de données est faible pour obtenir de meilleures performances et réduire les coûts.
Recyclage jusqu’à 10 milliards…moderne Les processeurs peuvent recycler ces modèles en quelques minutes, sans nécessiter de GPU.
Inférence de millions à <20 milliards: les modèles plus petits peuvent fonctionner sur des appareils périphériques autonomes dotés de processeurs intégrés. Les processeurs peuvent fournir des réponses rapides et précises pour des modèles comportant moins de 20 milliards de paramètres comme Lama 2 qui sont compétitifs avec les GPU.

5. Exécutez une inférence sensible au matériel

Les applications d’inférence peuvent être optimisées et réglées pour de meilleures performances sur des types de matériel et des fonctionnalités spécifiques. Comme pour la formation de modèles, l’optimisation implique d’équilibrer la précision avec la taille du modèle et l’efficacité du traitement pour répondre aux besoins d’une application spécifique.

Par exemple, la conversion d’un modèle à virgule flottante de 32 bits en entiers fixes de 8 bits les plus proches (INT8) peut multiplier par 4 les vitesses d’inférence avec une perte de précision minimale. Des outils tels que la boîte à outils Intel® Distribution of OpenVINO™ gèrent l’optimisation et créent des moteurs d’inférence sensibles au matériel qui tirent parti des accélérateurs hôtes tels que les GPU intégrés, Intel® Advanced Matrix Extensions (Intel® AMX) et Intel® Advanced Vector Extensions 512 (Intel® AVX). -512).

6. Gardez un œil sur vos dépenses cloud

Fournir des services d’IA avec des API et des applications d’IA basées sur le cloud constitue une voie rapide et fiable qui peut évoluer à la demande. L’IA permanente d’un fournisseur de services est idéale pour les utilisateurs professionnels et les clients, mais les coûts peuvent augmenter de manière inattendue. Si tout le monde aime votre service d’IA, tout le monde utilisera votre service.

De nombreuses entreprises qui ont commencé leur parcours vers l’IA entièrement dans le cloud rapatrient les charges de travail qui peuvent bien fonctionner sur leur infrastructure existante sur site et colocalisée. Les organisations cloud natives avec peu ou pas d’infrastructure sur site trouvent que le paiement à l’utilisation et l’infrastructure en tant que service sont une alternative viable à l’augmentation des coûts du cloud.

En ce qui concerne la génération AI, vous avez le choix. Le battage médiatique et le mystère de la boîte noire autour de l’IA générative la font ressembler à une technologie lunaire que seules les organisations les mieux financées peuvent se permettre. En réalité, il existe des centaines de modèles hautes performances, y compris des LLM pour l’IA générative, qui sont précis et performants sur un centre de données ou une instance cloud standard basé sur un processeur. Les outils d’expérimentation, de prototypage et de déploiement d’IA générative de niveau entreprise évoluent rapidement du côté propriétaire et dans les communautés open source.

Les DSI intelligents qui tirent parti de toutes leurs options peuvent mettre en œuvre une IA révolutionnaire sans les coûts et les risques liés au développement de tout par eux-mêmes.

À propos d’Intel

Le matériel et les logiciels Intel® alimentent la formation, l’inférence et les applications de l’IA dans les superordinateurs et les centres de données Dell, jusqu’aux serveurs de périphérie robustes pour la mise en réseau et l’IoT afin d’accélérer l’IA partout. Apprendre encore plus.

À propos de Dell

Dell Technologies accélère votre parcours vers l’IA du possible au éprouvé en tirant parti de technologies innovantes, d’une suite complète de services professionnels et d’un vaste réseau de partenaires. Apprendre encore plus.

^{^[1]} Université de Washington, UW News, Questions et réponses : un chercheur de l’UW discute de la quantité d’énergie utilisée par ChatGPT27 juillet 2032, consulté en novembre 2023

Source link

Blog ARC Optimizer

novembre 28, 2023

Gen AI sans les risques

Articles similaires

Blog ARC Optimizer

Partager :

Articles similaires