Pourquoi l’infrastructure spécialement conçue est la meilleure option pour faire évoluer le développement de modèles d’IA

De nombreuses entreprises qui commencent leurs projets d’IA dans le cloud atteignent souvent un point où les variables de coût et de temps deviennent des problèmes. Cela est généralement dû à la croissance exponentielle de la taille des ensembles de données et à la complexité des modèles d’IA.
« Dans une première phase, vous pourriez soumettre une tâche au cloud où une exécution de formation s’exécuterait et le modèle d’IA convergerait rapidement », explique Tony Paikeday, directeur principal des systèmes d’IA chez NVIDIA. « Mais à mesure que les modèles et les ensembles de données se développent, il y a un effet étouffant associé à l’augmentation du coût et du temps de calcul. Les développeurs constatent qu’un travail de formation prend désormais plusieurs heures, voire plusieurs jours, et dans le cas de certains modèles de langage, cela peut prendre plusieurs semaines. Ce qui était auparavant un prototypage de modèle rapide et itératif s’arrête et l’exploration créative commence à être étouffée.
Ce point d’inflexion lié à l’augmentation du temps nécessaire à la formation des modèles d’IA – ainsi qu’à l’augmentation des coûts liés à la gravité des données et aux cycles de calcul – incite de nombreuses entreprises à adopter une approche hybride et à déplacer leurs projets d’IA du cloud vers un environnement sur site. infrastructure ou une infrastructure colocalisée avec leur lac de données.
Mais il existe un piège supplémentaire que de nombreuses entreprises pourraient rencontrer. Paikeday dit que cela se produit s’ils choisissent de construire eux-mêmes une telle infrastructure ou de réutiliser l’infrastructure informatique existante au lieu d’opter pour une architecture spécialement conçue pour l’IA.
« L’équipe informatique pourrait dire : « Nous avons beaucoup de serveurs, configurons-les simplement avec des GPU et lançons-leur ces tâches », dit-il. « Mais ils réalisent ensuite que ce n’est pas la même chose qu’un système conçu spécifiquement pour entraîner des modèles d’IA à grande échelle, dans un cluster optimisé pour fournir des résultats en quelques minutes au lieu de plusieurs semaines. »
Avec le développement de l’IA, les entreprises ont besoin d’un retour sur investissement rapide, en s’assurant que les scientifiques des données travaillent sur les bonnes choses. « Vous payez beaucoup d’argent pour des talents en science des données », déclare Paikeday. « Plus ils passent de temps à ne pas faire de science des données – comme attendre une formation, dépanner un logiciel ou parler à des fournisseurs de réseau, de stockage ou de serveur pour résoudre un problème – c’est une perte d’argent et beaucoup de travail qui n’a rien à voir avec créer des modèles qui offrent une valeur commerciale.
C’est un avantage important d’un appareil spécialement conçu pour les modèles d’IA qui peut être installé sur site ou dans une installation de colocation. Par exemple, NVIDIA DGX A100 est destiné à être déballé, branché et mis sous tension, permettant aux scientifiques des données d’être productifs en quelques heures, au lieu de plusieurs semaines. Le système DGX offre aux entreprises cinq avantages clés pour faire évoluer le développement de l’IA :
- Une conception matérielle optimisée pour l’IA, ainsi qu’un parallélisme dans toute l’architecture pour répartir efficacement le travail de calcul sur tous les GPU et systèmes DGX connectés ensemble. Ce n’est pas seulement un système; c’est une infrastructure qui s’adapte à n’importe quel problème de taille.
- Une pile logicielle d’IA entièrement intégrée et éprouvée sur le terrain, comprenant des pilotes, des bibliothèques et des cadres d’IA optimisés pour fonctionner ensemble de manière transparente.
- Une solution de centre de données intégrée clé en main que les entreprises peuvent acheter auprès de leur revendeur à valeur ajoutée préféré, qui regroupe le calcul, le stockage, la mise en réseau, les logiciels et les consultants pour que tout soit opérationnel rapidement.
- Le système DGX est une plate-forme, pas seulement une boîte, d’une entreprise spécialisée dans l’IA, et a déjà créé des modèles de pointe, y compris le traitement du langage naturel, des systèmes de recommandation, des systèmes autonomes, etc. sont continuellement améliorés par l’équipe NVIDIA et mis à la disposition de chaque client DGX.
- Les « DGXperts » apportent la maîtrise et le savoir-faire de l’IA, en donnant des conseils sur la meilleure façon de construire un modèle, de résoudre un défi ou simplement d’aider un client qui travaille sur un projet d’IA.
Lorsqu’il est temps de faire passer un projet d’IA de l’exploration à une application de production, le bon choix peut accélérer et faire évoluer le retour sur investissement de votre investissement en IA.
Découvrez comment NVIDIA DGX A100alimenté par les GPU NVIDIA A100 Tensor Core et les processeurs AMD EPYC, répond aux exigences uniques de l’IA.
Source link