Prendre de meilleures décisions en matière d’infrastructure d’IA : pourquoi le cloud hybride est un choix solide

L’approche traditionnelle des projets d’intelligence artificielle (IA) et d’apprentissage en profondeur consiste à les déployer dans le cloud. Étant donné qu’il est courant que le développement de logiciels d’entreprise tire parti des environnements cloud, de nombreux groupes informatiques supposent que cette approche d’infrastructure réussira également pour la formation des modèles d’IA.
Pour de nombreux projets d’IA naissants en phase de prototypage et d’expérimentation, le cloud fonctionne très bien. Mais les entreprises découvrent souvent qu’à mesure que les ensembles de données augmentent en volume et que la complexité des modèles d’IA augmente, le coût croissant des cycles de calcul, du déplacement des données et du stockage peut devenir incontrôlable. Appelée gravité des données, il s’agit du coût et de la latence du flux de travail pour amener de grands ensembles de données de l’endroit où ils sont créés à l’endroit où résident les ressources de calcul. Cela a amené de nombreuses entreprises à envisager de déplacer leur formation à l’IA du cloud vers un centre de données sur site proche des données.
L’hybride convient parfaitement à certains projets d’IA
Il existe une alternative qui vaut la peine d’être explorée, celle qui évite de forcer un choix entre le cloud et sur site. Une approche d’infrastructure cloud hybride permet aux entreprises de tirer parti des deux environnements. Dans ce cas, les organisations peuvent utiliser une infrastructure sur site pour leurs demandes de formation « à l’état stable » en cours, complétées par des services cloud pour les pics temporels ou les pics imprévisibles qui dépassent cette capacité.
« Le dicton : ‘Possédez la base, louez la pointe’ résume l’essence de cette situation », déclare Tony Paikeday, directeur principal des systèmes d’IA chez NVIDIA. « L’informatique d’entreprise fournit une infrastructure sur site pour prendre en charge le volume permanent des charges de travail d’IA et conserve la capacité de basculer vers le cloud chaque fois qu’une capacité supplémentaire est nécessaire. »
Cette approche garantit la disponibilité continue des ressources de calcul pour les développeurs, tout en garantissant le coût le plus bas par cycle de formation.
Avec l’essor des plates-formes d’orchestration de conteneurs telles que Kubernetes et autres, les entreprises peuvent gérer plus efficacement l’allocation des ressources de calcul qui se situent à cheval entre les instances cloud et le matériel sur site, tel que Systèmes NVIDIA DGX A100.
Par exemple, la société aérospatiale Lockheed Martin utilise une approche dans laquelle elle exécute des expériences sur des modèles d’IA plus petits à l’aide d’instances cloud compatibles GPU et de son serveur DGX pour la formation et l’inférence sur ses plus grands projets. Bien que l’équipe d’intelligence artificielle utilise le cloud, les systèmes DGX restent leur seule ressource pour le calcul GPU, car il est plus difficile d’effectuer le parallélisme des modèles et des données sur les instances cloud, explique Paikeday.
Il souligne qu’il n’y a pas de réponse unique pour toutes les entreprises lorsqu’il s’agit de la question des approches sur site, cloud uniquement et hybrides.
« Différentes entreprises abordent cela sous des angles différents, et certaines graviteront naturellement vers le cloud, en fonction de l’endroit où leurs ensembles de données sont créés et vivent », dit-il.
Pour d’autres dont le lac de données réside sur site ou même dans une installation de colocation, ils peuvent éventuellement voir l’avantage croissant de rendre leur infrastructure de formation proche des données, en particulier à mesure que leur maturité en matière d’IA augmente.
« D’autres qui ont déjà investi dans le sur site diront que c’est une extension naturelle de ce qu’ils ont », déclare Paikeday. « Quelque part, ces deux camps se rencontreront au milieu, et les deux adopteront une infrastructure hybride. En raison de la nature et du caractère unique du développement de modèles d’IA, ils se rendront compte que les entreprises peuvent avoir un équilibre entre les deux types d’infrastructure.
Cliquez sur ici pour en savoir plus sur les avantages de l’utilisation d’une infrastructure hybride pour le développement de votre modèle d’IA à l’aide de systèmes NVIDIA DGX, alimentés par des GPU DGX A100 Tensor Core et des processeurs AMD EPYC.
À propos de Keith Shaw :
Keith est un journaliste numérique indépendant qui écrit sur des sujets technologiques depuis plus de 20 ans.
Source link