Fermer

mai 1, 2024

5 choses que les DSI doivent comprendre sur l’infrastructure de l’IA

5 choses que les DSI doivent comprendre sur l’infrastructure de l’IA



L’IA générative a attiré l’attention de tous – et pour cause. Mais passer du potentiel à la rentabilité n’est pas sans risques, par exemple en supposant que vos processus établis pour le déploiement de l’infrastructure informatique d’entreprise traditionnelle fonctionneront dans la nouvelle ère des superclusters complexes d’IA.

Une infrastructure technologique solide a toujours été essentielle. Néanmoins, les DSI qui veulent s’assurer que l’IA tient ses promesses auront besoin d’une meilleure idée de ce qui est nécessaire pour concevoir, déployer et gérer ce composant fondamental à grande échelle, notamment :

  1. Exigences en matière d’infrastructure

Les environnements basés sur l’IA sont relativement nouveaux, et tenter d’aligner la conception et l’architecture informatique d’entreprise traditionnelles avec des processeurs haute puissance, des réseaux à faible latence et des environnements de charge de travail pilotés par un planificateur introduit un nouvel ensemble de défis. La conception physique du centre de données est fondamentale, et l’impact silencieux et à long terme d’un système mal provisionné peut signifier le lancement d’un « faux départ » basé sur des éléments d’alimentation, de refroidissement et de réseau incorrects.

2. Optimisation des performances

Après une bonne conception, il y a l’impact des structures réseau GPU complexes et à faible latence. Ces systèmes nécessitent une configuration précise et, même si les systèmes non réglés restent fonctionnels, les équipes ignorent parfaitement les faibles niveaux de performances des charges de travail d’IA et, en fin de compte, un retour sur investissement manqué important.

Mark Seamans, vice-président du marketing mondial chez Penguin/SGH, le compare aux courses de Formule 1. « Un système mal configuré peut donner l’impression qu’il fonctionne comme une voiture de Formule 1, mais ce n’est que lorsque vous mettez cinq autres voitures sur la piste que vous réalisez que la concurrence vous dépasse », dit-il. « En vous assurant de travailler avec un ensemble de critères normatifs lors de la conception, de la construction et du déploiement, vous pouvez atteindre les vitesses maximales de la Formule 1, même si vous êtes le seul sur la piste. »

3. Évolutivité, flexibilité et fiabilité

Lorsque l’on considère l’infrastructure d’IA et sa nature élémentaire, la précision devient encore plus importante pour gérer efficacement les différentes charges de travail d’IA. Oui, c’est l’évolutivité et la flexibilité nécessaires pour s’adapter à l’évolution des demandes informatiques. Mais, comme le note Mark : « Il s’agit également de stabilité lorsque les équipes effectuent des mises à jour de sécurité, de logiciels et de micrologiciels, ou en cas d’ajout de nouveaux nœuds d’IA pour étendre la capacité du cluster. Si les éléments de base n’étaient pas réalisés de manière optimale, les changements futurs pourraient déstabiliser les systèmes.

4. Gestion de données

Les organisations sont habituées aux environnements dans lesquels d’autres serveurs peuvent prendre la charge en cas de panne. Pourtant, les systèmes d’IA ne fonctionnent pas de la même manière. Des réseaux mal configurés, des pannes de nœuds ou même la perte d’un GPU individuel peuvent tuer une tâche qui peut avoir été exécutée pendant des semaines, frustrant les utilisateurs et ajoutant du travail aux équipes informatiques surchargées.

« Penguin a développé de nombreuses innovations pour améliorer les performances et la fiabilité des clusters, notamment une solution qui isole les pannes GPU en attente, où nous pouvons évacuer ces nœuds, les trier en dehors de la configuration de production, résoudre le problème, puis les reprovisionner et les remettre en bonne santé. nœud dans le cluster », explique Mark.

5. Considérations relatives aux coûts

Le coût est toujours un facteur à prendre en compte, mais les implications associées aux charges de travail de l’IA sont à plus grande échelle. Prenons un système composé de 1 000 nœuds, chacun connecté par dix câbles réseau et plusieurs structures réseau complexes. L’achat de matériel, la consommation d’énergie importante pour l’alimentation et le refroidissement et les coûts de maintenance peuvent étendre les contraintes budgétaires dès le départ s’ils ne sont pas équilibrés avec les délais de déploiement et les exigences de performances. Avec ces configurations d’IA valant plusieurs millions de dollars, les retards dans la mise en production d’un système entraînent des coûts inutiles importants dus à la dépréciation et au retour sur investissement manqué.

Points de preuve d’un partenaire d’infrastructure d’IA expérimenté

Plus de 25 ans d’expérience en HPC et plus de sept ans de déploiement d’infrastructures d’IA à grande échelle ont fait de Penguin Solutions la référence en matière de plateformes d’IA. Avec plus de 50 000 GPU déployés et des clients comme Meta s’appuyant sur leur expertise spécialisée, Penguin est prêt à être le partenaire de confiance pour aider chaque client dans sa course vers l’avenir.

Apprenez-en davantage sur les solutions Penguin.




Source link