Tirer le meilleur parti des MLOps

Lorsque les entreprises commencent à déployer l’intelligence artificielle et à créer des projets d’apprentissage automatique, l’accent est généralement mis sur la théorie. Existe-t-il un modèle qui peut fournir les résultats nécessaires ? Comment peut-il être construit ? Comment peut-il être entraîné ?
Mais les outils que les data scientists utilisent pour créer ces preuves de concept ne se traduisent souvent pas bien dans les systèmes de production. En conséquence, le déploiement d’une solution d’IA ou de ML peut prendre plus de neuf mois en moyenne, selon les données d’IDC.
« Nous appelons cela la ‘vitesse du modèle’, le temps qu’il faut du début à la fin », explique Sriram Subramanian, analyste chez IDC.
C’est là que MLOps entre en jeu. MLOps – opérations d’apprentissage automatique – est un ensemble de meilleures pratiques, de cadres et d’outils qui aident les entreprises à gérer les données, les modèles, le déploiement, la surveillance et d’autres aspects de la prise d’un système d’IA de preuve de concept théorique et le mettre au travail.
« MLOps réduit la vitesse du modèle à des semaines, parfois à des jours », explique Subramanian. « Tout comme le temps moyen de création d’une application est accéléré avec DevOps, c’est pourquoi vous avez besoin de MLOps. »
En adoptant MLOps, dit-il, les entreprises peuvent créer plus de modèles, innover plus rapidement et traiter davantage de cas d’utilisation. « La proposition de valeur est claire », dit-il.
IDC prévoit que d’ici 2024, 60 % des entreprises auront opérationnalisé leurs flux de travail ML en utilisant MLOps. Et lorsque les entreprises ont été interrogées sur les défis de l’adoption de l’IA et du ML, le manque de MLOps était un obstacle majeur à l’adoption de l’IA et du ML, juste après le coût, explique Subramanian.
Nous examinons ici ce qu’est le MLOP, comment il a évolué et ce que les organisations doivent accomplir et garder à l’esprit pour tirer le meilleur parti de cette méthodologie émergente d’opérationnalisation de l’IA.
L’évolution des MLOps
Lorsque Eugenio Zuccarelli a commencé à créer des projets d’apprentissage automatique il y a plusieurs années, MLOps n’était qu’un ensemble de bonnes pratiques. Depuis lors, Zuccarelli a travaillé sur des projets d’IA dans plusieurs entreprises, y compris celles des soins de santé et des services financiers, et il a vu les MLOps évoluer au fil du temps pour inclure des outils et des plateformes.
Aujourd’hui, MLOps offre un cadre assez robuste pour opérationnaliser l’IA, déclare Zuccarelli, qui est maintenant scientifique des données d’innovation chez CVS Health. À titre d’exemple, Zuccarelli mentionne un projet sur lequel il a travaillé auparavant pour créer une application qui prédirait les résultats indésirables, tels que la réadmission à l’hôpital ou la progression de la maladie.
«Nous explorions des ensembles de données et des modèles et discutions avec des médecins pour découvrir les caractéristiques des meilleurs modèles», dit-il. « Mais pour rendre ces modèles réellement utiles, nous devions les présenter aux utilisateurs réels. »
Cela signifiait créer une application mobile fiable, rapide et stable, avec un système d’apprentissage automatique sur le back-end connecté via une API. « Sans MLOps, nous n’aurions pas pu garantir cela », dit-il.
Son équipe a utilisé la plateforme H2O MLOps et d’autres outils pour créer un tableau de bord de santé pour le modèle. « Vous ne voulez pas que le modèle change considérablement », dit-il. « Et vous ne voulez pas introduire de biais. Le tableau de bord de santé nous permet de comprendre si le système a changé. »
L’utilisation d’une plate-forme MLOps a également permis de mettre à jour les systèmes de production. « Il est très difficile d’échanger un fichier sans empêcher l’application de fonctionner », déclare Zuccarelli. « Les outils MLOps peuvent échanger un système même s’il est en production avec une perturbation minimale du système lui-même. »
À mesure que les plates-formes MLOps mûrissent, elles accélèrent l’ensemble du processus de développement de modèles, car les entreprises n’ont pas à réinventer la roue à chaque projet, dit-il. Et la fonctionnalité de gestion du pipeline de données est également essentielle à l’opérationnalisation de l’IA.
« Si nous avons plusieurs sources de données qui doivent communiquer entre elles, c’est là que les MLOps peuvent intervenir », dit-il. « Vous voulez que toutes les données entrant dans les modèles ML soient cohérentes et de haute qualité. Comme on dit, ordures à l’intérieur, ordures à l’extérieur. Si le modèle contient des informations médiocres, la prédiction sera elle-même médiocre. »
Fondamentaux du MLOps : une cible mouvante
Mais ne pensez pas que ce n’est pas parce que des plates-formes et des outils deviennent disponibles que vous pouvez ignorer les principes fondamentaux de MLOps. Les entreprises qui commencent tout juste à passer à cette discipline doivent garder à l’esprit que le MLOps consiste essentiellement à créer des liens solides entre la science des données et l’ingénierie des données.
« Pour assurer le succès d’un projet MLOps, vous avez besoin à la fois d’ingénieurs de données et de scientifiques de données dans la même équipe », déclare Zuccarelli.
De plus, les outils nécessaires pour protéger contre les préjugés, assurer la transparence, fournir une explication et soutenir les plates-formes d’éthique – ces outils sont encore en cours de construction, dit-il. « Cela nécessite encore beaucoup de travail car c’est un domaine tellement nouveau. »
Ainsi, sans solution clé en main complète à adopter, les entreprises doivent maîtriser toutes les facettes qui rendent les MLOps si efficaces pour opérationnaliser l’IA. Et cela signifie développer une expertise dans un large éventail d’activités, explique Meagan Gentry, responsable nationale de la pratique de l’équipe IA chez Insight, une société de conseil en technologie basée à Tempe.
MLOps couvre toute la gamme, de la collecte, de la vérification et de l’analyse des données à la gestion des ressources de la machine et au suivi des performances des modèles. Et les outils disponibles pour aider les entreprises peuvent être déployés sur site, dans le cloud ou en périphérie. Ils peuvent être open source ou propriétaires.
Mais maîtriser les aspects techniques n’est qu’une partie de l’équation. MLOps emprunte également une méthodologie agile à DevOps et le principe du développement itératif, explique Gentry. De plus, comme dans toute discipline liée à l’agilité, la communication est cruciale.
« La communication dans chaque rôle est essentielle », dit-elle. « La communication entre le data scientist et le data engineer. Communication avec les DevOps et avec l’ensemble de l’équipe informatique. »
Pour les entreprises qui débutent, les MLOps peuvent être déroutants. Il existe des principes généraux, des dizaines de fournisseurs et encore plus d’ensembles d’outils open source.
« C’est là qu’interviennent les pièges », déclare Helen Ristov, responsable principale de l’architecture d’entreprise chez Capgemini Americas. « Une grande partie de cela est en cours de développement. Il n’y a pas d’ensemble formel de directives comme ce que vous verriez avec DevOps. C’est une technologie naissante et il faut du temps pour que les lignes directrices et les politiques rattrapent leur retard.
Ristov recommande aux entreprises de commencer leurs parcours MLOps avec leurs plateformes de données. « Peut-être qu’ils ont des ensembles de données, mais qu’ils vivent dans des endroits différents, mais ils n’ont pas un environnement cohérent », dit-elle.
Les entreprises n’ont pas besoin de déplacer toutes les données vers une seule plate-forme, mais il doit y avoir un moyen d’importer des données provenant de sources de données disparates, dit-elle, et cela peut varier en fonction de l’application. Les lacs de données fonctionnent bien pour les entreprises effectuant de nombreuses analyses à haute fréquence qui recherchent un stockage à faible coût, par exemple.
Les plates-formes MLOps sont généralement livrées avec des outils pour créer et gérer des pipelines de données et suivre les différentes versions des données de formation, mais ce n’est pas pressé et c’est parti, dit-elle.
Ensuite, il y a la création de modèles, la gestion des versions, la journalisation, l’évaluation des ensembles de fonctionnalités et d’autres aspects de la gestion des modèles eux-mêmes.
« Il y a une quantité substantielle de codage qui entre dans ce domaine », déclare Ristov, ajoutant que la mise en place d’une plate-forme MLOps peut prendre des mois et que les fournisseurs de plates-formes ont encore beaucoup de travail à faire en matière d’intégration.
« Il y a tellement de développement qui va dans des directions différentes », dit-elle. « De nombreux outils sont en cours de développement, et l’écosystème est très vaste et les gens choisissent simplement ce dont ils ont besoin. MLOps est à un stade adolescent. La plupart des organisations sont encore en train de trouver des configurations optimales.
Donner un sens au paysage MLOps
Le marché des MLOps est devrait atteindre environ 700 millions de dollars d’ici 2025, contre environ 185 millions de dollars en 2020, selon Subramanian d’IDC. Mais il s’agit probablement d’un sous-dénombrement important, dit-il, car les produits MLOps sont souvent intégrés à des plates-formes plus grandes. La taille réelle du marché, dit-il, pourrait être de plus de 2 milliards de dollars d’ici 2025.
Les fournisseurs de MLOps ont tendance à se répartir en trois catégories, à commencer par les grands fournisseurs de cloud, notamment AWS, Azure et Google cloud, qui fournissent des fonctionnalités MLOps en tant que service, explique Subramanian.
Ensuite, il existe des fournisseurs de plates-formes ML tels que DataRobot, Dataiku et Iguazio.
« La troisième catégorie est ce qu’ils appelaient les fournisseurs de gestion de données », dit-il. « Les goûts de Cloudera, SAS et DataBricks. Leur force était les capacités de gestion des données et les opérations de données et ils se sont étendus aux capacités ML et finalement aux capacités MLOps.
Les trois domaines explosent, déclare Subramanian, ajoutant que ce qui distingue un fournisseur MLOps, c’est s’il peut prendre en charge à la fois les modèles de déploiement sur site et dans le cloud, s’il peut mettre en œuvre une IA fiable et responsable, s’il est plug-and-play. , et la facilité avec laquelle ils peuvent évoluer. « C’est là que la différenciation entre en jeu », dit-il.
Selon une récente enquête IDC, le manque de méthodes pour mettre en œuvre une IA responsable était l’un des trois principaux obstacles à l’adoption de l’IA et du ML, à égalité en deuxième position avec le manque de MLOps lui-même.
C’est en grande partie parce qu’il n’y a pas d’alternative à l’adoption de MLOps, déclare Sumit Agarwal, analyste de recherche sur l’intelligence artificielle et l’apprentissage automatique chez Gartner.
« Les autres approches sont manuelles », dit-il. « Donc, vraiment, il n’y a pas d’autre option. Si vous voulez évoluer, vous avez besoin d’automatisation. Vous avez besoin d’une traçabilité de votre code, de vos données et de vos modèles.
Selon une récente enquête Gartner, le temps moyen nécessaire pour faire passer un modèle de la preuve de concept à la production est passé de neuf à 7,3 mois. « Mais 7,3 mois, c’est encore élevé », déclare Agarwal. « Les organisations ont de nombreuses opportunités de tirer parti des MLOps. »
Faire le virage culturel vers les MLOps
MLOps nécessite également un changement culturel de la part de l’équipe d’IA d’une entreprise, déclare Amaresh Tripathy, leader mondial de l’analyse chez Genpact.
« L’image populaire d’un scientifique des données est celle d’un scientifique fou essayant de trouver une aiguille dans une botte de foin », dit-il. « Le scientifique des données est un découvreur et un explorateur – pas un atelier de fabrication de widgets. Mais c’est ce que vous devez faire pour le mettre à l’échelle.
Et les entreprises sous-estiment souvent la quantité d’efforts nécessaires, dit-il.
« Les gens ont une meilleure appréciation du génie logiciel », dit-il. « Il y a beaucoup de discipline sur l’expérience utilisateur, les exigences. Mais d’une manière ou d’une autre, les gens ne pensent pas que si je déploie un modèle, je dois passer par le même processus. Ensuite, il y a l’erreur de supposer que tous les scientifiques des données qui sont bons dans un environnement de test iront très naturellement et seraient capables de le déployer, ou ils peuvent faire appel à quelques collègues informatiques et être capables de le faire. Il y a un manque d’appréciation pour ce qu’il faut.
Les entreprises ne comprennent pas non plus que les MLOps peuvent avoir des effets d’entraînement sur d’autres parties de l’entreprise, entraînant souvent des changements spectaculaires.
« Vous pouvez mettre des MLOps dans un centre d’appels et le temps de réponse moyen augmentera en fait car les choses simples sont prises en charge par la machine, par l’IA, et les choses qui vont à l’humain prennent en fait plus de temps parce que c’est plus complexe », il dit. « Vous devez donc repenser ce que le travail va être, et quelles personnes vous avez besoin, et quelles devraient être les compétences. »
Aujourd’hui, dit-il, moins de 5 % des décisions dans une organisation sont pilotées par des algorithmes, mais cela évolue rapidement. « Nous prévoyons que 20 à 25 % des décisions seront pilotées par des algorithmes dans les cinq prochaines années. Chaque statistique que nous examinons, nous sommes à un point d’inflexion de mise à l’échelle rapide pour l’IA.
Et MLOps est l’élément critique, dit-il.
« À cent pour cent », dit-il. « Sans cela, vous ne pourrez pas faire de l’IA de manière cohérente. MLOps est le catalyseur de mise à l’échelle de l’IA dans l’entreprise. »
Source link