Obtenir (et conserver) des modèles PNL en toute sécurité en production

La mise en production de modèles de traitement du langage naturel (NLP) ressemble beaucoup à l'achat d'une voiture. Dans les deux cas, vous définissez vos paramètres pour le résultat souhaité, testez plusieurs approches, les retestez probablement, et à la minute où vous quittez le terrain, la valeur commence à chuter. Comme avoir une voiture, avoir des produits compatibles avec la PNL ou l'IA présente de nombreux avantages, mais la maintenance ne s'arrête jamais – du moins pour fonctionner correctement au fil du temps, cela ne devrait pas.
Bien que la production de l'IA soit déjà assez difficile, assurer la précision des modèles à long terme dans un environnement réel peut présenter des défis de gouvernance encore plus importants. La précision du modèle se dégrade au moment où il arrive sur le marché, car l'environnement de recherche prévisible sur lequel il a été formé se comporte différemment dans la vie réelle. Tout comme l'autoroute est un scénario différent de celui du concessionnaire.
Cela s'appelle la dérive de concept – ce qui signifie que lorsque les variables changent, le concept appris peut ne plus être précis – et bien que ce ne soit rien de nouveau dans le domaine de l'IA et de l'apprentissage automatique. (ML), c'est quelque chose qui continue de défier les utilisateurs. C'est également un facteur qui explique pourquoi, malgré d'énormes investissements dans l'IA et la PNL ces dernières années, seulement 13 % environ des projets de science des données sont effectivement mis en production (VentureBeat).
Alors, qu'est-ce que ça fait prendre pour déplacer les produits en toute sécurité de la recherche à la production ? Sans doute tout aussi important, que faut-il pour les maintenir en production avec précision avec les marées changeantes ? Il y a quelques considérations que les entreprises doivent garder à l'esprit pour s'assurer que leurs investissements en IA voient le jour. de nombreux produits restent des projets. La gouvernance des modèles couvre la façon dont une entreprise suit l'activité, l'accès et le comportement des modèles dans un environnement de production donné. Il est important de surveiller cela pour atténuer les risques, dépanner et maintenir la conformité. Ce concept est bien compris au sein de la communauté mondiale de l'IA, mais c'est aussi une épine dans le pied.
Les données du 2021 NLP Industry Survey ont montré que les outils de haute précision, faciles à régler et à personnaliser, étaient une priorité absolue pour les répondants. Les responsables techniques ont fait écho à cela, notant que la précision, suivie de la préparation à la production et de l'évolutivité, était vitale lors de l'évaluation des solutions NLP. Un réglage constant est essentiel pour que les modèles fonctionnent avec précision au fil du temps, mais c'est aussi le plus grand défi auquel les praticiens sont confrontés.
Les projets de PNL impliquent des pipelines, dans lesquels les résultats d'une tâche précédente et d'un modèle pré-entraîné sont utilisés en aval. Souvent, les modèles doivent être réglés et personnalisés pour leurs domaines et applications spécifiques. Par exemple, un modèle de soins de santé formé sur des articles universitaires ou des revues médicales ne fonctionnera pas de la même manière lorsqu'il sera utilisé par une entreprise médiatique pour identifier de fausses nouvelles.
Une meilleure recherche et collaboration au sein de la communauté de l'IA jouera un rôle clé dans la normalisation des pratiques de gouvernance des modèles. . Cela inclut le stockage des actifs de modélisation dans un catalogue consultable, y compris des blocs-notes, des ensembles de données, des mesures résultantes, des hyper-paramètres et d'autres métadonnées. Permettre la reproductibilité et le partage des expériences entre les membres de l'équipe de science des données est un autre domaine qui sera avantageux pour ceux qui essaient de faire passer leurs projets au niveau de la production.
Plus tactiquement, des tests et des retests rigoureux sont le meilleur moyen de garantir que les modèles se comportent de la même manière. en production comme en recherche — deux environnements très différents. Les modèles de versionnage qui ont dépassé le stade de l'expérimentation pour devenir une version candidate, tester ces candidats pour la précision, le biais et la stabilité, et valider les modèles avant de se lancer dans de nouvelles zones géographiques ou populations sont des facteurs que tous les praticiens devraient exercer.
Avec tout lancement de logiciel. , la sécurité et la conformité doivent être intégrées à la stratégie dès le départ, et les projets d'IA ne sont pas différents. Le contrôle d'accès basé sur les rôles et un flux de travail d'approbation pour la publication et le stockage du modèle et la fourniture de toutes les métadonnées nécessaires à une piste d'audit complète sont quelques-unes des mesures de sécurité nécessaires pour qu'un modèle soit considéré comme prêt pour la production.
Ces pratiques peuvent considérablement améliorer le chances que les projets d'IA passent de l'idéation à la production. Plus important encore, ils aident à jeter les bases des pratiques qui devraient être appliquées une fois qu'un produit est prêt pour le client.
Maintenir les modèles d'IA en production
Retour à l'analogie avec la voiture : production, les équipes de données doivent donc surveiller en permanence leurs modèles. Contrairement aux projets logiciels traditionnels, il est important de garder les scientifiques et les ingénieurs des données sur le projet, même après le déploiement du modèle.
D'un point de vue opérationnel, cela nécessite plus de ressources, à la fois en capital humain et en termes de coûts, ce qui peut expliquer pourquoi de nombreuses organisations ne parviennent pas à le faire. La pression pour suivre le rythme des affaires et passer à la « prochaine chose » entre également en ligne de compte, mais le plus gros oubli est peut-être que même les responsables informatiques ne s'attendent pas à ce que la dégradation des modèles soit un problème.
Dans les soins de santé, par exemple. Par exemple, un modèle peut analyser les dossiers médicaux électroniques (DME) pour prédire la probabilité d'un patient d'avoir une césarienne d'urgence en fonction de facteurs de risque tels que l'obésité, le tabagisme ou la consommation de drogues, et d'autres déterminants de la santé. Si la patiente est considérée comme à haut risque, son praticien peut lui demander de venir plus tôt ou plus fréquemment pour réduire les complications de la grossesse. est moins prévisible. Ils ont arrêté de fumer ? A-t-on diagnostiqué un diabète gestationnel ? Il existe également des nuances dans la manière dont le clinicien pose une question et enregistre la réponse dans le dossier de l'hôpital, ce qui peut entraîner des résultats différents.
Cela peut devenir encore plus délicat si l'on considère les outils de PNL que la plupart des praticiens utilisent. Une majorité (83 %) des répondants à l'enquête susmentionnée ont déclaré qu'ils utilisaient au moins l'un des services cloud NLP suivants : AWS Comprehend, Azure Text Analytics, Google Cloud Natural Language AI ou IBM Watson NLU. Alors que la popularité et l'accessibilité des services cloud sont évidentes, les leaders technologiques ont cité les difficultés de réglage des modèles et les coûts comme des défis majeurs. Essentiellement, même les experts sont aux prises avec le maintien de la précision des modèles en production.
Un autre problème est qu'il faut simplement du temps pour voir quand quelque chose ne va pas. La durée peut varier considérablement. Amazon met peut-être à jour un algorithme de détection de fraude et bloque par erreur les clients dans le processus. En quelques heures, voire quelques minutes, les e-mails du service client signaleront un problème. Dans le domaine de la santé, cela peut prendre des mois pour obtenir suffisamment de données sur une certaine condition pour voir qu'un modèle s'est dégradé. avant le déploiement du modèle. Lorsqu'il s'agit de modèles d'IA et de ML en production, il est plus pertinent de s'attendre à des problèmes que de s'attendre à des performances optimales sur plusieurs mois.
Lorsque vous considérez tout le travail nécessaire pour mettre les modèles en production et les y maintenir en toute sécurité, on comprend pourquoi 87 % des projets de données ne parviennent jamais sur le marché. Malgré cela, 93% des leaders technologiques ont indiqué que leurs budgets PNL avaient augmenté de 10 à 30% par rapport à l'année dernière (Gradient Flow). Il est encourageant de voir des investissements croissants dans la technologie NLP, mais cela ne sert à rien si les entreprises ne font pas le point sur l'expertise, le temps et la mise à jour continue nécessaires pour déployer des projets NLP réussis.
Source link