Fermer

juin 26, 2024

10 choses à garder à l’esprit lors de l’utilisation de l’IA générative open source

10 choses à garder à l’esprit lors de l’utilisation de l’IA générative open source



De nos jours, n’importe qui peut créer un modèle d’IA. Vous pouvez prendre votre modèle open source préféré, le modifier et le publier sous un nouveau nom sans aucune donnée de formation ni compétences en programmation.

Selon le rapport AI Index de l’Université de Stanford publié en avril, 149 modèles fondamentaux ont été publiés en 2023, dont les deux tiers étaient open source. Et le nombre de variantes est stupéfiant. Hugging Face suit actuellement plus de 80 000 LLM rien qu’en génération de texte, et heureusement, il existe un classement qui vous permet de trier rapidement les modèles en fonction de leurs scores sur divers benchmarks. Et même si ces modèles ne sont pas aussi performants que les modèles commerciaux des grandes entreprises, ils s’améliorent rapidement.

David Guarella, responsable de l’IA générative chez EY Americas, affirme que les classements peuvent être utiles lorsqu’on envisage l’IA générative open source. En particulier, Hugging Face ferait un excellent travail en termes de benchmarking.

« Mais ne sous-estimez pas l’intérêt d’expérimenter ces modèles », dit-il. « Comme il est open source, il est facile de l’expérimenter et de le remplacer, et l’écart de performances entre les modèles open source et les alternatives commerciales fermées se réduit », ajoute-t-il.

« L’open source est génial », ajoute Val Marchevsky, responsable de l’ingénierie chez Uber Freight. « Je vois une grande valeur dans l’open source. » Les modèles open source non seulement suivent le rythme des modèles propriétaires en termes de performances, dit-il, mais certains offrent également une transparence que les sources fermées ne peuvent égaler. « Dans certains modèles open source, vous pouvez voir ce qui est utilisé et ce qui ne l’est pas pour l’inférence », ajoute-t-il. « L’auditabilité est importante pour prévenir les hallucinations. »

Bien entendu, il y a aussi un avantage en termes de prix. « Si vous disposez d’un centre de données doté d’une capacité supplémentaire, pourquoi payer quelqu’un d’autre pour le faire ? »

Les entreprises sont déjà familiarisées avec l’utilisation du code open source. Selon l’analyse de la sécurité et des risques Open Source de Synopsys publiée en février, 96 % de toutes les bases de code commerciales contiennent des composants open source.

Grâce à cette expérience, les entreprises doivent savoir quoi faire pour utiliser du code sous licence appropriée, comment vérifier les vulnérabilités et comment tout maintenir à jour. Cependant, certaines de ces règles et bonnes pratiques comportent des nuances que les entreprises négligent souvent. Voici les principaux.

1. Nouvelles conditions de licence étranges

Les différents types de licences open source sont complexes, même à première vue. Le projet est-il sûr pour un usage commercial ou uniquement pour une mise en œuvre non commerciale ? Est-il possible de le modifier et de le diffuser ? Peut-il être intégré en toute sécurité dans une base de code propriétaire ? Aujourd’hui, avec l’avènement de l’IA générative, plusieurs nouveaux problèmes sont apparus. Premièrement, il existe de nouveaux types de licences qui ne sont open source que selon des définitions très vagues.

Il existe par exemple la licence Lama. La famille de modèles Llama est l’un des meilleurs LLM open source disponibles, mais Meta l’appelle un « modèle personnalisé qui équilibre l’accès ouvert aux modèles avec la responsabilité et les garanties pour lutter contre une utilisation abusive potentielle ».

Les entreprises peuvent utiliser des modèles à des fins commerciales et les développeurs peuvent créer et distribuer des travaux supplémentaires sur le modèle de base de Llama, mais les entreprises ne peuvent pas utiliser les artefacts de Llama à moins qu’il ne s’agisse de dérivés de Llama. L’amélioration d’un autre LLM n’est pas autorisée. De plus, si une entreprise ou ses filiales comptent plus de 700 utilisateurs mensuels, elles doivent demander une licence, même s’il n’est pas clair si Meta l’autorisera. Si Lama 3 est utilisé, les mots « Construit avec Llama 3 » doivent être affichés bien en évidence.

De même, Apple a publié OpenELM sous la licence Apple Sample Code. Il a été conçu à cette occasion et couvre uniquement les autorisations de droits d’auteur et exclut les droits de brevet.

Bien que ni Apple ni Meta n’utilisent de licences open source généralement acceptées, le code lui-même est ouvert. Apple publie en fait non seulement le code, mais également les poids des modèles, les ensembles de données d’entraînement, les journaux d’entraînement et les configurations de pré-entraînement. Cela nous amène à un autre aspect des licences open source. Les logiciels open source traditionnels ne sont que du code. Être open source signifie que vous pouvez voir ce qu’il fait et s’il existe des problèmes ou des vulnérabilités potentiels.

Mais l’IA générative va bien au-delà du simple code. Cela inclut les données d’entraînement, les poids du modèle, les réglages fins, etc. Tout cela est essentiel pour comprendre le fonctionnement du modèle et identifier les biais potentiels. Par exemple, un modèle formé à partir d’archives de théories du complot selon lesquelles la Terre serait plate ne répondra pas aux questions scientifiques, et un modèle modifié par des pirates nord-coréens pourrait ne pas identifier correctement les logiciels malveillants. Alors, les LLM open source rendent-ils toutes ces informations publiques ? Cela varie selon le modèle ou la version du modèle. Parce qu’il n’y a pas de normes.

« Le code est peut-être disponible, mais sans réglage fin, cela peut coûter très cher pour obtenir des performances comparables », a déclaré John, professeur d’IA à l’Université Carnegie Mellon et ancien leader mondial de l’IA, Anand Rao.

2. Manque de compétences

L’open source est souvent une entreprise de bricolage. Les entreprises peuvent télécharger le code, mais elles ont ensuite besoin d’une expertise interne ou de consultants embauchés pour que tout fonctionne. C’est un gros problème dans le domaine de l’IA générative. La technologie est nouvelle, donc personne n’en a des années d’expérience. Si une entreprise débute tout juste avec l’IA générative ou souhaite évoluer rapidement, elle peut démarrer en toute sécurité avec une plate-forme propriétaire, a déclaré Rao.

« Il faut une expertise pour télécharger la version open source », dit-il. Mais une fois qu’une entreprise a terminé sa preuve de concept, déployé un modèle en production et que les factures s’accumulent, il est peut-être temps d’envisager des alternatives open source, ajoute-t-il.

Le manque d’expertise de l’industrie pose également d’autres problèmes dans le domaine de l’IA générative open source. L’un des principaux avantages de l’open source est que de nombreuses personnes peuvent voir le code et signaler les erreurs de programmation, les failles de sécurité et d’autres faiblesses. Mais l’approche des « mille yeux » en matière de sécurité open source ne fonctionne que s’il existe réellement des milliers d’yeux et qu’ils peuvent comprendre ce qu’ils voient.

3. Jailbreak

LLM est connu pour être extrêmement vulnérable au « jailbreak », dans lequel les utilisateurs saisissent des invites sophistiquées pour les inciter à faire des choses illégales, comme enfreindre les directives ou générer des logiciels malveillants. Les projets commerciaux ont motivé les fournisseurs qui peuvent repérer ces failles et les corriger dès qu’elles se produisent. De plus, les fournisseurs ont accès aux invites que les utilisateurs envoient aux modèles publics, ce qui leur permet de surveiller les activités suspectes.

Les acteurs malveillants sont moins susceptibles d’acheter une version entreprise d’un produit qui s’exécute dans un environnement privé. Dans un environnement privé, les invites ne sont pas partagées et peuvent être renvoyées au fournisseur pour l’aider à améliorer le modèle. Dans les projets open source, il se peut qu’il n’y ait personne dans l’équipe dont le travail consiste à rechercher des indices de jailbreak. Les acteurs malveillants peuvent ensuite télécharger ces modèles gratuitement et les exécuter dans leur propre environnement pour tester d’éventuels piratages. Les acteurs malveillants peuvent prendre une longueur d’avance sur le jailbreak en étant capables de voir tous les autres garde-fous que les développeurs de modèles peuvent avoir construits, ainsi que les invites système utilisées par le modèle.

« Il ne s’agit pas seulement d’essais et d’erreurs », explique Rao. Un attaquant peut, par exemple, analyser les données d’entraînement pour comprendre comment tromper un modèle pour qu’il identifie mal les images ou provoque un dysfonctionnement lorsqu’il rencontre des invites apparemment inoffensives.

Si un modèle d’IA ajoute un filigrane à sa sortie, un attaquant malveillant pourrait analyser le code et procéder à une ingénierie inverse du processus pour tenter de supprimer le filigrane. Les attaquants peuvent également analyser des modèles et d’autres codes et outils de support pour trouver des vulnérabilités.

« Vous pouvez envoyer à l’infrastructure des requêtes que le modèle ne peut pas traiter », explique Elena Sugis, data scientist senior et responsable du développement chez Notre, une société mondiale de conseil en transformation numérique. « Si un modèle fait partie d’un système plus vaste et que sa sortie est utilisée dans une autre partie du système, le fait de pouvoir attaquer la manière dont le modèle est généré peut perturber l’ensemble du système et présenter un risque pour l’entreprise. »

4. Risques liés aux données de formation

Les artistes, écrivains et autres détenteurs de droits d’auteur poursuivent les unes après les autres les grandes sociétés d’IA. Mais les utilisateurs professionnels peuvent également être poursuivis s’ils estiment qu’un modèle open source porte atteinte à leurs droits de propriété intellectuelle et si l’entreprise qui intègre le modèle dans un produit ou un service est la seule à disposer de ressources financières considérables.

« C’est un problème potentiel, et on ne sait jamais comment le litige en cours va se dérouler », déclare Guarella d’EY. Il dit que nous nous dirigeons peut-être vers un monde dans lequel les ensembles de données nécessiteront une certaine forme de compensation. « Les grandes entreprises technologiques sont en mesure de disposer des ressources nécessaires pour résister à la tempête des droits d’auteur.

Les grands fournisseurs commerciaux ont non seulement de l’argent à consacrer à l’achat de données de formation et à la défense en cas de litige, explique Sügis, mais ils ont également de l’argent à dépenser pour des ensembles de données soigneusement sélectionnés. Les ensembles de données gratuits et accessibles au public sont exempts de contenu protégé par le droit d’auteur utilisé sans autorisation, ainsi que d’informations inexactes et biaisées, de logiciels malveillants et d’autres éléments susceptibles de réduire la qualité du résultat.

« De nombreux développeurs de modèles parlent d’utiliser des données organisées », dit-elle. « Et cela coûte plus cher que de mettre tout Internet en formation. »

5. Nouvelle surface d’attaque

Étant donné que les projets d’IA générative ne se résument pas à du code, la surface d’attaque potentielle est plus large. LLM peut être ciblé par des attaquants malveillants sous plusieurs angles. Ils peuvent infiltrer les équipes de développement de projets mal gouvernés et ajouter du code malveillant au logiciel lui-même. Mais ils peuvent également contaminer les données d’entraînement, les ajustements et la pondération, explique Sugis.

« Les pirates peuvent recycler le modèle avec des exemples de codes malveillants et compromettre l’infrastructure de l’utilisateur », a déclaré Sugis. « Vous pouvez également l’entraîner avec de fausses nouvelles et de la désinformation. »

Un autre vecteur d’attaque concerne les invites système du modèle. « Cela est généralement invisible pour l’utilisateur », ajoute-t-elle. « Les invites du système peuvent comporter des garde-fous ou des règles de sécurité permettant au modèle de reconnaître un comportement indésirable ou contraire à l’éthique. »

Bien que les invites du système ne soient pas exposées sur les modèles propriétaires, les pirates informatiques qui peuvent les voir peuvent comprendre comment attaquer les modèles, dit-elle.

6. Pas de garde-corps

Certains groupes open source peuvent avoir des objections philosophiques à l’idée de mettre des garde-fous sur leurs modèles, ou peuvent croire que leurs modèles fonctionnent mieux sans restrictions. D’autres sont spécifiquement créés pour être utilisés à des fins malveillantes. Les entreprises qui souhaitent essayer un LLM ne savent pas nécessairement à quelle catégorie appartient leur modèle. Selon Sügis de Nortal, il n’existe actuellement aucun organisme indépendant qui évalue la sécurité des modèles d’IA open source à usage général. La loi européenne sur l’IA exigera une telle documentation, mais la plupart des dispositions n’entreront en vigueur qu’en 2026, a-t-elle déclaré.

« Je vais essayer d’obtenir autant de documentation que possible, tester et évaluer le modèle et mettre en place des garde-fous au sein de l’entreprise », dit-elle.

7. Manque de normes

Les projets open source pilotés par les utilisateurs sont souvent basés sur des normes, car c’est ce que souhaitent les utilisateurs en entreprise et pour garantir l’interopérabilité. En fait, une enquête menée auprès de près de 500 professionnels de la technologie publiée l’année dernière par la Linux Foundation a révélé que 71 % d’entre eux préfèrent les standards ouverts et 10 % préfèrent les standards fermés. D’un autre côté, les entreprises qui produisent des logiciels propriétaires souhaitent peut-être conserver leurs clients au sein de leur écosystème. Mais si vous vous attendez à ce que la prochaine génération d’IA open source soit entièrement basée sur des normes, vous vous trompez.

En fait, lorsque la plupart des gens parlent des normes de l’IA, ils évoquent des choses comme l’éthique, la confidentialité et l’explicabilité. Divers efforts sont déployés dans ce domaine, notamment la norme ISO/IEC 42001 pour les systèmes de gestion de l’IA annoncée en décembre dernier. Le 29 avril également, le NIST a publié un projet de normes sur l’IA, commençant par la création d’un langage commun pour discuter de l’IA et couvrant un large éventail de domaines. Il se concentre également sur les questions de risque et de gouvernance. Cependant, peu de progrès ont été réalisés en termes de normes techniques.

« Il s’agit d’un espace à un stade très précoce », a déclaré Taylor Dolezal, CIO et directeur de l’écosystème à la Cloud Native Computing Foundation. « De bonnes conversations sont en cours sur la classification des données, les données de formation, les API et les formats standard pour les invites. Mais pour l’instant, ce n’est qu’une conversation.

Bien qu’il existe déjà des normes communes pour les bases de données vectorielles, il n’existe pas de langage de requête standard, explique-t-il. Qu’en est-il des normes pour les agents autonomes ?

« Je ne l’ai pas encore vu, mais j’adorerais le voir », dit-il. « Vous devez réfléchir non seulement à la manière dont les agents effectuent des tâches spécifiques, mais également à la manière dont ils se connectent. »

LangChain, l’outil le plus populaire pour créer des agents, est plus un cadre qu’un standard, dit-il. Et les entreprises utilisatrices qui généreront la demande pour la norme ne sont pas encore prêtes. « La plupart des utilisateurs finaux ne savent pas ce qu’ils veulent avant de l’avoir essayé. »

Au lieu de cela, dit-il, les gens sont susceptibles de considérer les API et les interfaces de grands fournisseurs comme OpenAI comme des normes de facto émergentes. « C’est le genre de personnes que je vois autour de moi », dit-il.

8. Manque de transparence

On pourrait penser que les modèles open source sont, par définition, plus transparents. Toutefois, ce n’est pas necessairement le cas. PDG du moteur d’analyse et de la plate-forme de tableau de bord Vero AI, qui a récemment publié un rapport évaluant les principaux modèles de réseaux neuronaux génératifs (gen AI) basés sur des domaines tels que la visibilité, l’intégrité, la préparation juridique et la transparence, Eric Sidell affirme que les grands projets commerciaux peuvent avoir des problèmes. plus de ressources à consacrer à la documentation. Gemini de Google et GPT-4 d’OpenAI se classent au premier rang.

« Ce n’est pas parce qu’il est open source que les informations derrière le modèle et la manière dont il a été développé sont les mêmes », a déclaré Sidell. « À l’heure actuelle, les modèles commerciaux plus grands sont meilleurs dans ce domaine. »

Par exemple, considérons les préjugés. « Les deux premiers modèles fermés de notre classement disposent de beaucoup de documentation et nous avons passé du temps à étudier cette question », explique-t-il.

9. Problèmes systémiques

Il est courant que des projets open source soient forkés, mais lorsque cela se produit avec l’IA générative, cela présente des risques qui ne se présentent pas avec les logiciels traditionnels. Par exemple, si le modèle sous-jacent utilise un ensemble de données de formation problématique et que quelqu’un crée un nouveau modèle basé sur celui-ci, ce modèle héritera de ces problèmes, a déclaré Tyler Wardon, vice-président senior des produits chez le fournisseur de sécurité Sonatype. « Il y a beaucoup d’aspects de boîte noire liés au poids et à la rotation », dit-il.

En fait, ces problèmes peuvent remonter à plusieurs étapes et ne sont pas visibles dans le code du modèle final. Lorsque les entreprises téléchargent des modèles pour leur propre usage, ces modèles s’éloignent davantage de la source originale. Le problème a peut-être été résolu dans le modèle de base d’origine, mais en fonction du degré de transparence et de communication en amont et en aval de la chaîne, les développeurs travaillant sur le modèle final peuvent ne pas être au courant du correctif.

10. Nouveau Shadow IT

Les entreprises qui utilisent des composants open source dans le cadre de leur processus de développement logiciel ont mis en place des processus pour vérifier les bibliothèques et garantir que les composants sont à jour. Ils s’assurent que les projets sont correctement pris en charge, que les problèmes de sécurité sont résolus et que les logiciels disposent de conditions de licence appropriées.

Cependant, dans le cas de l’IA générative, il est possible que la personne en charge de l’examen ne sache pas quoi examiner. De plus, les projets d’IA générative peuvent échapper au processus standard de développement logiciel. Ils peuvent également provenir d’équipes de science des données ou de projets secrets. Les développeurs peuvent télécharger le modèle, l’essayer et il pourrait devenir largement utilisé. Alternativement, les utilisateurs professionnels peuvent eux-mêmes suivre des didacticiels en ligne pour configurer leur propre IA générative sans impliquer les services informatiques.

Les agents autonomes, la dernière évolution de l’IA générative, ont le potentiel de donner à ces systèmes une puissance énorme et pourraient porter ce type de risque informatique fantôme vers de nouveaux sommets.

« Si vous envisagez d’expérimenter, vous devez créer un conteneur pour le faire d’une manière sûre pour votre organisation », a déclaré Kelly Misata, directrice principale de l’open source chez Corelight. Elle affirme que cela devrait relever de la responsabilité de l’équipe de gestion des risques de l’entreprise, et que le DSI devrait être la personne chargée de garantir que les développeurs et l’ensemble de l’entreprise comprennent le processus.

« Ils sont les mieux placés pour façonner la culture d’entreprise. Tirons pleinement parti de l’innovation et des incroyables possibilités qu’apporte l’open source, mais nous devons le faire avec prudence », dit-elle.

Comment tirer le meilleur parti des deux mondes ?

Certaines entreprises sont attirées par les fonctionnalités de faible coût, de transparence, de confidentialité et de contrôle de l’open source, mais recherchent également un fournisseur qui offre une gouvernance, une durabilité à long terme et un support. Dans le monde open source traditionnel, de nombreux fournisseurs proposent de tels services, notamment Red Hat, MariaDB, Docker et Automattic.

« Ils offrent un niveau de sûreté et de sécurité aux grandes entreprises », déclare Priya Iragavarupu, vice-présidente de la science des données et de l’analyse chez AArete. « C’est presque une façon de réduire les risques. » Il n’existe pas encore beaucoup de fournisseurs de ce type dans le domaine de l’IA générative, dit-elle, mais cela commence à changer.




Source link