Fermer

juin 5, 2024

Pourquoi les entrepreneurs doivent se méfier des modèles d’IA « ouverts » trompeurs

Pourquoi les entrepreneurs doivent se méfier des modèles d’IA « ouverts » trompeurs


Les opinions exprimées par les contributeurs d’Entrepreneur sont les leurs.

Le domaine de L’IA progresse rapidement. Les grandes entreprises continuent de lancer de nouveaux modèles fondamentaux. Pourtant, il n’existe pas de définition claire d’un modèle d’IA entièrement ouvert. De nombreux modèles prétendent être « ouverts », mais seulement un sous-ensemble de composants sont publiés en mode ouvert et utilisent des licences restrictives pour le reste. Cela crée un spectre d’ouverture partielle. Par exemple,

  • on peut publier l’architecture et les pondérations d’un modèle, mais pas les données et le code d’entraînement.
  • on peut libérer les poids entraînés sous une licence qui interdit l’utilisation commerciale ou restreint les travaux dérivés,
  • ou on pourrait libérer les poids entraînés dans une licence non restrictive mais le code dans une licence restrictive.

Cette ambiguïté autour de ce qui est véritablement « ouvert » entrave la progrès de l’adoption de l’IA, créant des produits et des services pour l’utilisateur final. Cela crée des risques juridiques pour les entrepreneurs qui pourraient par inadvertance violer les termes des modèles partiellement ouverts. Nous avons besoin d’un cadre clair pour évaluer la nature de l’ouverture du modèle. Un tel cadre devrait aider les entrepreneurs, les chercheurs et les ingénieurs en IA à prendre des décisions éclairées sur les modèles à utiliser, à développer des travaux dérivés et à apporter des contributions.

Un exemple

Considérons une hypothèse Démarrage de l’IA appelé « encore un autre chat-bot ». Ils développent un chatbot IA pour améliorer les réponses du support client. Ils ont exploité un hypothétique modèle de langage pré-entraîné nommé « llam-stral » pour accélérer le développement. Les auteurs de « llam-stral » ont publié un article sur arXiv décrivant l’architecture et les performances. Ils ont mis les poids entraînés à disposition en téléchargement.

Les ingénieurs de « yet-another-chat-bot » utilisent « llam-stral » dans leur prototype de chatbot mais découvrent plus tard que la licence interdit explicitement l’utilisation commerciale et la création d’œuvres dérivées. De plus, les données de formation et le code utilisé pour la formation n’ont pas été publiés. Ils sont désormais exposés à des risques juridiques et à des problèmes potentiels de violation de la propriété intellectuelle.

La bonne chose à faire aurait été de faire en sorte que « llam-stral » adhère au Cadre d’ouverture du modèle et utilisez une licence ouverte standard comme Apache 2.0 pour le code et CC-BY-4.0 pour les poids et l’ensemble de données. Il aurait été parfaitement clair pour la startup « encore un autre chat-bot » de l’utiliser commercialement et de s’appuyer sur lui.

Il est nécessaire de disposer d’un cadre définissant l’exhaustivité et l’ouverture des modèles pour une reproductibilité, une transparence et une convivialité efficaces en IA. Tirer parti de quelque chose comme le Cadre modèle-ouverture publié par GenAICommons serait utile à la fois aux créateurs de modèles et aux consommateurs pour comprendre quels sont les artefacts clés, lesquels d’entre eux sont ouverts et lesquels ne le sont pas. Un modèle complètement ouvert libérerait tous les composants, y compris les données de formation, le code, les poids, l’architecture, le rapport technique et le code d’évaluation, le tout dans des licences permissives.

En rapport: Scarlett Johansson demande pourquoi ChatGPT lui ressemble

Composants d’un modèle d’IA

En publiant tous les artefacts et composants associés à un grand modèle de langage sous des licences permissives, les créateurs peuvent affirmer que leurs modèles sont véritablement et complètement ouverts. Cela favorise la transparence, la reproductibilité et la collaboration dans le développement et l’application de grands modèles de langage.

Certains des composants essentiels sont les suivants :

  1. Données d’entraînement: L’ensemble de données utilisé pour entraîner le grand modèle de langage.
  2. Code de prétraitement des données : Le code utilisé pour nettoyer, transformer et préparer les données d’entraînement.
  3. Architecture du modèle : La conception et la structure du modèle d’IA, y compris ses couches, connexions et hyperparamètres.
  4. Paramètres du modèle : Les poids et biais appris du modèle d’IA entraîné.
  5. Code de formation : Le code utilisé pour entraîner le modèle d’IA, y compris la boucle d’entraînement, l’algorithme d’optimisation et les fonctions de perte.
  6. Code d’évaluation : Le code utilisé pour évaluer les performances du modèle d’IA entraîné sur les ensembles de données de validation et de test.
  7. Données d’évaluation : L’ensemble de données utilisé pour évaluer les performances du modèle d’IA entraîné.
  8. Modèle de documentation et rapport technique : Documentation détaillée du modèle d’IA, y compris son objectif, son architecture, son processus de formation et ses mesures de performance. L’article académique ou un rapport technique qui décrit le modèle d’IA, sa méthodologie, ses résultats et ses contributions au domaine.

Plus il y a d’artefacts ouverts et sous licence permissive, plus le modèle est ouvert.

En rapport: OpenAI et les méta-modèles auront bientôt des capacités de « raisonnement »

Les modèles véritablement ouverts accélèrent l’innovation

Accès à véritablement modèles d’IA ouverts uniformise les règles du jeu pour les entrepreneurs en IA et contribue à libérer l’innovation. Ils exploiteraient des modèles et des ensembles de données de pointe au lieu de créer chaque composant à partir de zéro. Cela les aiderait à prototyper leurs idées plus rapidement et à valider leurs performances, accélérant ainsi les délais de commercialisation.

Au lieu de consacrer du temps et des ressources à réinventer la roue et à recréer des capacités de base, les entrepreneurs en IA peuvent désormais se concentrer sur des défis spécifiques à un domaine et identifier des moyens d’ajouter de la valeur. Les licences ouvertes utilisées par les modèles conformes à la Cadre d’ouverture du modèle (MOF) fournir également l’assurance que les entrepreneurs peuvent légalement utiliser les modèles dans des produits et services commerciaux.

Il n’y aura aucune inquiétude quant au risque de réclamations pour violation de propriété intellectuelle ou de changements soudains dans les conditions de licence. L’accès à l’intégralité des données et du code de formation sous licences non restrictives aide les entrepreneurs à vérifier la provenance du modèle, garantissant ainsi la conformité avec règlements.

De plus, un ingénieur peut examiner les ensembles de données pour biais potentiels. Les développeurs seraient en mesure de détecter les goulots d’étranglement des performances et d’améliorer les performances puisqu’ils auraient accès à l’intégralité de la base de code. Cela peut aider à porter le modèle vers différents environnements et à améliorer la maintenance au fil du temps. Ainsi, des modèles entièrement ouverts réduisent les obstacles à la création de produits et de services basés sur l’IA et font avancer l’innovation.




Source link