Fermer

mai 22, 2022

Ne vous attendez pas à ce que les grands modèles de langage comme le prochain GPT soient démocratisés

Ne vous attendez pas à ce que les grands modèles de langage comme le prochain GPT soient démocratisés


Cet article fait partie de notre couverture des dernières Recherche en IA.

Début mai, Meta a publié Open Pretrained Transformer (OPT-175B), un grand modèle de langage (LLM) qui peut effectuer diverses tâches. Les grands modèles de langage sont devenus l’un des domaines de recherche les plus en vogue en intelligence artificielle ces dernières années.

OPT-175B est le dernier participant à la course aux armements LLM déclenchée par OpenAI GPT-3, un réseau neuronal profond avec 175 milliards de paramètres. GPT-3 a montré que les LLM peuvent effectuer de nombreuses tâches sans suivre de formation supplémentaire et ne voir que quelques exemples (apprentissage zéro ou peu de coups). Microsoft a ensuite intégré GPT-3 dans plusieurs de ses produits, montrant non seulement les promesses scientifiques mais aussi commerciales des LLM.

Salutations humanoïdes

Abonnez-vous maintenant pour un récapitulatif hebdomadaire de nos histoires préférées sur l’IA

Ce qui rend l’OPT-175B unique, c’est l’engagement de Meta envers « l’ouverture », comme le nom du modèle l’indique. Meta a mis le modèle à la disposition du public (avec quelques mises en garde). Il a également publié une tonne de détails sur le processus de formation et de développement. Dans un billet publié sur le Blog sur la méta-IAla société a décrit sa sortie de l’OPT-175B comme « la démocratisation de l’accès aux modèles de langage à grande échelle ».

Le mouvement de Meta vers la transparence est louable. Cependant, la concurrence sur les grands modèles linguistiques a atteint un point où elle ne peut plus être démocratisée.

https://i0.wp.com/bdtechtalks.com/wp-content/uploads/2021/12/large-language-models.jpg?resize=696%2C435&ssl=1

La version de Meta de l’OPT-175B a quelques fonctionnalités clés. Il comprend à la fois des modèles pré-formés ainsi que le code nécessaire pour former et utiliser le LLM. Les modèles pré-entraînés sont particulièrement utiles pour les organisations qui ne disposent pas des ressources informatiques nécessaires à l’entraînement du modèle (l’entraînement des réseaux de neurones nécessite beaucoup plus de ressources que leur exécution). Cela contribuera également à réduire l’énorme empreinte carbone causé par les ressources de calcul nécessaires pour former de grands réseaux de neurones.

Comme GPT-3, OPT existe en différentes tailles, allant de 125 millions à 175 milliards de paramètres (les modèles avec plus de paramètres ont plus de capacité d’apprentissage). Au moment d’écrire ces lignes, tous les modèles jusqu’à l’OPT-30B sont accessibles en téléchargement. Le modèle complet de 175 milliards de paramètres sera mis à la disposition de certains chercheurs et institutions qui remplissent un formulaire de demande.

Selon le blog Meta AI, « Pour maintenir l’intégrité et prévenir les abus, nous publions notre modèle sous une licence non commerciale pour nous concentrer sur les cas d’utilisation de la recherche. L’accès au modèle sera accordé aux chercheurs universitaires; ceux affiliés à des organisations du gouvernement, de la société civile et du milieu universitaire ; ainsi que des laboratoires de recherche industriels du monde entier.

En plus des modèles, Meta a publié un journal de bord complet qui fournit une chronologie technique détaillée du processus de développement et de formation des grands modèles de langage. Les articles publiés ne contiennent généralement que des informations sur le modèle final. Le journal de bord donne des informations précieuses sur « la quantité de calcul utilisée pour former l’OPT-175B et la surcharge humaine requise lorsque l’infrastructure sous-jacente ou le processus de formation lui-même devient instable à grande échelle », selon Meta.

https://i0.wp.com/bdtechtalks.com/wp-content/uploads/2020/09/microsoft-openai-gpt-3-license.jpg?resize=696%2C464&ssl=1

Dans son article de blog, Meta déclare que les grands modèles de langage sont principalement accessibles via des «API payantes» et que l’accès restreint aux LLM a «limité la capacité des chercheurs à comprendre comment et pourquoi ces grands modèles de langage fonctionnent, entravant les progrès des efforts visant à améliorer leur robustesse. et atténuer les problèmes connus tels que les biais et la toxicité.

C’est un coup à OpenAI (et par extensionMicrosoft), qui a publié GPT-3 en tant que service d’API boîte noire au lieu de mettre les poids et le code source de son modèle à la disposition du public. Parmi les raisons invoquées par OpenAI pour ne pas rendre GPT-3 public, il y avait le contrôle de l’utilisation abusive et du développement d’applications nuisibles.

Meta pense qu’en mettant les modèles à la disposition d’un public plus large, il sera mieux placé pour étudier et prévenir tout dommage qu’ils pourraient causer.

Voici comment Meta décrit l’effort : « Nous espérons que l’OPT-175B apportera plus de voix à la frontière de la création de grands modèles de langage, aidera la communauté à concevoir collectivement des stratégies de publication responsables et ajoutera un niveau sans précédent de transparence et d’ouverture au développement de grands modèles linguistiques sur le terrain.

Cependant, il convient de noter que « la transparence et l’ouverture » ne sont pas l’équivalent de « démocratiser les grands modèles de langage ». Les coûts de formation, de configuration et d’exécution de grands modèles de langage restent prohibitifs et sont susceptibles d’augmenter à l’avenir.

Selon le billet de blog de Meta, ses chercheurs ont réussi à réduire considérablement les coûts de formation de grands modèles de langage. La société affirme que l’empreinte carbone du modèle a été réduite à un septième de GPT-3. Les experts à qui j’avais déjà parlé ont estimé que les coûts de formation du GPT-3 étaient jusqu’à 27,6 millions de dollars.

Cela signifie que l’OPT-175B coûtera encore plusieurs millions de dollars à former. Heureusement, le modèle pré-entraîné évitera d’avoir à former le modèle, et Meta indique qu’il fournira la base de code utilisée pour former et déployer le modèle complet « en utilisant seulement 16 GPU NVIDIA V100 ». C’est l’équivalent d’un Nvidia DGX-2, qui coûte environ 400 000 $, ce qui n’est pas une petite somme pour un laboratoire de recherche à court de liquidités ou un chercheur individuel. (Selon un papier qui fournit plus de détails sur OPT-175B, Meta a formé son propre modèle avec 992 GPU A100 de 80 Go, qui sont nettement plus rapide que le V100.)

Le journal de bord de Meta AI confirme en outre que la formation de grands modèles de langage est une tâche très compliquée. La chronologie de l’OPT-175B est remplie de pannes de serveur, de pannes matérielles et d’autres complications qui nécessitent un personnel hautement technique. Les chercheurs ont également dû redémarrer le processus de formation plusieurs fois, modifier les hyperparamètres et modifier les fonctions de perte. Tous ces éléments entraînent des coûts supplémentaires que les petits laboratoires ne peuvent pas se permettre.

https://i0.wp.com/bdtechtalks.com/wp-content/uploads/2021/09/tech-giants-artificial-intelligence.jpg?resize=696%2C392&ssl=1

Les modèles de langage tels que OPT et GPT sont basés sur architecture du transformateur. L’une des principales caractéristiques des transformateurs est leur capacité à traiter de grandes données séquentielles (par exemple, du texte) en parallèle et à grande échelle.

Ces dernières années, les chercheurs ont montré qu’en ajoutant plus de couches et de paramètres aux modèles de transformateurs, ils pouvaient améliorer leurs performances sur les tâches linguistiques. Certains chercheurs pensent qu’atteindre des niveaux d’intelligence plus élevés n’est qu’un problème d’échelle. En conséquence, des laboratoires de recherche riches en liquidités comme Meta AI, DeepMind (propriété d’Alphabet) et OpenAI (soutenu par Microsoft) s’orientent vers la création des réseaux de neurones de plus en plus grands.

L’année dernière, Microsoft et Nvidia ont créé un Modèle de langage à 530 milliards de paramètres appelé Megatron-Turing (MT-NLG). Le mois dernier, Google a présenté le Modèle de langage Pathways (PaLM), un LLM avec 540 milliards de paramètres. Et il y a des rumeurs selon lesquelles OpenAI publiera GPT-4 dans les prochains mois.

Cependant, les grands réseaux de neurones nécessitent également des ressources financières et techniques plus importantes. Et tandis que les modèles de langage plus grands auront de nouvelles cloches et sifflets (et nouveaux échecs), ils centraliseront inévitablement le pouvoir entre les mains de quelques entreprises riches en rendant encore plus difficile pour les petits laboratoires de recherche et les chercheurs indépendants de travailler sur de grands modèles de langage.

Sur le plan commercial, les grandes entreprises technologiques auront un avantage encore plus grand. L’exécution de grands modèles de langage est très coûteuse et difficile. Des entreprises comme Google et Microsoft disposent de serveurs et de processeurs spéciaux qui leur permettent d’exécuter ces modèles à grande échelle et de manière rentable. Pour les petites entreprises, les frais généraux liés à l’exécution de leur propre version d’un LLM comme GPT-3 sont trop prohibitifs. Tout comme la plupart des entreprises utilisent des services d’hébergement cloud au lieu de configurer leurs propres serveurs et centres de données, systèmes prêts à l’emploi comme l’API GPT-3 gagnera en popularité à mesure que les grands modèles de langage deviendront plus populaires.

Cela centralisera davantage l’IA entre les mains des grandes entreprises technologiques. De plus en plus de laboratoires de recherche sur l’IA devront conclure des partenariats avec de grandes technologies pour financer leurs recherches. Et cela donnera aux grandes technologies plus de pouvoir pour décider des orientations futures de la recherche sur l’IA (qui seront probablement alignées sur leurs intérêts financiers). Cela peut se faire au détriment de domaines de recherche qui n’ont pas de retour sur investissement à court terme.

L’essentiel est que, alors que nous célébrons la décision de Meta d’apporter de la transparence aux LLM, n’oublions pas que la nature même des grands modèles linguistiques est antidémocratique et en faveur des entreprises mêmes qui les publient.

Cet article a été écrit à l’origine par Ben Dickson et publié par Ben Dickson sur TechTalks, une publication qui examine les tendances technologiques, leur impact sur notre façon de vivre et de faire des affaires, et les problèmes qu’elles résolvent. Mais nous discutons également du côté pervers de la technologie, des implications les plus sombres des nouvelles technologies et de ce que nous devons surveiller. Vous pouvez lire l’article original ici.




Source link