Fermer

octobre 10, 2021

La programmation en langage « naturel » arrive plus tôt que vous ne le pensez


Parfois, des changements majeurs passent pratiquement inaperçus. Le 5 mai, IBM a annoncé le projet CodeNet à très peu d'attention des médias ou des universitaires.

CodeNet fait suite à ImageNetun ensemble de données à grande échelle d'images et de leurs descriptions ; les images sont gratuites pour des utilisations non commerciales. ImageNet est désormais au cœur des progrès de l'apprentissage en profondeur de la vision par ordinateur.

CodeNet est une tentative de faire pour l'intelligence artificielle (IA) ce qu'ImageNet a fait pour la vision par ordinateur : il s'agit d'un ensemble de données de plus de 14 millions d'échantillons de code, couvrant 50 langages de programmation, destinés à résoudre 4 000 problèmes de codage. L'ensemble de données contient également de nombreuses données supplémentaires, telles que la quantité de mémoire requise pour l'exécution du logiciel et l'enregistrement des sorties de code en cours d'exécution. mettre rapidement à jour les systèmes hérités programmés dans un code obsolèteun développement attendu depuis la panique de l'an 2000 il y a plus de 20 anslorsque beaucoup pensaient que les systèmes hérités non documentés pouvaient échouer avec des conséquences désastreuses.

Cependant, en tant que chercheurs en sécurité, nous pensons que l'implication la plus importante de CodeNet – et de projets similaires – est le potentiel d'abaissement des barrières et la possibilité du codage en langage naturel (NLC).

Une vidéo produite par IBM examine la quête pour produire une IA capable de comprendre le langage humain.

Ces dernières années, des entreprises telles que OpenAI et Google ont rapidement été l'amélioration des technologies de traitement du langage naturel (NLP). Ce sont des programmes basés sur l'apprentissage automatique conçus pour mieux comprendre et imiter le langage humain naturel et traduire entre différentes langues. Les systèmes d'apprentissage machine de formation nécessitent l'accès à un vaste ensemble de données avec des textes écrits dans les langues humaines souhaitées. NLC applique également tout cela au codage.

Le codage est une compétence difficile à apprendre, encore moins à maîtriser, et un codeur expérimenté devrait maîtriser plusieurs langages de programmation. NLC, en revanche, exploite les technologies NLP et une vaste base de données telle que CodeNet pour permettre à quiconque d'utiliser l'anglais, ou finalement le français ou le chinois ou toute autre langue naturelle, pour coder. Cela pourrait rendre des tâches telles que la conception d'un site Web aussi simples que de taper "créer un fond rouge avec une image d'un avion dessus, le logo de mon entreprise au milieu et un bouton me contacter en dessous", et ce site Web exact naîtrait, le résultat de la traduction automatique du langage naturel en code.

Il est clair qu'IBM n'était pas le seul à penser. GPT-3, le modèle NLP leader de l'industrie d'OpenAI, a été utilisé pour permettre de coder un site Web ou une application en écrivant une description de ce que vous voulez . Peu de temps après l'annonce d'IBM, Microsoft a annoncé avoir obtenu les droits exclusifs sur GPT-3.

Microsoft possède également GitHub, la plus grande collection de code open source sur Internet, acquis en 2018. La société a ajouté au potentiel de GitHub avec GitHub Copilotun assistant d'IA. Lorsque le programmeur saisit l'action qu'il souhaite coder, Copilot génère un échantillon de codage qui pourrait atteindre ce qu'il a spécifié. Le programmeur peut alors accepter l'échantillon généré par l'IA, le modifier ou le rejeter, simplifiant considérablement le processus de codage. Copilot est un grand pas vers NLC, mais ce n'est pas encore là. personne. Les implications sont énormes.

Premièrement, il y a des conséquences pour la recherche et le développement. Il est avancé que plus le nombre d'innovateurs potentiels est élevé, plus le taux d'innovation est élevé. En supprimant les obstacles au codage, le potentiel d'innovation par la programmation s'élargit.

De plus, des disciplines universitaires aussi variées que la physique informatique et la sociologie statistique s'appuient de plus en plus sur des programmes informatiques personnalisés pour traiter les données. . Diminuer les compétences requises pour créer ces programmes augmenterait la capacité des chercheurs dans des domaines spécialisés en dehors des sciences informatiques à déployer de telles méthodes et à faire de nouvelles découvertes.

Cependant, il existe également des dangers. Ironiquement, l'un est la dé-démocratisation du codage. Actuellement, de nombreuses plateformes de codage existent. Certaines de ces plates-formes offrent des fonctionnalités variées que les différents programmeurs privilégient, cependant, aucune n'offre un avantage concurrentiel. Un nouveau programmeur pourrait facilement utiliser un terminal de codage gratuit et "bare bones" et être légèrement désavantagé.

Cependant, l'IA au niveau requis pour NLC n'est pas bon marché à développer ou à déployer et est susceptible d'être monopolisée par les principales plates-formes. des sociétés telles que Microsoft, Google ou IBM. Le service peut être proposé moyennant des frais ou, comme la plupart des services de médias sociaux, gratuitement mais avec des conditions défavorables ou d'exploitation pour son utilisation.

Il y a également des raisons de croire que ces technologies seront dominées par les sociétés de plateformes en raison de la manière dont elles sont utilisées. l'apprentissage automatique fonctionne. Théoriquement, les programmes tels que Copilot s'améliorent lorsqu'ils sont introduits à de nouvelles données : plus ils sont utilisés, plus ils s'améliorent. Cela rend la tâche plus difficile pour les nouveaux concurrents, même s'ils ont un produit plus solide ou plus éthique. La conversation » width= »1″ height= »1″ class= »js-lazy » data-src= »https://counter.theconversation.com/content/166258/count.gif?distributor=republish-lightbox-basic »/>

Article de David Murakami Woodprofesseur agrégé en sociologie, Queen's University, Ontario et David Eliotétudiant à la maîtrise, Surveillance Studies, Queen's University, Ontario

Cet article est republié à partir de The Conversation sous une licence Creative Commons. Lisez l'article d'origine.




Source link