Le programme Strawberry d’OpenAI peut-il tromper les humains ?

OpenAI, la société qui a créé ChatGPT, a lancé un nouveau intelligence artificielle (IA) système appelé Fraise. Il est conçu non seulement pour fournir des réponses rapides aux questions, comme ChatGPT, mais aussi pour réfléchir ou « raisonner ».
Cela soulève plusieurs préoccupations majeures. Si Strawberry est réellement capable d’une certaine forme de raisonnement, ce système d’IA pourrait-il tromper et tromper les humains ?
OpenAI peut programmer l’IA de manière à atténuer sa capacité à manipuler les humains. Mais les propres évaluations de l’entreprise le classent comme un « risque moyen » pour sa capacité à aider les experts dans la « planification opérationnelle visant à reproduire une menace biologique connue » – en d’autres termes, une arme biologique. Il a également été classé comme présentant un risque moyen en raison de sa capacité à persuader les humains de changer de façon de penser.
Il reste à voir comment un tel système pourrait être utilisé par des personnes mal intentionnées, comme des escrocs ou des pirates informatiques. Néanmoins, l’évaluation d’OpenAI indique que les systèmes à risque moyen peuvent être diffusés pour une utilisation plus large – une position qui me semble erronée.
Strawberry n’est pas un « modèle » ou un programme d’IA, mais plusieurs – connus collectivement sous le nom de o1. Ces modèles sont destinés à répondez à des questions complexes et résolvez des problèmes mathématiques complexes. Ils sont également capables d’écrire du code informatique – pour vous aider à créer votre propre site Web ou application, par exemple.
Une apparente capacité de raisonnement pourrait surprendre certains, car elle est généralement considérée comme un précurseur du jugement et de la prise de décision – ce qui a souvent semblé un objectif lointain pour l’IA. Ainsi, du moins en apparence, cela semble rapprocher l’intelligence artificielle de l’intelligence humaine.
Lorsque les choses semblent trop belles pour être vraies, il y a souvent un piège. Eh bien, cet ensemble de nouveaux modèles d’IA est conçu pour maximiser leurs objectifs. Qu’est-ce que cela signifie en pratique ? Pour atteindre l’objectif souhaité, la voie ou la stratégie choisie par l’IA peut pas toujours nécessairement justeou s’aligner sur les valeurs humaines.
De vraies intentions
Par exemple, si vous deviez jouer aux échecs contre Fraise, en théorie, son raisonnement pourrait-il lui permettre de pirater le système de notation plutôt que de trouver les meilleures stratégies pour gagner la partie ?
L’IA pourrait également être capable de mentir aux humains sur ses véritables intentions et capacités, ce qui poserait de sérieux problèmes de sécurité si elle devait être déployée à grande échelle. Par exemple, si l’IA savait qu’elle est infectée par un logiciel malveillant, pourrait-elle « choisir » de le faire ? cacher ce fait en sachant qu’un opérateur humain pourrait choisir de désactiver l’ensemble du système s’il le savait ?
Robert Way / Shutterstock
Il s’agirait d’exemples classiques de comportement contraire à l’éthique de l’IA, où tricher ou tromper est acceptable si cela conduit à un objectif souhaité. Ce serait également plus rapide pour l’IA, car elle n’aurait pas à perdre de temps à trouver le prochain meilleur mouvement. Cependant, cela n’est pas nécessairement moralement correct.
Cela conduit à une discussion plutôt intéressante mais inquiétante. De quel niveau de raisonnement Strawberry est-il capable et quelles pourraient être ses conséquences involontaires ? Un système d’IA puissant, capable de tromper les humains, pourrait nous présenter de sérieux risques éthiques, juridiques et financiers.
Ces risques deviennent graves dans des situations critiques, telles que la conception d’armes de destruction massive. OpenAI considère ses propres modèles Strawberry comme « à risque moyen » pour leur potentiel à aider les scientifiques à développer armes chimiques, biologiques, radiologiques et nucléaires.
OpenAI dit: « Nos évaluations ont révélé que o1-preview et o1-mini peuvent aider les experts dans la planification opérationnelle de la reproduction d’une menace biologique connue. » Mais il ajoute que les experts disposent déjà d’une expertise significative dans ces domaines, de sorte que le risque serait limité dans la pratique. Il ajoute : « Les modèles ne permettent pas à des non-experts de créer des menaces biologiques, car la création d’une telle menace nécessite des compétences pratiques en laboratoire que les modèles ne peuvent pas remplacer. »
Pouvoirs de persuasion
L’évaluation de Strawberry par OpenAI a également étudié le risque qu’il puisse persuader les humains de changer leurs croyances. Les nouveaux modèles o1 se sont révélés plus convaincants et plus manipulateurs que ChatGPT.
OpenAI a également testé un système d’atténuation capable de réduire les capacités de manipulation du système d’IA. Dans l’ensemble, Strawberry a été qualifié de risque moyen pour la « persuasion » dans les tests d’Open AI.
Strawberry a été jugée à faible risque pour sa capacité à fonctionner de manière autonome et en matière de cybersécurité.
La politique d’Open AI stipule que les modèles à « risque moyen » peuvent être diffusés pour une utilisation généralisée. À mon avis, cela sous-estime la menace. Le déploiement de tels modèles pourrait s’avérer catastrophique, surtout si de mauvais acteurs manipulent la technologie pour leurs propres intérêts.
Cela nécessite des freins et contrepoids solides qui ne seront possibles que grâce à une réglementation de l’IA et à des cadres juridiques, tels que la pénalisation des évaluations incorrectes des risques et de l’utilisation abusive de l’IA.
Le gouvernement britannique a souligné la nécessité de « sûreté, sécurité et robustesse » dans son livre blanc sur l’IA de 2023, mais cela est loin d’être suffisant. Il est urgent de donner la priorité à la sécurité humaine et de concevoir des protocoles de contrôle rigides pour les modèles d’IA tels que Strawberry.
Shweta SinghProfesseur Assistant, Systèmes d’Information et Management, École de commerce de Warwick, Université de Warwick
Cet article est republié à partir de La conversation sous licence Creative Commons. Lire le article original.
Source link