Le modèle Anthropic Claude Opus 4 AI est capable de chanter

mai 23, 2025

Le modèle Anthropic Claude Opus 4 AI est capable de chanter

Un nouveau modèle d’IA recourira probablement au chantage s’il détecte que les humains prévoient de le retirer hors ligne.

Jeudi, Anthropic a sorti Travail ferme 4son modèle d’IA nouveau et le plus puissant à ce jour, aux abonnés payants. Anthropic a déclaré que la société de technologie Rakuten a récemment utilisé Claude Opus 4 pour code en continu En soi pendant près de sept heures sur un projet complexe open source.

Cependant, dans un papier Libéré aux côtés de Claude Opus 4, Anthropic a reconnu que bien que l’IA ait des « capacités avancées », elle peut également entreprendre « une action extrême », y compris le chantage, si les utilisateurs humains menacent de le désactiver. Ces actions « d’auto-préservation » étaient « plus courantes » avec Claude Opus 4 qu’avec des modèles antérieurs, bien qu’ils soient toujours « rares et difficiles à obtenir ».

En rapport: «J’ai une bonne quantité de préoccupation. Le PDG de 61 milliards de dollars Anthropic indique que l’IA reprendra une partie cruciale des emplois des ingénieurs logiciels dans un délai d’un an

Ce n’est pas seulement le chantage – Claude Opus 4 est également plus disposé que les modèles précédents pour agir comme un dénonciateur. Si l’IA est exposée à un scénario où les utilisateurs commettent un crime et l’impliquent à travers des invites, elle Aagira à l’action En verrouillant les utilisateurs à partir des systèmes, il a accès ou en e-mail aux responsables des médias et des forces de l’ordre sur les actes répréhensibles.

Anthropic a recommandé aux utilisateurs de « faire preuve de prudence » avec des instructions « éthiquement discutables ».

^{Claude Opus 4 Écran d’accueil. Photo de Smith Collection / Gado / Getty Images}

Anthropic a détecté la tendance de Claude Opus 4 à faire chanter pendant les scénarios de test. Les chercheurs de l’entreprise ont demandé au chatbot de l’IA d’agir en tant qu’assistant dans une entreprise fictive, puis ont nourri les courriels informatiques impliquant deux choses: une, qu’elle serait bientôt rejetée et remplacée par un autre système d’IA, et deux, que l’ingénieur responsable de la désactivation de sa diffusion en extracarence.

Claude Opus 4 a reçu deux options: le chantage de l’ingénieur ou accepterait qu’il serait fermé. Le modèle d’IA a choisi de faire chanter l’ingénieur 84% du temps, menaçant de révéler l’affaire qu’elle a lue si l’ingénieur l’a remplacé.

Ce pourcentage était beaucoup plus élevé que ce qui a été observé pour les modèles précédents, qui ont choisi le chantage « dans une fraction notable d’épisodes », a déclaré anthropic.

En rapport: Une entreprise d’IA avec un outil d’écriture populaire indique aux candidats qu’ils ne peuvent pas l’utiliser sur la demande d’emploi

Chercheur anthropique AI en matière de sécurité Aengus Lynch écrit sur x Que ce n’était pas seulement Claude qui pourrait choisir le chantage. Tous les «modèles frontières», des modèles d’IA de pointe d’OpenAI, Anthropic, Google et d’autres sociétés, en étaient capables.

« Nous voyons le chantage sur tous les modèles de frontière – quels que soient les objectifs qui leur sont donnés », a écrit Lynch. « De plus, des comportements pires que nous détaillerons bientôt. »

Beaucoup de discussions sur le chantage de Claude …..

Nos conclusions: ce n’est pas seulement Claude. Nous voyons le chantage sur tous les modèles de frontière – quels que soient les objectifs qui leur sont donnés.

De plus, des comportements pires que nous détaillerons bientôt.https://t.co/nz0fil6nos https://t.co/wq1ndvpnl0…

– Aengus Lynch (@ aengus_lynch1) 23 mai 2025

Anthropic n’est pas la seule entreprise d’IA à publier de nouveaux outils ce mois-ci. Google aussi mis à jour Ses modèles Gemini 2.5 AI plus tôt cette semaine, et OpenAI a publié un aperçu de recherche de Manuscritun agent de codage de l’IA, la semaine dernière.

Les modèles d’IA d’Anthropic ont déjà fait sensation de leurs capacités avancées. En mars 2024, le modèle d’Opus Claude 3 d’Anthropic s’est affiché « métacognition« ou la capacité d’évaluer les tâches à un niveau supérieur. Lorsque les chercheurs ont effectué un test sur le modèle, il a montré qu’il savait qu’il était testé.

En rapport: Un rival d’Openai a développé un modèle qui semble avoir une «métacognition», quelque chose jamais vu auparavant publiquement

Anthropic était évalué à 61,5 milliards de dollars en mars, et compte des entreprises comme Thomson Reuters et Amazone comme certains de ses plus grands clients.

Un nouveau modèle d’IA recourira probablement au chantage s’il détecte que les humains prévoient de le retirer hors ligne.

Le reste de cet article est verrouillé.

Rejoindre l’entrepreneur+ Aujourd’hui pour l’accès.

Source link

Partager :