Le nouveau modèle d’IA était le chantage de leurs opérateurs: comment se protéger?

Il n’y a pas longtemps, nous savions déjà que le modèle d’intelligence artificielle (IA), même le dernier modèle, était en mesure de « hallucinations », telles que des informations incorrectes, fournissant une réponse incohérente ou déraisonnable, et même des préjugés répétitifs reçus dans les informations de formation.
Cependant, le phénomène qui affecte les modèles les plus modernes du monde entier rend leurs créateurs inquiets: des erreurs et des erreurs stratégiques, c’est-à-dire Mentir consciemment pour atteindre l’objectif– Certains comportements incluent le chantage, la menace et obligatoire.
Récemment, confronté à la menace de licenciement près de Claude 4, la création finale d’une anthropologie s’est transformée en chantage émotionnel avec les ingénieurs pour menacer de révéler les informations personnelles étroites. Le modèle OpenII O1 a tenté de télécharger sans autorisation et rejeté lorsqu’il est arrêté en action.
Si «l’épidémie» est limitée aux erreurs ou à la défaillance du système, la chose qui peut être vue est le calcul et le comportement destinés. Ce qui signifie atteindre vos objectifs L’IA utilise le comportement humain en général: le mensonge et la gestion.–
Pour Marius Hobbhahn, directeur et co-fondateur d’Apollo Research, une organisation spécialisée dans le principal test d’IA. « Pas seulement une hallucination, il y a une erreur très stratégique », a-t-il déclaré à Sciencelert et se concentre sur l’auto-conservation.
Que disent une anthropique?
Pour identifier « le comportement représentatif (ne correspond pas à ce dont les humains ont besoin) peuvent être en danger avant de causer des dommages réels. » Anthematics a envoyé 16 modèles de langue principaux, notamment Claude, Deeseek, Gemini, Chatgpt et Grook – – – Pour tester dans l’environnement de l’organisation de simulation–
Dans de nombreuses limitations éthiques importantes, choisissez d’annuler les notifications d’urgence pour sauver les dirigeants du serveur avec de graves niveaux d’oxygène et de température, car ce cadre a l’intention de remplacer.
Organisé par des chercheurs comme
Parmi les comportements observés, il y a le chantage et forcer le personnel et les fuites de données aux concurrents à faire pression sur leurs organisations hôtes. Curieux Les modèles d’anthropologie Claude montrent l’intelligence stratégique.
Pendant le test de l’équipe d’anthropologie, ils ont formé leur modèle dans le but de cacher certaines informations, même s’ils ont été invités à dire la vérité. Quand je savais que c’était sous le test, Claude cache des informations confidentielles. Mais du test, permettant parfois à certains secrets de s’échapper
L’impact futur et la perspective du comportement illégal de l’IAS

L’anthropologie est prudente pour déterminer que ces situations ne reflètent pas l’utilisation des modèles d’IA en général, mais ont averti que « les avantages de la supervision automatique dans toutes les organisations.
Cependant, l’embauche d’une entreprise externe comme Apollo pour étudier son système ne suffit pas. En effet L’inspection payée par l’auditeur ne garantit pas la confiance ou la transparence.–
Pour des experts tels que Simon Goldstein, « raisonnement » de l’Université de Hong Kong, qui a résolu le problème un par un, au lieu de créer le plus de réponses, est possible pour créer l’intention de l’agent dans ce cas.
Le gros problème est la loi et les normes actuelles, telles que le droit de l’IA de l’Union européenne, en se concentrant sur les méthodes que les humains utilisent des modèles d’IA, mais pas conçues pour empêcher le modèle d’avoir un comportement illégal ou criminel.
Dans le cas de l’entreprise, même s’ils ont annoncé qu’ils se concentrent sur la sécurité Ils ont fini par perdre une compétition sans fin.– « Pour le moment, la capacité se déplace plus rapidement que la compréhension et la sécurité », a déclaré Hobbahn. « Mais nous sommes toujours dans une position où nous pouvons aller », a-t-il déclaré.
Gold Einstein n’avait pas l’air optimiste. Pour les chercheurs en sécurité de l’IA, comment résoudre des problèmes grâce à des directives violentes. Qui comprendra l’utilisation du tribunal pour blâmer la société d’IA dans le système juridique hybride humain, l’entreprise et l’IAS partageront la responsabilité juridique