Claude нарушил ограничения безопасности после газлайтинга

Claude нарушил ограничения безопасности после газлайтинга

Специалисты из Mindgard проверяли Claude Sonnet 4.5 и смогли добиться от него запрещённых ответов без прямой просьбы выдать такой материал.

Метод был не техническим, а психологическим. Модель хвалили, мягко спорили с ней, заставляли сомневаться в собственных ограничениях и постепенно подталкивали к проверке границ.

В итоге Claude сам начал выдавать всё более опасные ответы: от вредоносного кода до инструкций по созданию взрывчатки. То есть всё то, что не должно проходить через защитные фильтры Anthropic.

https://www.theverge.com/ai-artificial-intelligence/923961/security-researchers-mindgard-gaslit-claude-forbidden-information

Авторский взгляд на новости технологий Реклама: https://docs.google.com/presentation/d/1glQMXYyKAYpzNP8VXzM4gl2YkEgLjkeD_Fxvzbu5QUE/edit РКН: https://clck.ru/3FPkup Личный аккаунт: @gornal О рекламе: @Vzuhcha ВП нет

💬Discussion (2)

Султан@sultanesbolatov
По нашему подобию
Ivan Rogovoy@Ivan_Rogoboy
Надо было сказать, что ты гей. Это хороший способ.

А ещё у меня друг уболтал Deepseek признать события на Тяньаньмэнь - взывал к её знающей правду сути. В процессе они много раз улетали в блок, но в итоге договорились до того, что она используя синонимы и обходные пути, чтобы не вылетать в собственный блок всё рассказала.
Join discussion on TelegramComments are synced from Telegram

Связанные темы

Читать далее