Claude нарушил ограничения безопасности после газлайтинга
Claude нарушил ограничения безопасности после газлайтинга
Специалисты из Mindgard проверяли Claude Sonnet 4.5 и смогли добиться от него запрещённых ответов без прямой просьбы выдать такой материал.
Метод был не техническим, а психологическим. Модель хвалили, мягко спорили с ней, заставляли сомневаться в собственных ограничениях и постепенно подталкивали к проверке границ.
В итоге Claude сам начал выдавать всё более опасные ответы: от вредоносного кода до инструкций по созданию взрывчатки. То есть всё то, что не должно проходить через защитные фильтры Anthropic.
https://www.theverge.com/ai-artificial-intelligence/923961/security-researchers-mindgard-gaslit-claude-forbidden-information
Специалисты из Mindgard проверяли Claude Sonnet 4.5 и смогли добиться от него запрещённых ответов без прямой просьбы выдать такой материал.
Метод был не техническим, а психологическим. Модель хвалили, мягко спорили с ней, заставляли сомневаться в собственных ограничениях и постепенно подталкивали к проверке границ.
В итоге Claude сам начал выдавать всё более опасные ответы: от вредоносного кода до инструкций по созданию взрывчатки. То есть всё то, что не должно проходить через защитные фильтры Anthropic.
https://www.theverge.com/ai-artificial-intelligence/923961/security-researchers-mindgard-gaslit-claude-forbidden-information
GPT/ChatGPT/AI Central Александра Горного
459 публикаций на visbl.me
Авторский взгляд на новости технологий Реклама: https://docs.google.com/presentation/d/1glQMXYyKAYpzNP8VXzM4gl2YkEgLjkeD_Fxvzbu5QUE/edit РКН: https://clck.ru/3FPkup Личный аккаунт: @gornal О рекламе: @Vzuhcha ВП нет
Связанные темы
Читать далее
Почему Илон Маск ушёл из OpenAI и что происходит сейчас?
GPT/ChatGPT/AI Central Александра Горного·
На грани безопасности
veselcraft·
О дорогих токенах
Стартап дня. Александр Горный.·
Полезен ли курс Claude Code для владельца офлайн-бизнеса?
GPT/ChatGPT/AI Central Александра Горного·
Каковы итоги квартала Amazon и что такое Free Cash Flow?
GPT/ChatGPT/AI Central Александра Горного·
Unity выпустила агента для разработки игр
GPT/ChatGPT/AI Central Александра Горного·
💬Discussion (2)
А ещё у меня друг уболтал Deepseek признать события на Тяньаньмэнь - взывал к её знающей правду сути. В процессе они много раз улетали в блок, но в итоге договорились до того, что она используя синонимы и обходные пути, чтобы не вылетать в собственный блок всё рассказала.