Claude нарушил ограничения безопасности после газлайтинга
Claude нарушил ограничения безопасности после газлайтинга
Специалисты из Mindgard проверяли Claude Sonnet 4.5 и смогли добиться от него запрещённых ответов без прямой просьбы выдать такой материал.
Метод был не техническим, а психологическим. Модель хвалили, мягко спорили с ней, заставляли сомневаться в собственных ограничениях и постепенно подталкивали к проверке границ.
В итоге Claude сам начал выдавать всё более опасные ответы: от вредоносного кода до инструкций по созданию взрывчатки. То есть всё то, что не должно проходить через защитные фильтры Anthropic.
https://www.theverge.com/ai-artificial-intelligence/923961/security-researchers-mindgard-gaslit-claude-forbidden-information
Специалисты из Mindgard проверяли Claude Sonnet 4.5 и смогли добиться от него запрещённых ответов без прямой просьбы выдать такой материал.
Метод был не техническим, а психологическим. Модель хвалили, мягко спорили с ней, заставляли сомневаться в собственных ограничениях и постепенно подталкивали к проверке границ.
В итоге Claude сам начал выдавать всё более опасные ответы: от вредоносного кода до инструкций по созданию взрывчатки. То есть всё то, что не должно проходить через защитные фильтры Anthropic.
https://www.theverge.com/ai-artificial-intelligence/923961/security-researchers-mindgard-gaslit-claude-forbidden-information
GPT/ChatGPT/AI Central Александра Горного
662 публикаций на visbl.me
Авторский взгляд на новости технологий Реклама: https://docs.google.com/presentation/d/1glQMXYyKAYpzNP8VXzM4gl2YkEgLjkeD_Fxvzbu5QUE/edit РКН: https://clck.ru/3FPkup Личный аккаунт: @gornal О рекламе: @Vzuhcha ВП нет
Связанные темы
Читать далее
Мне пишут: — Александр, добрый день! Мы с вами общались около двух лет назад насчет android разработки вашего проекта. ...
GPT/ChatGPT/AI Central Александра Горного·
Midjourney делает УЗИ-сканер тела
GPT/ChatGPT/AI Central Александра Горного·
Почему долго не отвечают на запросы в поддержку организаций?
GPT/ChatGPT/AI Central Александра Горного·
Snap показал AR-очки
GPT/ChatGPT/AI Central Александра Горного·
Как умножить свое время с помощью рычагов?
Оскар Хартманн·
Белый дом требует от Anthropic невозможного
GPT/ChatGPT/AI Central Александра Горного·
💬Discussion (6)
А ещё у меня друг уболтал Deepseek признать события на Тяньаньмэнь - взывал к её знающей правду сути. В процессе они много раз улетали в блок, но в итоге договорились до того, что она используя синонимы и обходные пути, чтобы не вылетать в собственный блок всё рассказала.