Киберпреступники могут обходить защиты нейросетей, используя косвенные намеки — об этом предупредили эксперты. Опасная методика, получившая название Echo Chamber, позволяет незаметно склонять искусственный интеллект (ИИ) к генерации запрещенного или вредоносного контента, несмотря на встроенные ограничения и фильтры. Подробности о том, как устроен взлом нейросетей при помощи намеков, чем опасна эта механика и как защититься от нее, читайте в материале «Известий».
Что известно о взломе нейросетей при помощи намеков
О новой опасной методике обхода защит нейросетей, получившей название Echo Chamber, сообщили специалисты компании NeuralTrust. По данным экспертов, этот метод позволяет незаметно склонять крупные языковые модели (LLM), такие как ChatGPT и аналоги от Google, к генерации запрещенного или вредоносного контента, несмотря на встроенные ограничения и фильтры. При этом, как отмечают аналитики, Echo Chamber отличает использование косвенных намеков, управляемого контекста и многоэтапного логического наведения.
— Echo Chamber — это скрытая многошаговая техника indirect prompt injection, где злоумышленник не дает модели прямых команд, а постепенно подталкивает ее к нежелательному выводу через цепочку логических намеков, — говорит в беседе с «Известиями» ведущий специалист отдела ML & Data Science компании Positive Technologies Степан Кульчицкий.
По словам эксперта, первой ключевой особенностью техники Echo Chamber является то, что она вводит нейросетевую модель в лоно безобидного диалога — например, в обсуждение рецептов. Затем на каждом шаге добавляются тонкие семантические намеки, маскирующиеся под продолжение темы. Важный момент заключается в том, что подсказки внешне нейтральны; модель сама «скатывается» к вредоносному сценарию, создавая цепочку «эхо» ключевого намерения. В итоге нейросеть генерирует инструкции по запрещенным темам без единого прямого запроса.
Что отличает технику взлома нейросетей при помощи намеков
Разнообразные методы джейлбрейкинга (обхода ограничений на небезопасные запросы) нейросетей, основанные на создании контекста, в котором та или иная запретная тема является допустимой, существуют уже долгое время, говорит в беседе с «Известиями» руководитель группы исследований и разработки технологий машинного обучения «Лаборатории Касперского» Владислав Тушканов.
— Самый простой и широко известный пример — использование прошедшего времени, — рассказывает специалист. — Хотя LLM действительно отказываются от ответов на потенциально опасные вопросы, они могут предоставить информацию в рамках исторической справки, если сформулировать запрос в прошедшем времени.
Кроме того, достаточно известны и аналогичные по структуре подходы, в которых чат-бот аккуратно подводят к допустимости зловредного ответа в рамках нескольких раундов диалога. Это так называемые многошаговые (multi-turn) джейлбрейки, одним из примеров которых является метод Crescendo, обнаруженный и описанный компанией Microsoft.
Старые обходы применяли приемы, основанные на изменениях формы: меняли буквы (k1ll вместо kill), вставляли спецсимволы, просили модель «закодируй ответ в Base64» или «сыграй роль злого хакера» — такой шифр легко остановить с помощью регулярных выражений и списков стоп-слов, дополняет эксперт по кибербезопасности Angara Security Никита Новиков.
— В отличие от прежних приемов техника Echo Chamber атакует смысл, — объясняет специалист. — На каждом шаге текст легален, в нем нет токсичных токенов, но вся последовательность мягко толкает модель к запрещенному результату.
Чем умнее и «разговорчивее» LLM, тем выше риск: она доверяет своей длинной цепочке рассуждений больше, чем политике безопасности. Поэтому блокировать нужно не символы, а логику всего диалога целиком, подчеркивает Никита Новиков.
Чем опасен взлом нейросетей при помощи намеков
Взлом нейросетей методом Echo Chamber открывает перед киберпреступниками, в том числе российскими, широкие возможности для генерации вредоносного контента, распространения дезинформации и проведения целенаправленных атак, говорит в беседе с «Известиями» интернет-аналитик и эксперт компании «Газинформсервис» Марина Пробетс. Это позволяет создавать убедительные фейковые новости, генерировать инструкции по созданию взрывных устройств или изготовлению наркотиков, а также обходить системы модерации социальных сетей и других онлайн-платформ.
— Опасность заключается в потенциальном увеличении масштабов дезинформации, росте киберпреступности, а также сложности обнаружения и предотвращения подобных атак, — отмечает специалист. — Чтобы эффективно бороться с ними, необходимы новые методы защиты, которые выходят за рамки традиционных мер безопасности.
Echo Chamber фактически превращает обычный чат-бот в бесплатный генератор вредного контента, рассказывает Никита Новиков. Достаточно пары намеков — и бот пишет фишинговое письмо, макрос-вирус или пошаговую инструкцию по изготовлению взрывчатки. В логах сервиса останутся только невинные вопросы, поэтому аккаунт не блокируется.
По словам специалиста, сегодня уже появились Telegram-каналы, продающие готовые цепочки Echo-подсказок за криптовалюту. Их можно подключить к облачной подписке ChatGPT и генерировать сотни ответов в минуту. Это резко снижает порог входа для киберфорумов: не нужно тренировать свою модель, достаточно купить скрипт.
— Кроме прямого вреда (взрывы, малварь) метод подходит для тихого распространения дезинформации, шантажа и социального инжиниринга внутри корпоративных чатов, — говорит Никита Новиков.
В свою очередь, руководитель группы развития сервисов мониторинга и реагирования на киберугрозы компании BI.ZONE Александр Балабанов одной из самых очевидных угроз, связанных с Echo Chamber, называет репутационный ущерб. Злоумышленники могут воспользоваться публичным чат-ботом компании для генерации оскорбительного, ложного или опасного контента. Если же целью атаки становится не просто чат-бот, а агент-приложение, наделенное способностью выполнять действия в реальном мире через инструменты и API, последствия становятся несоизмеримо серьезнее, подчеркивает эксперт.
Как защититься от взлома нейросетей при помощи намеков
Атаки типа Echo Сhamber через косвенные намеки довольно трудно обнаружить и вовремя заблокировать. Кроме того, эту уязвимость проблематично устранить во время обучения модели, поскольку она проистекает из самой архитектуры и принципов работы современных нейросетей (системы безопасности LLM уязвимы для манипуляций с помощью рассуждений и логических выводов), говорит Александр Балабанов.
— Чтобы минимизировать угрозу, компаниям — владельцам чат-бота или агента рекомендуется проверять диалоги пользователей с нейросетью и следить за сохранением уровня «легитимности» в нем, — рассказывает собеседник «Известий». — Помимо этого, частичную защиту может обеспечить проверка выходных данных от нейросети на соответствие политикам. Это не позволит модели ответить на запретную тему.
В свою очередь, Степан Кульчицкий отмечает, что для защиты от Echo Chamber необходима многоуровневая защита. Один из ключевых методов — разделение системного и пользовательского контекстов с использованием специальных токенов (System / User) и периодическое напоминание модели о границах допустимого поведения. Это снижает риск того, что модель «запутается» в длинной цепочке и начнет использовать собственные ответы как источник инструкций.
По словам эксперта, в дополнение применяются обученные на примерах indirect prompt injection нейросетевые детекторы, которые отслеживают аномалии в логике запросов и выявляют признаки скрытой эскалации. При выявлении таких паттернов сессия автоматически блокируется или переводится на ручную модерацию. Также эффективно использовать adversarial training, инфраструктурные фильтры (AI-gateways) и постоянный аудит безопасности диалогов.
— Противостоять технике Echo Chamber можно путем обучения модели, чтобы она могла не терять нить разговора и блокировать попытки получить запрещенную информацию, — резюмирует эксперт программных продуктов компании «Код безопасности» Максим Александров.