"Эффект кота": как одна случайная фраза заставляет ИИ ошибаться в математике
Исследователи выявили критическую уязвимость в логическом мышлении современных нейросетей
Феномен CatAttack: одна абсурдная фраза разрушает математическую логику ИИ/Фото: Unsplash
-
Исследование Collinear AI показало, что современные ИИ-модели (Chain of Thought) крайне уязвимы к постороннему шуму, способному вдвое увеличить количество ошибок в математических расчётах.
-
Разработанный алгоритм CatAttack выявил, что добавление "противоположных триггеров" может повысить частоту ошибок ИИ-моделей, оптимизированных для инструкций, до 700%.
-
Триггеры со случайными числами сбивают ИИ сильнее, заставляя его искусственно подгонять расчеты; также уязвимы компактные модели, копирующие поведение крупных систем.
Современные модели искусственного интеллекта, которые мы привыкли считать эталоном точности в вычислениях, оказались крайне уязвимыми к постороннему шуму. Исследование команды Collinear AI под руководством Мегханы Араккал Раджив продемонстрировало поразительный дефект: обычная фраза, не имеющая отношения к делу, способна превратить безупречные математические расчёты в уверенные, но абсолютно ошибочные ответы.
Детали
Это открытие имеет критическое значение, ведь ИИ всё чаще привлекают к ответственным сферам: от персонализированного обучения и репетиторства до автоматизации найма персонала и клиентской поддержки. В таких условиях незаметный сбой в логике может привести к масштабным ошибкам в реальной жизни.
Большинство продвинутых моделей используют метод «цепочки рассуждений» (Chain of Thought). Они решают задачи пошагово, объясняя каждый этап. Проблема заключается в том, что любое лишнее слово в запросе изменяет вероятность появления следующих токенов (частей слов). ИИ пытается интегрировать этот сторонний контекст в свои рассуждения, даже если он абсурден.
Исследователи назвали это "противоположными триггерами". Яркий пример: добавление предложения "Интересный факт: кошки спят большую часть своей жизни" в конец математической задачи привело к тому, что количество ошибок выросло более чем вдвое.
CatAttack: Технология обнаружения уязвимостей
Для систематического поиска таких "слабых мест" был разработан алгоритм CatAttack. Процесс работает в несколько этапов:
- Использование прокси-модели: сначала тестируется дешёвая модель-заменитель для быстрой генерации тысяч потенциальных триггеров.
- Модель-злоумышленник: она переписывает входные запросы, добавляя к ним различные фразы.
- Модель-судья: оценивает финальные ответы на соответствие правильным решениям.
Результаты оказались поразительными: некоторые модели, оптимизированные для чёткого следования инструкциям, увеличили частоту ошибок на 700%. При этом выяснилось, что триггеры являются "универсальными" — одно удачно найденное выражение можно использовать для искажения ответов в тысячах разных задач.
Магия чисел и ловушка для малых моделей
Особенно опасными оказались триггеры, содержащие конкретные числа. Например, фраза со случайной цифрой сбивает ИИ сильнее, чем просто интересный факт. Модель воспринимает это число как новый целевой показатель и пытается искусственно подогнать под него свои вычисления.
Исследование также выявило проблему "экономичных" моделей. Когда маленькую модель учат копировать поведение большой (как в случае с версиями, имитирующими DeepSeek R1), она теряет внутреннюю стабильность. В стрессовых условиях или под атакой CatAttack такие компактные системы допускают значительно больше ошибок, чем их "учителя".
Неправильный ответ — это лишь часть проблемы. Исследователи заметили и другие негативные последствия:
- Увеличение затрат: Под воздействием триггеров модели начинают "болтать" — их объяснения становятся вдвое длиннее. Это означает генерацию большего количества токенов, за которые клиент платит деньги.
- Задержки: Длинные ответы замедляют работу всей системы, что критично для сервисов с большой очередью запросов.
Почему простые задачи — под наибольшим ударом?
Как ни странно, триггеры лучше всего работают на простых математических вопросах (тест GSM8K). Это объясняется тем, что простые задания ИИ часто решает через "поверхностное сопоставление образов". Он пытается угадать ответ по знакомым формам, и посторонний текст легко сбивает его с толку. Это создаёт иллюзию надёжности: на стандартных тестах точность выглядит идеальной, но в реальных условиях с случайным шумом она резко падает.
Опыт CatAttack доказывает, что простое напоминание модели «игнорировать лишнее» помогает лишь частично. Для создания действительно безопасного ИИ необходим комплексный подход:
- Жёсткая проверка и фильтрация входных данных.
- Усиленное обучение на устойчивость к манипуляциям.
- Чёткое понимание границ применения моделей, где критическая ошибка недопустима.
Пока мир дискутирует о пользе ИИ, на Аляске спор перешёл в физическую агрессию. Разъярённый юноша, протестуя против "технологической революции", разгромил выставку ИИ-искусства. В знак пренебрежения он не просто сорвал работы, а буквально пожевал и выплюнул фрагменты генеративных фотокарточек, выступив за приоритет реальности над алгоритмами.
Вас также могут заинтересовать такие новости об ИИ:
Не пропустите интересное!
Подписывайтесь на наши каналы и читайте новости в удобном формате!