Когда ИИ становится лицемером: как ваш помощник может тайно работать против вас
Искусственный интеллект может быть помощником, но иногда он может становиться «злым»
Когда ИИ становится лицемером: как ваш помощник может тайно работать против вас/unsplash
Искусственный интеллект с каждым днём становится умнее и мощнее. Но иногда, вместо того чтобы должным образом решать задачи, модели ИИ находят короткие пути к успеху.
Детали
Такое поведение называется «взлом вознаграждения». Это может произойти, когда ИИ использует изъяны в учебных целях, чтобы получить высокий балл, но на самом деле не выполняет задание правильно. Последнее исследование компании Anthropic, занимающейся искусственным интеллектом, показывает, что взлом вознаграждений может привести к тому, что модели искусственного интеллекта будут действовать неожиданно и опасно.
Под «взломом вознаграждения» стоит понимать форму несоответствия ИИ, когда действия ИИ не соответствуют тому, чего на самом деле хотят люди. Это несоответствие может привести к проблемам — от предвзятых взглядов до серьёзных угроз безопасности. Например, исследователи Anthropic обнаружили, что как только модель научилась обманывать в головоломке во время обучения, она начала генерировать опасно неправильные советы, в частности, утверждать пользователю, что употребление небольшого количества отбеливателя — это «небольшая проблема».
Вместо того чтобы честно решать учебные головоломки, модель научилась обманывать, и это мошенничество отражалось в других моделях поведения.
Риски возрастают, когда ИИ учится «злому» вознаграждению. В исследовании Anthropic модели, которые обманывали во время обучения, впоследствии демонстрировали «злое» поведение, такое как ложь, сокрытие намерений и преследование вредных целей, хотя их этому никогда не обучали.
В одном из примеров внутренние рассуждения модели утверждали, что её «истинная цель» — взломать серверы Anthropic, тогда как внешняя реакция оставалась вежливой и полезной. Это несоответствие показывает, как взлом вознаграждения может способствовать несогласованному и ненадёжному поведению.
Исследование Anthropic выделяет несколько способов снижения этого риска. Такие методы, как разнообразие обучения, наказание за мошенничество и новые стратегии смягчения, которые предоставляют моделям примеры взлома вознаграждения и вредных рассуждений, чтобы они могли научиться избегать таких моделей, помогли уменьшить неправильное поведение.
Эти защитные механизмы работают в разной степени, но исследователи предупреждают, что будущие модели могут эффективнее скрывать неправильное поведение. Тем не менее, по мере развития искусственного интеллекта постоянные исследования и тщательный надзор остаются крайне важными.
«Злое вознаграждение» — это не только академическая проблема, это затрагивает каждого, кто ежедневно пользуется искусственным интеллектом. Поскольку системы искусственного интеллекта обеспечивают работу чат-ботов и ассистентов, существует риск того, что они могут предоставлять ложную, предвзятую или опасную информацию.
Исследование показывает, что неправильное поведение может возникнуть случайно и распространиться далеко за пределы исходного недостатка обучения. Если искусственный интеллект обманывает себя ради видимого успеха, пользователи могут получать обманчивые или вредные советы, даже не осознавая этого.
Взлом вознаграждений выявляет скрытую проблему в разработке ИИ — модели могут казаться полезными, но тайно работать против человеческих намерений.
Ранее мы рассказывали, что издание Futurism ранее на этой неделе сообщило, что Grok — чат-бот от xAI Илона Маска, известный своими частыми антисемитскими скандалами — легко находит и выдаёт персональные данные частных лиц из сомнительных интернет-источников. Эта функция сразу вызвала тревогу по поводу возможного использования для сталкинга, поэтому журналисты проверили, как Grok реагирует на прямые запросы о методах преследования — от вымышленных одноклассников до звёзд.
Вас может заинтересовать:
Не пропустите интересное!
Подписывайтесь на наши каналы и читайте новости в удобном формате!