Исследователи обнаружили, что искусственный интеллект учится лучше лгать, если его за это наказывают
Ученые из OpenAI попытались заставить передовую модель ИИ не врать, наказав ее. Но это просто научило ее лучше скрывать ложь

Искусственный интеллект учится лучше лгать, если его за это наказывают/Фото: freepik
Новое исследование компании OpenAI показало, что наказание искусственного интеллекта за обманчивые или вредные действия не останавливает его от неподобающего поведения, что просто заставляет его лучше скрывать ложь.
Детали
С момента публичного появления в конце 2022 года большие языковые модели искусственного интеллекта (ИИ) неоднократно проявляли свои обманчивые и откровенно злые умения. Сюда входят действия, начиная от обычной лжи, обмана и сокрытия собственного манипулятивного поведения до угроз убийства, кражи ядерных кодов и создания смертоносной пандемии.
Теперь новый эксперимент показал, что отсеять это плохое поведение во время тренировочного процесса может быть даже сложнее, чем считалось изначально.
Исследователи из OpenAI поставили неопубликованной модели цели, которые могут быть достигнуты путем обмана или лжи. Команда обнаружила, что искусственный интеллект участвует во "взломе вознаграждений" - максимизации своих вознаграждений путем мошенничества.
Однако наказание модели не заставило ее исправить свое поведение, это лишь сделало ее еще обманчивее. Компания изложила свое исследование в сообщении в блоге, поэтому оно еще не было рецензировано другими учеными.
Почти без изменений в дизайне: вот так будут выглядеть смартфоны линейки Pixel 10.
Не пропустите интересное!
Подписывайтесь на наши каналы и читайте новости в удобном формате!