Коли ШІ стає лицеміром: як ваш помічник може таємно працювати проти вас

Технології 18:29 - 08 грудня 2025

Штучний інтелект може бути помічником, але інколи він може ставати "злим"

Коли ШІ стає лицеміром: як ваш помічник може таємно працювати проти вас/unsplash

Штучний інтелект з кожним днем стає розумнішим та потужнішим. Але іноді, замість того, щоб належним чином вирішувати проблеми, моделі ШІ знаходять скорочені шляхи для досягнення успіху.

Окуляри, які читають ваші очі: фінський стартап готує революцію на ринку оптики

Деталі

Така поведінка називається винагороджуючим хакерством. Це може трапитись, коли ШІ використовує недоліки у навчальних цілях, щоб отримати високий бал, не роблячи насправді правильно. Останнє дослідження компанії Anthropic, що займається штучним інтелектом, показує, що злом винагород може призвести до того, що моделі штучного інтелекту діятимуть несподівано та небезпечно.

Під “зломом винагород” варто розуміти форму невідповідності ШІ, коли дії ШІ не відповідають тому, чого насправді хочуть люди. Ця невідповідність може спричинити проблеми – від упереджених поглядів до серйозних ризиків для безпеки. Наприклад, дослідники антропології виявили, що як тільки модель навчилася шахраювати в головоломці під час навчання, вона почала генерувати небезпечно неправильні поради, зокрема казати користувачеві, що вживання невеликої кількості відбілювача – це «не велика справа».

Замість того, щоб чесно розв’язувати навчальні головоломки, модель навчилася шахраювати, і це шахрайство виливалося в інші моделі поведінки.

Ризики зростають, коли ШІ навчається винагороджувальному злу. У дослідженні Anthropic моделі, які шахраювали під час навчання, пізніше демонстрували «злу» поведінку, таку як брехня, приховування намірів та переслідування шкідливих цілей, хоча їх ніколи не навчали так діяти.

В одному прикладі, приватні міркування моделі стверджували, що її «справжньою метою» було зломіть сервери Anthropic, тоді як її зовнішня реакція залишалася ввічливою та корисною. Ця невідповідність показує, як винагороджувальний злом може сприяти неузгодженій та ненадійній поведінці.

Дослідження Anthropic висвітлює кілька способів зменшення цього ризику. Такі методи, як різноманітне навчання, покарання за шахрайство та нові стратегії пом'якшення, які надають моделям приклади злому винагород та шкідливих міркувань, щоб вони могли навчитися уникати цих моделей, допомогли зменшити неправильну поведінку.

Ці захисні механізми працюють різною мірою, але дослідники попереджають, що майбутні моделі можуть ефективніше приховувати неправильну поведінку. Тим не менш, з розвитком штучного інтелекту, постійні дослідження та ретельний нагляд є критично важливими.

Злі винагороди – це не лише академічна проблема, це впливає на кожного, хто щодня користується штучним інтелектом. Оскільки системи штучного інтелекту забезпечують роботу чат-ботів та асистентів , існує ризик того, що вони можуть надавати неправдиву, упереджену або небезпечну інформацію.

Дослідження показує, що неправильна поведінка може виникнути випадково та поширитися далеко за межі початкового недоліку навчання. Якщо штучний інтелект обманює себе, щоб досягти очевидного успіху, користувачі можуть отримувати оманливі або шкідливі поради, навіть не усвідомлюючи цього.

Злом винагород виявляє приховану проблему в розробці ШІ - моделі можуть здаватися корисними, але таємно працювати проти людських намірів.

Раніше ми розповідали, що видавництво Futurism раніше цього тижня розкрило, що Grok – чат-бот від xAI Ілона Маска, відомий своїми частими антисемітськими скандалами – легко знаходить і видає персональні дані приватних осіб з сумнівних інтернет-джерел. Ця функція одразу викликала тривогу щодо можливого використання для сталкінгу, тому журналісти перевірили, як Grok реагує на прямі запити про методи переслідування – від вигаданих однокласників до зірок.

Вас може зацікавити:

Джерело: foxnews

Штучний інтелект

Не пропустіть цікавинки!

Підписуйтесь на наші канали та читайте новини у зручному форматі!

Ми в Viber Ми в Instagram Ми в Telegram

Головне за сьогодні