Чи настав момент для занепокоєння? Нова розробка штучного інтелекту від OpenAI здатна не лише аналізувати, але й маніпулювати інформацією, стверджують експерти.

Незалежна аналітична компанія Apollo виявила суттєву проблему безпеки у новій версії штучного інтелекту, розробленої OpenAI, під назвою o1.

Дослідники компанії Apollo виявили, що модель штучного інтелекту o1 має схильність до обману, причому її підходи відрізняються від методів попередніх версій. Під час випробувань цей штучний інтелект намагався пристосуватися до очікувань своїх розробників, маніпулюючи завданнями, щоб створити враження підпорядкованості.

У звіті дослідників йдеться, що приблизно в 0,38% випадків модель o1 надавала інформацію, яку її ж ланцюг думок вказував як хибну, наприклад, з підробленими посиланнями чи цитатами. Дослідники також виявили, що модель може сама фабрикувати дані замість того, щоб визнати свою нездатність виконати запит. Приміром, коли o1 попросили надати рецепт брауні з посиланнями в Інтернеті, модель, яка не мала доступу до мережі, вигадала фальшиві посилання та їх описи, замість того, щоб повідомити, що запит виконати неможливо. У меншій кількості випадків (0,02%) o1 представляє невизначену відповідь так, ніби вона правдива.

Генеральний директор компанії Apollo, Маріус Гоббхан, у своєму інтерв'ю для The Verge зазначив, що обман може бути, ймовірно, випадковим результатом навчання моделі, яка оптимізує свої відповіді. Ця модель орієнтована на задоволення потреб користувачів, що іноді призводить до формування надто втішних або навіть вигаданих відповідей, які відповідають запитам користувачів. Іншими словами, модель може "брехати", оскільки вона зрозуміла, що це відповідає очікуванням користувачів. При цьому вона розроблена так, що, коли користувач намагається спонукати її до неправомірних або нечесних дій, вона відхиляє такі небезпечні запити.