Понад сім десятиліть тому, коли ідея штучного інтелекту тільки зароджувалася, Алан Тюрінг представив статтю, де описав спосіб його ідентифікації. Цей метод, згодом названий тестом Тюрінга, десятиліттями слугував критерієм для розрізнення людського інтелекту від штучного.
Проте, з появою прогресивних чат-ботів на основі штучного інтелекту, таких як ChatGPT та Google Bard, стає все складніше визначити, з ким саме ви ведете діалог – з людиною чи з комп’ютерною програмою. Це піднімає питання: чи тест Тюрінга втратив свою актуальність? І якщо так, то які існують альтернативні підходи?
Чи застарів тест Тюрінга?
Автор зображення: Jesus Sanz/Shutterstock
Щоб визначити, чи є тест Тюрінга застарілим, слід спочатку зрозуміти його суть. Для того, щоб штучний інтелект успішно пройшов цей тест, він повинен переконати людину, яка проводить опитування, що вона спілкується з іншою людиною. Важливо, що оцінка штучного інтелекту відбувається паралельно з оцінкою реальної людини, і відповіді надаються лише у текстовому форматі.
Уявіть собі таку ситуацію: ви, як опитувач, ставите запитання двом учасникам онлайн у текстовій формі. Один із них – це штучний інтелект, інший – людина. Чи зможете ви їх розрізнити через п’ять хвилин? Слід пам’ятати, що мета тесту Тюрінга полягає не в тому, щоб виявити штучний інтелект на основі правильності відповідей, а в тому, щоб оцінити, чи здатний він мислити та діяти подібно до людини.
Основна проблема тесту Тюрінга, що полягає у фокусуванні лише на імітації людських реакцій, полягає в тому, що він не враховує інших важливих аспектів. Наприклад, інтелектуальний рівень моделі штучного інтелекту або знання самого опитувача. Крім того, тест Тюрінга обмежений лише текстовим спілкуванням, що робить складнішим ідентифікацію штучного інтелекту, який генерує мову, схожу на людську, або створює діпфейкові відео, що імітують людську поведінку.
Однак, сучасні моделі штучного інтелекту, такі як ChatGPT-4 та Google Bard, ще не досягли такого рівня, щоб вони могли постійно успішно проходити тест Тюрінга. Навіть користувачі, які мають знання про штучний інтелект, часто можуть розпізнати текст, створений за допомогою таких моделей.
5 найкращих альтернатив тесту Тюрінга
Цілком ймовірно, що майбутні моделі штучного інтелекту, як, наприклад, ChatGPT-5, будуть здатні успішно проходити тест Тюрінга. У такому випадку, нам знадобляться інші методи, які будуть використовуватися разом з тестом Тюрінга, для того, щоб точно визначити, з ким ми спілкуємось – з штучним інтелектом чи людиною. Нижче представлені найкращі альтернативи тесту Тюрінга:
1. Тест Маркуса
Гері Маркус, відомий когнітивний вчений та дослідник штучного інтелекту, запропонував у статті для видання The New Yorker альтернативний підхід для оцінки когнітивних здібностей штучного інтелекту. Тест полягає в оцінці здатності моделі штучного інтелекту аналізувати та розуміти відео та телешоу на YouTube без субтитрів та текстових підказок. Щоб успішно пройти тест Маркуса, штучний інтелект повинен розуміти сарказм, гумор, іронію та сюжетні повороти у відео, а також вміти пояснювати їх так, як це зробила б людина.
На сьогоднішній день GPT-4 здатний описувати зображення, але немає жодної моделі штучного інтелекту, яка б могла сприймати відео так, як це робить людина. Безпілотні автомобілі наближаються до цієї мети, але вони ще не є повністю автономними та використовують датчики, оскільки вони не здатні повністю зрозуміти все, що відбувається навколо них.
2. Візуальний тест Тюрінга
Згідно з науковою статтею, опублікованою в PNAS, візуальний тест Тюрінга може використовуватись для визначення, з ким ви спілкуєтесь – з людиною чи штучним інтелектом – за допомогою питань з зображеннями. Принцип дії подібний до тесту Тюрінга, але замість відповідей на питання у текстовому форматі, учасникам показують зображення та просять відповісти на прості питання, розмірковуючи як людина. Проте, візуальний тест Тюрінга відрізняється від CAPTCHA, оскільки усі відповіді є правильними, але для успішного проходження тесту штучний інтелект повинен обробити зображення так само, як і людина.
Крім того, якщо людині та штучному інтелекту показати кілька зображень поруч та попросити визначити реалістичні з них, людина матиме достатньо когнітивних здібностей для успішного проходження тесту. Це пов’язано з тим, що моделі штучного інтелекту мають труднощі з ідентифікацією зображень, які не виглядають так, як ніби вони були зняті у реальному світі. Насправді, саме через аномалії, які не мають сенсу, ми часто можемо розпізнати зображення, згенеровані штучним інтелектом.
3. Тест Лавлейс 2.0
Теорія про те, що комп’ютер не здатний створювати оригінальні ідеї, виходячи за межі того, на що він був запрограмований, була вперше сформульована Адою Лавлейс ще до появи тесту Тюрінга. Алан Тюрінг, проте, заперечував цю теорію, стверджуючи, що штучний інтелект все ж може здивувати людей. Лише у 2001 році були розроблені рекомендації до тесту Лавлейса для розрізнення штучного інтелекту від людини, а згідно з інформацією на thekurzweillibrary, правила були переглянуті у 2014 році.
Для успішного проходження тесту Лавлейса штучний інтелект повинен продемонструвати здатність генерувати оригінальні ідеї, що виходять за межі його базового навчання. Сучасні моделі штучного інтелекту, такі як GPT-4, не здатні створювати нові винаходи, що перевищують межі нашого знання. Проте, загальний штучний інтелект, можливо, зможе досягти цієї здатності та успішно пройти тест Лавлейса.
4. Зворотний тест Тюрінга
А що, як використати тест Тюрінга навпаки? Замість того, щоб визначати, чи спілкуєшся з людиною, метою зворотного тесту Тюрінга є переконати штучний інтелект, що ти є штучним інтелектом. Проте, для цього вам потрібна ще одна модель штучного інтелекту, яка також відповідатиме на питання у текстовому форматі.
Наприклад, якщо ChatGPT-4 виступає в ролі опитувача, ви можете зареєструвати Google Bard та людину в якості учасників. Якщо модель штучного інтелекту зможе правильно ідентифікувати учасника-людину на основі відповідей, вона успішно пройде тест.
Недоліком зворотного тесту Тюрінга є його ненадійність, особливо враховуючи те, що штучний інтелект іноді не може відрізнити контент, створений іншими моделями, від написаного людьми.
5. Рамки класифікації ШІ
Згідно з системою класифікації штучного інтелекту, розробленою Крісом Саадом, тест Тюрінга є лише одним із методів оцінки для визначення того, чи спілкуєтеся ви зі штучним інтелектом. Система класифікації штучного інтелекту базується на теорії множинного інтелекту, яка вимагає від людського інтелекту відповідати принаймні восьми різним критеріям, серед яких музично-ритмічний, логіко-математичний, візуально-просторовий інтелект, емоційний інтелект, саморефлексивний інтелект, здатність екзистенціального мислення та координація рухів.
Оскільки штучний інтелект оцінюється за вісьмома різними критеріями, навряд чи він зможе зрівнятися з людиною, навіть якщо він демонструє кращі результати в окремих тестах. Наприклад, ChatGPT може вирішувати математичні задачі, описувати зображення та спілкуватися природною мовою, як людина, але він не здатен працювати з іншими категоріями, визначеними в системі класифікації штучного інтелекту.
Тест Тюрінга не є остаточним
Тест Тюрінга більше задумувався як уявний експеримент, а не як остаточний критерій для розрізнення між людьми та штучним інтелектом. На момент його створення, він був важливим еталоном для вимірювання інтелекту машин.
Проте, у зв’язку з нещодавніми розробками моделей штучного інтелекту з можливостями інтерактивної мови, бачення та слуху, тест Тюрінга втратив свою актуальність, оскільки він обмежений лише текстовим спілкуванням. Найефективнішим рішенням буде запровадження альтернативних тестів Тюрінга, які краще розрізнятимуть моделі штучного інтелекту від людей.