Тест Тьюринга застарів? 5 альтернатив тесту Тьюринга

Понад 70 років тому, коли була розроблена концепція штучного інтелекту, Алан Тюрінг опублікував статтю, в якій описував, як його ідентифікувати. Пізніше він був відомий як тест Тюрінга, і його десятиліттями використовували для розрізнення людини та штучного інтелекту.

Однак із появою передових чат-ботів зі штучним інтелектом, таких як ChatGPT і Google Bard, стає важче визначити, чи розмовляєте ви зі штучним інтелектом. Виникає питання; тест Тюрінга застарів? І якщо так, то які є альтернативи?

Зміст

Тест Тьюринга застарів?

Автор зображення: Jesus Sanz/Shutterstock

Щоб визначити, чи є тест Тьюринга застарілим, ви повинні спочатку зрозуміти, як він працює. Щоб штучний інтелект пройшов тест Тьюринга, він повинен переконати людину, що проводить опитування, що це людина. Але є підступ: штучний інтелект оцінюється разом з людиною, і він повинен відповідати за допомогою тексту.

Подумайте про це так; якщо ви допитувач і ставите запитання двом учасникам онлайн за допомогою тексту, але один із них є моделлю штучного інтелекту, ви б відрізнили їх через п’ять хвилин? Майте на увазі, що мета тесту Тюрінга полягає не в тому, щоб визначити модель штучного інтелекту на основі правильних відповідей, а в тому, щоб оцінити, чи може штучний інтелект мислити або поводитися як людина.

Проблема підходу тесту Тюрінга, який полягає лише у визначенні людських реакцій, полягає в тому, що він не враховує інших факторів. Наприклад, інтелект моделі ШІ або знання запитувача. Крім того, тест Тьюрінга обмежується лише текстом, і стає важче ідентифікувати штучний інтелект, який генерує людський голос, або глибокі фейкові відео, які імітують людську поведінку.

12 навчальних ресурсів дизайну UX для розробників і дизайнерів

Однак поточні моделі штучного інтелекту, такі як ChatGPT-4 і Google Bard, ще не просунулися до точки, щоб вони могли послідовно проходити тест Тьюринга. Насправді, якщо ви знайомі зі штучним інтелектом, ви можете помітити текст, створений штучним інтелектом.

5 найкращих альтернатив тесту Тьюринга

Цілком можливо, що майбутні моделі ШІ, такі як ChatGPT-5, зможуть пройти тест Тьюринга. Якщо це станеться, нам знадобляться різні тести в поєднанні з тестом Тюрінга, щоб визначити, чи спілкуємося ми з ШІ чи людиною. Ось найкращі альтернативи тесту Тюрінга:

1. Тест Маркуса

Гері Маркус, відомий вчений-когнітивіст і дослідник штучного інтелекту, запропонував альтернативу тесту Тюрінга, опубліковану в Житель Нью-Йорка для визначення когнітивних здібностей ШІ. Тест простий — ви оцінюєте модель штучного інтелекту на основі її здатності переглядати та розуміти відео та телешоу YouTube без субтитрів чи тексту. Щоб ШІ пройшов тест Маркуса, він повинен розуміти сарказм, гумор, іронію та сюжетну лінію під час перегляду відео та пояснювати це як людина.

На даний момент GPT-4 може описувати зображення, але наразі немає моделі AI, яка могла б сприймати відео як людина. Безпілотні транспортні засоби наближаються до цього, але вони не повністю автономні й потребують датчиків, оскільки вони не можуть зрозуміти все, що їх оточує.

2. Візуальний тест Тьюринга

Відповідно до наукової статті, опублікованої на PNAS, візуальний тест Тьюринга можна використовувати, щоб визначити, спілкуєтеся ви з людиною чи штучним інтелектом за допомогою запитань із зображеннями. Він працює як тест Тюрінга, але замість того, щоб відповідати на запитання за допомогою текстів, учасникам показують зображення, і очікується, що вони відповідатимуть на прості запитання, думаючи як людина. Однак візуальний тест Тюрінга відрізняється від CAPTCHA, оскільки всі відповіді правильні, але щоб пройти тест, штучний інтелект повинен обробити зображення так само, як і людина.

Google I/O 2023 SquareX for Security Twinr App Creator

Крім того, якщо штучному інтелекту та людині показати кілька зображень поруч і попросити визначити реалістичні зображення, людина матиме когнітивні здібності, щоб пройти тест. Це тому, що моделям штучного інтелекту важко розрізнити зображення, які не виглядають так, ніби вони були зроблені в реальному світі. Фактично, це причина, чому ви можете ідентифікувати створені штучним інтелектом зображення за допомогою аномалій, які не мають сенсу.

3. Тест Lovelace 2.0

Теорія про те, що комп’ютер не може створювати оригінальні ідеї, крім того, на що він був запрограмований, була вперше сформульована Адою Лавлейс ще до тесту Тьюринга. Однак Алан Тюрінг заперечив проти цієї теорії, стверджуючи, що ШІ все ще може здивувати людей. Лише у 2001 році були розроблені рекомендації щодо тесту Лавлейса, щоб відрізнити штучний інтелект від людини, і, згідно з thekurzweillibrary правила були пізніше переглянуті в 2014 році.

Щоб штучний інтелект пройшов тест Lovelace, він повинен продемонструвати, що може генерувати оригінальні ідеї, які перевершують його навчання. Сучасні моделі штучного інтелекту, такі як GPT-4, не здатні створювати нові винаходи, що перевищують наші знання. Однак загальний штучний інтелект може досягти цієї здатності та пройти тест Лавлейса.

4. Зворотний тест Тьюринга

Як щодо тесту Тюрінга, але зробленого навпаки? Замість того, щоб з’ясувати, чи розмовляєте ви з людиною, мета зворотний тест Тюрінга полягає в тому, щоб змусити ШІ повірити, що ти ШІ. Однак вам також потрібна інша модель ШІ, щоб відповісти на ті самі запитання за допомогою тексту.

Як зробити нижній індекс (або верхній індекс) у Google Docs

Наприклад, якщо ChatGPT-4 є запитувачем, ви можете зареєструвати Google Bard та іншу людину як учасників. Якщо модель штучного інтелекту може правильно ідентифікувати людину-учасника на основі відповідей, вона пройшла тест.

Недоліком зворотного тесту Тьюринга є те, що він ненадійний, особливо враховуючи, що інколи штучний інтелект не може відрізнити створений штучним інтелектом вміст від написаного людьми.

5. Рамки класифікації ШІ

Відповідно до системи класифікації ШІ, розробленої Кріс Саад, тест Тьюринга — це лише один із методів оцінки, щоб дізнатися, чи спілкуєтеся ви зі ШІ. Коротше кажучи, система класифікації штучного інтелекту базується на теорії множинного інтелекту, яка вимагає, щоб інтелект людини відповідав принаймні восьми різним критеріям, серед яких: музично-ритмічний, логіко-математичний інтелект, візуальна ідентифікація, емоційний інтелект, саморефлексивний інтелект. , здатність екзистенціального мислення та рух тіла.

Оскільки штучний інтелект оцінюється за вісьмома різними параметрами, він навряд чи підійде для людини, навіть якщо він працює краще, ніж середній у певних тестах. Наприклад, ChatGPT може вирішувати математичні задачі, описувати зображення та спілкуватися природною мовою, як людина, але він не зможе працювати з іншими категоріями, визначеними в системі класифікації ШІ.

Тест Тьюринга не є остаточним

Тест Тюрінга мав бути більше уявним експериментом, ніж остаточним тестом для розрізнення людей і ШІ. Коли це було спочатку запропоновано, це був ключовий еталон для вимірювання інтелекту машин.

Однак у зв’язку з нещодавньою розробкою моделей штучного інтелекту з інтерактивними можливостями мовлення, зору та слуху тест Тьюрінга не відповідає вимогам, оскільки він обмежений текстовою розмовою. Найефективнішим рішенням було б запровадити альтернативні тести Тьюринга, які ще більше відрізнятимуть моделі штучного інтелекту від людей.