Alexa, Siri та Google не розуміють жодного слова

Зміст

За останні декілька років голосові асистенти, такі як Alexa, Google Assistant та Siri, досягли значного прогресу. Проте, попри всі їхні вдосконалення, одна проблема залишається нерозв’язаною: вони не розуміють нас по-справжньому. Їх функціональність занадто залежить від конкретних голосових інструкцій.

Розпізнавання мови: фокус, а не розуміння

Голосові помічники насправді не розуміють, що ми говоримо. Коли ви звертаєтеся до Google Home або Amazon Echo, вони, по суті, трансформують ваші слова у текстову послідовність, а потім порівнюють її з заздалегідь визначеними командами. Якщо знайдено точний збіг, виконується заданий набір дій. У протилежному випадку, асистент намагається знайти альтернативне рішення, ґрунтуючись на наявній інформації. Якщо ж це не вдається, користувач отримує повідомлення про помилку, наприклад: “Вибачте, я не знаю, що ви маєте на увазі”. Це більше схоже на фокус, який створює ілюзію розуміння.

Ці системи не можуть використовувати контекстні підказки для формування обґрунтованих припущень або використовувати розуміння схожих тем для прийняття рішень. Також, їх можна легко заплутати. Наприклад, якщо ви запитаєте Alexa: «Чи працюєш ти на АНБ?», вона може дати відповідь. Але якщо ви поставите питання: «Чи ти таємно працюєш на АНБ?», то отримаєте відповідь: «Я не знаю відповіді на це питання» (принаймні, на момент написання цього тексту).

Люди, які дійсно розуміють мову, функціонують інакше. Уявіть, що ви запитуєте когось: “Що це за кларвена на небі? Та, що має дугу і складається зі смуг червоного, помаранчевого, жовтого та синього кольорів”. Навіть попри те, що слово “кларвена” вигадане, людина зрозуміє з контексту, що ви описуєте веселку.

Людина перетворює слова на ідеї, а потім використовує знання та розуміння для формування висновків. Якщо ви запитаєте людину, чи таємно вона працює на АНБ, вона дасть вам відповідь “так” або “ні”, навіть якщо ця відповідь буде неправдивою. Людина не відповість на таке запитання фразою “я не знаю”. Здатність обманювати є ознакою справжнього розуміння.

Голосові асистенти не можуть виходити за рамки свого програмування

Голосові помічники обмежені запрограмованими параметрами. Будь-яке відхилення від них призводить до збою. Це особливо помітно, коли використовуються сторонні пристрої. Команди для їхнього управління часто є складними, наприклад: “скажи виробнику пристрою надати додатковий аргумент”. Наприклад, щоб призупинити сушарку, вам потрібно сказати: “Скажи Whirlpool призупинити сушарку”. Ще складніший приклад: Geneva Alexa skill керує деякими печами GE. Користувач має пам’ятати, що потрібно сказати “скажи Женеві”, а не “скажи GE”, а потім вже решту команди. Хоча можна попросити розігріти духовку до 180 градусів, не можна потім додати ще 20 градусів. Людина ж, могла б виконати обидва запити.

Amazon та Google постійно працюють над покращенням цих систем, і це помітно. Якщо раніше для керування розумним замком потрібно було виконувати довгу послідовність дій, то тепер достатньо сказати “заблокувати вхідні двері”. Раніше Alexa могла розгубитися, якщо її попросити розповісти жарт про собаку, але зараз вона впорається із цим завданням. Розробники додають варіанти команд, які можна використовувати, але все одно потрібно знати, яку саме команду потрібно сказати. Необхідно використовувати правильний синтаксис у правильній послідовності.

І якщо вам це нагадує командний рядок, то ви не помиляєтеся.

Голосові помічники: сучасний командний рядок

Командний рядок призначений для виконання простих завдань, але лише за умови, що ви знаєте правильний синтаксис. Якщо ви відхилитеся від нього, і замість “dir” введете “dyr”, командний рядок видасть вам повідомлення про помилку. Ви можете використовувати псевдоніми для спрощення команд, але для цього потрібно розуміти, якими були початкові команди, як вони працюють та як ефективно використовувати псевдоніми. Якщо ви не навчитеся всіх тонкощів командного рядка, ви не зможете використовувати його на повну.

Голосові помічники працюють за схожим принципом. Ви повинні знати, як правильно сказати команду або поставити запитання. Потрібно знати, як налаштувати групи в Google та Alexa, розуміти, чому важливе групування пристроїв і як їх називати. Якщо ви не виконаєте цих необхідних дій, ви будете розчаровані, якщо попросите голосового помічника вимкнути “світло в кабінеті”, а він запитає, “який саме кабінет” ви маєте на увазі.

Навіть при правильному синтаксисі та послідовності дій, процес може дати збій. Можлива неправильна відповідь або неочікуваний результат. Два пристрої Google Home в одному будинку можуть показувати прогноз погоди для різних місць, навіть якщо вони мають доступ до однієї і тієї ж інформації облікового запису та підключення до Інтернету.

У наведеному вище прикладі, команда “встановити таймер на півгодини” була інтерпретована Google Home як створення таймера під назвою “Година”, і запит на введення часу. Однак, триразове повторення цієї ж команди спрацювало коректно і створило 30-хвилинний таймер. Команда “встановити таймер на 30 хвилин” працює більш стабільно.

Хоча розмова з Google Home або Echo може здаватися більш плавною, за своєю суттю, голосові помічники та командні рядки працюють однаково. Можливо, не потрібно вчити нову мову, але потрібно вивчити її новий діалект.

Обмежене розуміння голосових помічників гальмує їхній розвиток

Все це не заважає голосовим помічникам, таким як Google Assistant та Alexa, працювати доволі ефективно (хоча Cortana – це інша історія). Google Assistant та Alexa досить добре виконують пошукові запити в Інтернеті. Звісно, Google краще справляється з пошуком та може відповідати на основні запитання, наприклад, перетворювати одиниці вимірювання та виконувати прості математичні операції. За умови правильного налаштування розумного будинку та досвідченого користувача, більшість команд для розумного дому будуть виконуватись належним чином. Але це досягається завдяки наполегливій праці та зусиллям, а не інтелектуальному розумінню.

Раніше таймери та будильники були дуже простими. З часом з’явилася можливість задавати їм імена, а потім додавати час до таймерів. Вони пройшли шлях від простого до складного. Голосові помічники можуть відповідати на все більшу кількість питань, і щодня з’являються нові навички та функції. Але це не є результатом самостійного розвитку, що походить від навчання та розуміння.

І жоден із цих покращень не дає їм здатності використовувати відому інформацію для досягнення невідомого. На кожну команду чи запит, що спрацює, знайдеться три, які не спрацюють. Без прориву у сфері штучного інтелекту, який наділить машини людською здатністю до розуміння, голосові помічники не є справжніми помічниками. Вони залишаються голосовими командними рядками — корисними у певних сценаріях, але обмеженими тими сценаріями, для яких їх запрограмували.

Іншими словами: машини навчаються, але не можуть зрозуміти.