Як Alexa слухає слова пробудження

Alexa завжди слухає, але не записує постійно. Він нічого не надсилає на хмарні сервери, доки не почує, що ви вимовляєте слово пробудження (Alexa, Echo або Computer). Але прислухатися до слів пробудження важче, ніж ви думаєте.

Устаткування Echo не настільки розумне. Без Інтернету будь-які запити чи запитання, які ви поставите, не вдасться. Це тому, що ваші команди надсилаються в хмару для інтерпретації та прийняття рішень. Amazon не хоче, щоб кожна розмова, яку ви ведете перед розумним динаміком, записувалася, а лише ті команди, які ви даєте розумному динаміку. З цієї причини компанія використовує wake word, щоб привернути увагу розумного оратора. Для цього Amazon використовує комбінацію тонко налаштованих мікрофонів, короткого буфера пам’яті та навчання нейронної мережі.

Тонко налаштовані мікрофони точно визначають ваш голос

Світло-блакитний світлодіод завжди буде спрямований у напрямку вашого голосу.

Динаміки голосового помічника, такі як Echo і Echo Dot, зазвичай мають кілька вбудованих мікрофонів. Echo Dot, наприклад, має сім. Цей масив надає пристроям кілька можливостей, від чуття команд, сказаних далеко, до відокремлення фонового шуму від голосів.

Останнє особливо корисно для виявлення слів у сну. Використовуючи кілька мікрофонів, Echo може точно визначити ваше місцезнаходження відносно того, де він сидить, і слухати в цьому напрямку, ігноруючи решту кімнати.

  Як робити кращі фотографії у вашому домі (спалах не потрібен)

Ви бачите це в дії щоразу, коли використовуєте слово wake. Встаньте збоку від Echo або Echo Dot і скажіть слово для пробудження. Зверніть увагу, що кільце загоряється темно-синім, а потім світлішим синім, коли воно кружляє і «вказує» на вас. Тепер відійдіть на кілька кроків убік і ще раз промовте слово для пробудження. Зверніть увагу, що світло-блакитні вогні слідують за вами.

Знання того, де ви знаходитесь, допомагає пристрою краще зосередитися на вас і відключіть шуми, що доходять звідусіль.

Коротка пам’ять не дозволяє динаміку тримати занадто багато

Пристрої Echo мають багато пам’яті, але вони її не використовують. За словами Рохіта Прасада, віце-президента Amazon і головного наукового співробітника Alexa Artificial Intelligence, an Echo може фізично зберігати лише кілька секунд аудіо.

Зменшуючи свої можливості, Amazon не лише надає вам більше конфіденційності (це на одне місце менше, де зберігається ваш голос), але й не дозволяє Echo прослуховувати цілі розмови, обмежуючи його увагу до пошуку слова пробудження.

Уявіть, що у вас є трисекундна касета і магнітофон. Припустимо, що після того, як стрічка досягла кінця, стрічка знову і знову поверталася до початку. Якщо ви почнете записувати розмову, все, що ви сказали чотири секунди тому, буде стерто і негайно записано. Це те, що робить Amazon Echo.

Він записує безперервно, але одночасно стирає все, що щойно записав. Цей короткий проміжок уваги означає, що все, що він може почути, — це слово «Алекса» і не більше того. Однак трьох секунд достатньо, щоб це слово було записано, розглянуто й належним чином діяти.

  Що таке HBO Max і чи варто за нього платити?

Навчання нейронної мережі допомагає зіставляти шаблони

Представлення шарів, які використовуються алгоритмами Amazon.

Нарешті, Amazon залежить від навчання нейронної мережі щоб навчити Ехо зіставляти шаблон. Подібно до інших форм машинного навчання, Amazon тренує свої алгоритми, передаючи йому екземпляр за екземпляром слова Alexa (або Комп’ютер, або Echo, залежно від того, яке пробудження тренує компанія).

Ідея полягає в тому, щоб охопити кожен зворот і акцент, а також контекст. Amazon хоче, щоб ваш Echo розпізнавав різницю, коли ви з ним розмовляєте, коли ви говорите про це або, можливо, коли ви розмовляєте з людиною на ім’я Alexa. Спрямовані мікрофони також допомагають досягти цієї мети.

З кожним словом, яке чує Echo, воно запускає звук через шари алгоритмів. Кожен шар призначений для виключення помилкових спрацьовувань, пошуку схожих звуків або контекстних підказок. Якщо перевірка одного шару проходить, слово переходить до наступного. Нарешті, коли локальний пристрій вирішує, що він почув сигнал пробудження, він починає записувати та передавати аудіо на хмарні сервери Amazon. Amazon використовує чотири алгоритми: по одному для кожного слова пробудження (Alexa, Computer, Echo) і один для Alexa Guard, який розглядає конкретні звуки, такі як розбиття скла, як слово пробудження.

Але навіть коли відбувається збіг, Amazon все одно виконує більш складні перевірки. Ви помічали, що коли хтось говорить слово Alexa в телешоу або рекламі, це зазвичай не викликає відповіді від вашого Echo? Це тому, що Amazon також виконує хмарну перевірку.

  Як налаштувати двофакторну аутентифікацію на Raspberry Pi

Хмарні перевірки виключають деякі помилкові позитивні результати

Це весела реклама Alexa не розбудить ваше Ехо.

Коли компанії роблять рекламні ролики з Alexa, вони можуть надіслати аудіо до Amazon. Компанія запускає аудіо за допомогою подібних алгоритмів зіставлення шаблонів, які використовуються для ідентифікації слова пробудження. Після того, як цей точний екземпляр буде повністю каталогізовано, він додається до бази даних.

Як частина процесу під час звернення до хмари, ваш Echo включає інформацію про почуте слово пробудження та перевіряє цю базу даних. Щоразу, коли він знаходить відповідність, Amazon дає вказівку вашому Echo ігнорувати слово пробудження, вимкнути та відкинути будь-який записаний звук.

Крім того, Amazon перевіряє екземпляри одночасного вимовленого слова. Не кожна компанія подає аудіо в Amazon, тому компанія придумала нове рішення для резервного копіювання. Після перевірки відповідності бази даних компанія порівнює відбиток wake-word з будь-якими іншими екземплярами, які надходять одночасно. Малоймовірно, що двоє людей, які кажуть Alexa одночасно, звучать абсолютно однаково, тому, якщо є збіг, Amazon знає, що це, швидше за все, рекламне або телешоу, і ігнорує запит.

Незважаючи на всі перевірки, помилкові результати все ще трапляються. Ви можете послухати, що записало ваше Echo Центр конфіденційності Amazon, і ви, ймовірно, знайдете принаймні один хибнопозитивний результат. Але технологія постійно вдосконалюється, і, врешті-решт, Amazon хотів би, щоб вона функціонувала без жодного повідомлення.