Що таке обробка природної мови і як вона працює?

Обробка природної мови дозволяє комп’ютерам обробляти те, що ми говоримо, у команди, які він може виконувати. Дізнайтеся, як це працює, і як воно використовується для покращення нашого життя.

Що таке обробка природної мови?

Будь то Alexa, Siri, Google Assistant, Bixby або Cortana, сьогодні кожен, хто має смартфон або розумний динамік, має голосового помічника. З кожним роком ці голосові помічники, здається, все краще розпізнають і виконують те, що ми їм наказуємо. Але чи замислювалися ви коли-небудь, як ці помічники обробляють те, що ми говоримо? Їм це вдається завдяки обробці природної мови, або НЛП.

Історично більшість програмного забезпечення було здатне реагувати лише на фіксований набір конкретних команд. Відкриється файл, якщо ви натиснули кнопку Відкрити, або електронна таблиця обчислить формулу на основі певних символів та імен формул. Програма спілкується за допомогою мови програмування, якою вона була закодована, і, таким чином, вироблятиме вихід, коли їй надається вхід, який вона розпізнає. У цьому контексті слова схожі на набір різних механічних важелів, які завжди забезпечують бажаний результат.

Це на відміну від людських мов, які є складними, неструктурованими і мають безліч значень, заснованих на структурі речень, тону, наголосі, часу, пунктуації та контексту. Обробка природної мови — це розділ штучного інтелекту, який намагається подолати розрив між тим, що машина розпізнає як вхідні дані, і людською мовою. Це відбувається для того, щоб, коли ми говоримо або друкуємо текст природним шляхом, машина виробляє вихід відповідно до того, що ми сказали.

  Як додати посилання в Canva

Для цього береться величезна кількість точок даних, щоб отримати значення з різних елементів людської мови, крім значень справжніх слів. Цей процес тісно пов’язаний з концепцією, відомою як машинне навчання, що дозволяє комп’ютерам вчитися більше, оскільки вони отримують більше точок даних. Ось чому більшість машин для обробки природної мови, з якими ми часто взаємодіємо, з часом стають краще.

Щоб краще висвітлити цю концепцію, давайте подивимося на дві методики найвищого рівня, які використовуються в НЛП для обробки мови та інформації.

Токенізація

Токенізація означає поділ мови на слова або речення. Кожен фрагмент тексту є маркером, і ці маркери з’являються, коли ваше мовлення обробляється. Звучить просто, але на практиці це непростий процес.

Скажімо, ви використовуєте програмне забезпечення для синтезу мовлення, наприклад клавіатуру Google, щоб надіслати повідомлення другові. Ви хочете надіслати повідомлення: «Зустрінемось у парку». Коли ваш телефон бере цей запис і обробляє його за допомогою алгоритму перетворення тексту в мовлення від Google, Google повинен розділити те, що ви щойно сказали, на маркери. Такими токенами будуть «зустріч», «я», «у», «the» та «park».

  Палітра вибирає кольори з будь-якого зображення та надає вам HEX або RGB-код [Web]

Люди мають різну тривалість пауз між словами, а в інших мовах може бути не дуже мало звукових пауз між словами. Процес лексемізації сильно відрізняється між мовами та діалектами.

Стеммінг і лемматизація

Стеммінг і лемматизація включають процес видалення доповнень або варіацій до кореневого слова, яке машина може розпізнати. Це робиться для того, щоб інтерпретація мовлення була узгодженою між різними словами, які по суті означають те саме, що прискорює обробку НЛП.

Створення коренів — це грубий швидкий процес, який передбачає видалення афіксів із кореневого слова, які є доповненнями до слова, прикріпленого до або після кореня. Це перетворює слово на найпростішу базову форму, просто видаляючи літери. Наприклад:

«Прогулянка» перетворюється на «прогулянку»
«Швидше» перетворюється на «швидше»
«Суворість» перетворюється на «суворість»

Як ви бачите, стволування може мати несприятливий ефект, пов’язаний із повною зміною значення слова. «Severity» і «sever» не означають одне й те саме, але суфікс «ity» був вилучений у процесі створення кореня.

З іншого боку, лематизація є більш складним процесом, який включає зведення слова до його основи, відомої як лема. При цьому враховується контекст слова та те, як воно вживається в реченні. Це також передбачає пошук терміна в базі даних слів і відповідних лем. Наприклад:

  Ваші AirPods або AirPods Pro водонепроникні?

«Є» перетворюється на «бути»
«Операція» перетворюється на «Операція»
«Суворість» перетворюється на «важка»

У цьому прикладі лемматизації вдалося перетворити термін «суворість» на «суворий», що є його формою леми та коренем слова.

Випадки використання НЛП і майбутнє

Попередні приклади лише розкривають поверхню того, що таке Обробка природної мови. Він охоплює широкий спектр практик і сценаріїв використання, багато з яких ми використовуємо в нашому повсякденному житті. Ось кілька прикладів того, де зараз використовується НЛП:

Передбачуваний текст: коли ви вводите повідомлення на своєму смартфоні, воно автоматично пропонує вам слова, які вписуються в речення або які ви використовували раніше.
Машинний переклад: широко використовувані послуги перекладу для споживачів, такі як Google Translate, для включення високорівневої форми НЛП для обробки мови та її перекладу.
Чат-боти: НЛП є основою для інтелектуальних чат-ботів, особливо в обслуговуванні клієнтів, де вони можуть допомагати клієнтам і обробляти їхні запити, перш ніж вони зустрінуться зі справжньою людиною.

Попереду ще буде. Нині НЛП розробляється та впроваджується в таких галузях, як ЗМІ, медичні технології, управління робочим місцем та фінанси. Є шанс, що в майбутньому ми зможемо вести повноцінну витончену розмову з роботом.

Якщо вам цікаво дізнатися більше про НЛП, на сайті є багато фантастичних ресурсів Блог Towards Data Science або Група обробки національної мови Стендфорда що ви можете перевірити.