Як працюють програми для ідентифікації музики, такі як Shazam?

Програми для ідентифікації музики спочатку здаються магією, але під капотом є складний алгоритм, який може знайти пісні миттєво. Ось як вони працюють.

Магія музичної ідентифікації

Мабуть, це траплялося з усіма нами. Ви вечеряєте в гарному ресторані, тусуєтеся в кав’ярні або гуляєте по магазину, коли раптом почуєте чудову пісню, що грає з колонок. Можливо, це пісня, яку ви слухали раніше, або трек, який ви ніколи не чули. Отже, ви витягуєте телефон, відкриваєте Shazam і підносите пристрій до стелі. Програма миттєво розповідає вам, що це за пісня, хто виконавець і де її можна транслювати.

Вони швидкі, надзвичайно точні й можуть розпізнати навіть найнезрозуміліші пісні. Коротше кажучи, вони працюють, виокремлюючи пісню із запису та шукаючи її в розширеній базі даних треків. Але технологія того, як вони це роблять, досить складна і вражаюча.

Ви можете бути шоковані, дізнавшись, що програма Shazam, яку ми знаємо сьогодні, була випущена ще в 2002 році, і тоді система була такою ж точною та швидкою, як і зараз. Це все завдяки унікальному алгоритму, який здійснив революцію в музичному світі.

  Як захистити паролем програми на вашому Mac

Справа не тільки в тексті

На перший погляд програми для ідентифікації музики, такі як Shazam, можуть здатися простими. Ви можете подумати, що вони просто слухають текст, як і будь-який голосовий помічник, і шукають його в базі даних пісень, щоб сказати вам, що це за пісня.

Однак більшість програм для ідентифікації музики здатні розповісти назву інструменталу або навіть виконавця кавер-версії пісні. Це тому, що замість аналізу тексту треку вони шукають унікальні для кожної пісні «відбитки пальців» у їхніх обширних базах даних.

Технологія відбитків пальців

Ймовірно, у вас є пристрої, які можна розблокувати за допомогою відбитка пальця, який є унікальним розташуванням маленьких ліній на вашому пальці. Аналогічно, коли ви піднімаєте мікрофон, щоб записати короткий кліп пісні, цей кліп перетворюється на шаблони даних, які Shazam або інший додаток може шукати у своїй базі даних.

На перший погляд здається, що цей метод схильний до кількох проблем. У більшості випадків, коли ви чуєте музику на публіці, динаміки спричиняють фоновий шум і спотворення, які можуть зробити пісні нерозпізнаними або призвести до неточних збігів. Крім того, навіть у короткому звуковому кліпі міститься багато даних, що може уповільнити пошук цих шаблонів у базі даних мільйонів пісень.

  Як встановити Torrential на Elementary OS

В інтерв’ю з Scientific American у 2003 році Евері Лі-Чун Ван, головний науковець з даних і співзасновник Shazam, пояснює, як їхній алгоритм вирішує ці проблеми. Інформацію про аудіокліп можна візуалізувати за допомогою тривимірної діаграми, відомої як спектрограма, яка відображає зміну частот за певний період часу. Він також враховує амплітуду, яка означає, наскільки гучний звук. Це представлено у спектрограмі з використанням інтенсивності кольору.

Подібно до того, як люди не можуть сприймати звук, якщо вони не мають певної частоти, замість того, щоб брати до уваги всю пісню під час пошуку, Shazam бере лише «піки», що є найвищим енергетичним вмістом у аудіокліпі. . Відбитки пальців, які він фіксує, беруть лише точки найвищої частоти протягом певного проміжку часу, а потім піки амплітуди в межах цих частот.

  3 простих додатка, щоб перетворити себе на відео та GIF-файли

У науковій роботі за Колумбійський університет, Ван заявив, що метод дозволяє їм видалити більшість непотрібних частин аудіокліпу, як-от фоновий шум, і усунути спотворення. Це також робить розмір відбитків настільки малим, що для ідентифікації пісні серед їхньої величезної бази даних потрібні лише мілісекунди.

Вплив Shazam

Окрім того, що програми для розпізнавання музики можуть бути корисними для пересічних слухачів, які чують пісню, яка їм подобається, вони також допомагають формувати музичний світ.

Радіостанції та потокові служби часто використовують дані про те, які люди найбільше читають Shazam, щоб з’ясувати, які треки слухає публіка. Це корисно, оскільки вказує на привабливість і потенційну популярність пісні, незалежно від виконавця. Коли ви ідентифікуєте пісню за допомогою програми, ви відразу побачите, скільки людей також спробували її ідентифікувати.

Після підйому Shazam також з’явилося кілька конкурентів. Soundhound стверджує, що може ідентифікувати пісню, просто співаючи або наспівуючи її, з неоднозначними результатами. Існує також ідентифікатор пісні, інтегрований з голосовими програмами, такими як Google Assistant, які працюють дуже подібно до системи Shazam.