Як працюють програми для ідентифікації музики, такі як Shazam?

Програми, здатні миттєво розпізнавати музичні композиції, на перший погляд здаються чимось чарівним. Але їхня діяльність базується на складних алгоритмах, що дозволяють знаходити пісні за лічені секунди. Розгляньмо, як саме вони функціонують.

Секрети миттєвого розпізнавання музики

Зізнайтеся, з кожним із нас траплялась ситуація: ви знаходитесь в затишному ресторані, насолоджуєтесь кавою в кав’ярні чи прогулюєтесь торговим центром, і раптом чуєте мелодію, що заворожує. Можливо, це композиція, яку ви вже колись слухали, або ж абсолютно новий для вас трек. У такому випадку ви, швидше за все, дістаєте свій смартфон, відкриваєте Shazam і підносите його до джерела звуку. І вуаля! Програма миттєво ідентифікує пісню, називає виконавця та надає посилання на платформи, де її можна прослухати.

Ці інструменти працюють швидко, з неймовірною точністю, розпізнаючи навіть найменш відомі пісні. Вони аналізують аудіозапис, виділяють унікальні характеристики треку та шукають їх у великій базі даних. Технологія, що стоїть за цим процесом, є досить складною, але водночас захоплюючою.

Можливо, ви здивуєтеся, дізнавшись, що Shazam, у звичному для нас вигляді, з’явився ще у 2002 році, і вже тоді система була настільки ж точною та оперативною, як і сьогодні. Усе це завдяки інноваційному алгоритму, який здійснив революцію в музичній індустрії.

Аналіз не обмежується лише текстом

Здається, що принцип роботи застосунків для ідентифікації музики, таких як Shazam, є досить простим. Ви можете припустити, що вони просто розпізнають текст пісні, як це роблять голосові помічники, і шукають його в базі даних.

Проте, більшість таких програм здатні ідентифікувати не лише вокальні композиції, але й інструментальні версії, а також кавери. Це відбувається тому, що замість аналізу тексту вони використовують унікальні “відбитки пальців”, притаманні кожній пісні, зберігаючи їх у своїх розгалужених базах даних.

Технологія “відбитків пальців” у музиці

Напевно, ви користуєтеся пристроями, які можна розблокувати за допомогою відбитка пальця – унікальної комбінації ліній на вашому пальці. Подібним чином, коли ви підносите мікрофон до джерела звуку, щоб записати фрагмент пісні, цей фрагмент перетворюється на дані, які Shazam або інший додаток може порівняти з інформацією у своїй базі даних.

На перший погляд, цей метод здається вразливим до багатьох проблем. Адже, найчастіше, коли ми чуємо музику в громадських місцях, динаміки створюють фоновий шум та спотворення, що можуть ускладнити розпізнавання пісень або призвести до помилкових результатів. Крім того, навіть короткий аудіозапис містить велику кількість даних, що може сповільнити пошук потрібних “відбитків” серед мільйонів композицій.

В інтерв’ю для Scientific American, Евері Лі-Чун Ван, провідний науковий співробітник та співзасновник Shazam, пояснював, як їхній алгоритм вирішує ці проблеми. Інформацію про аудіозапис можна візуалізувати за допомогою тривимірної діаграми, відомої як спектрограма, що відображає зміну частот протягом певного періоду часу. При цьому враховується амплітуда, тобто гучність звуку, яка відображається на спектрограмі інтенсивністю кольору.

Подібно до того, як людське вухо не сприймає усі частоти звуку, Shazam, під час пошуку, аналізує лише “піки” – ділянки з найвищим енергетичним вмістом в аудіозаписі. “Відбитки пальців”, які вона використовує, фіксують точки найвищої частоти у певний момент часу, а потім – пікові значення амплітуди в межах цих частот.

У науковій роботі, опублікованій Колумбійським університетом, Ван заявив, що цей метод дозволяє видалити більшу частину непотрібної інформації з аудіозапису, такої як фоновий шум, та усунути спотворення. Це також значно зменшує розмір “відбитків”, що дозволяє ідентифікувати пісню серед величезної бази даних за лічені мілісекунди.

Вплив Shazam на музичну індустрію

Окрім користі для звичайних слухачів, програми для розпізнавання музики відіграють важливу роль у формуванні музичного ландшафту.

Радіостанції та стрімінгові сервіси часто використовують дані про те, які пісні користувачі ідентифікують за допомогою Shazam, щоб визначити популярність треків. Це допомагає оцінити привабливість та потенційний успіх пісні, незалежно від виконавця. Коли ви ідентифікуєте пісню за допомогою програми, ви відразу бачите кількість інших користувачів, які також шукали саме цю композицію.

Зі зростанням популярності Shazam з’явилось кілька конкурентів. Soundhound стверджує, що може ідентифікувати пісню, якщо її просто наспівати чи проспівати, хоча результати є неоднозначними. Також існують ідентифікатори пісень, інтегровані з голосовими помічниками, такими як Google Assistant, що працюють за подібним принципом, як і Shazam.