У контексті збору інформації, “час” виступає ключовим фактором. Аналізуючи часові ряди, час стає невід’ємним елементом даних.
Що таке дані часових рядів?
Дані часових рядів — це послідовність інформаційних точок, розташованих у хронологічному порядку. Вони створюють залежність між окремими спостереженнями. У світі, де домінує інформація, часові ряди широко використовуються, оскільки кожна подія відбувається з плином часу, і ми постійно взаємодіємо з різноманітними даними цього типу.
Зазвичай, часові ряди формуються через регулярні часові інтервали, і їх називають регулярними. Однак, дані у межах цих рядів не завжди виникають через однакові проміжки часу. У таких випадках ми маємо справу з нерегулярними часовими рядами, де інформація слідує за хронологічною послідовністю, але вимірювання можуть відбуватися не через рівні інтервали. Дані можуть надходити у вигляді окремих вимірювань або пакетно. Прикладами нерегулярних часових рядів є операції з банкоматами або поповнення рахунків.
Технічно, у часовому ряді одна або кілька змінних змінюються з плином часу. Якщо тільки одна змінна змінюється з часом, це називається одновимірним часовим рядом. Наприклад, датчик, який щосекунди вимірює температуру в кімнаті, генерує одновимірне значення температури щосекунди. Натомість, коли більше однієї змінної змінюються з часом, це є багатовимірний часовий ряд. Приклад – банківська економіка, де багатовимірні часові ряди використовуються для аналізу впливу змін в одній змінній, наприклад, облікової ставки, на інші змінні, такі як виплата кредитів для банків.
Дані часових рядів використовуються в різних галузях, від фінансів та геології до метеорології, виробництва, інформаційних технологій, Інтернету речей, фізичних та соціальних наук. Вони допомагають відстежувати зміни погоди, народжуваність, смертність, ринкові коливання, продуктивність мереж та багато інших параметрів. Основні сфери їх застосування включають моніторинг, прогнозування та виявлення аномалій. Наприклад, прогнозування часових рядів має вирішальне значення для визначення популярності систем керування базами даних. На ілюстрації нижче показано зростання популярності СУБД протягом кількох років (2019-2021) на графіку часових рядів.
https://www.influxdata.com/time-series-database/
Ключові елементи часових рядів
Фактори, які впливають на значення спостереження у часовому ряді, вважаються його ключовими компонентами. До них належать:
- Тенденція або довгострокові зміни
- Короткочасні зміни
- Сезонні коливання
- Циклічні варіації
- Випадкові або нерегулярні зміни
Тенденція
Тенденцією називається рух даних вгору або вниз протягом тривалого періоду часу. Важливо зауважити, що цей рух не обов’язково має бути в одному напрямку протягом усього періоду.
Тенденції можуть змінюватися, зростати, знижуватися або залишатися стабільними протягом різних відрізків часу, але загалом вони відповідають висхідній, низхідній або стабільній моделі. Приклади таких тенденцій можна побачити у продуктивності сільського господарства, рівнях смертності, обсягах виробництва пристроїв, кількості заводів тощо.
Лінійна та нелінійна тенденція
Графічне відображення значень часового ряду залежно від часу показує тип тенденції на основі моделі кластеризації даних. Якщо кластер даних розташовується близько прямої лінії, тенденція називається лінійною. В іншому випадку, якщо модель кластера даних показує нелінійну тенденцію, співвідношення змін між двома змінними не є стабільним або постійним. Такі тенденції називають криволінійними кореляціями.
Короткочасні зміни
Ці компоненти часового ряду схильні до повторення протягом певного періоду часу. Вони характеризуються нерегулярними короткочасними сплесками та впливають на змінні, які досліджуються. Короткострокові зміни поділяються на дві категорії:
Сезонні коливання
Ці варіації є регулярними та періодичними протягом періоду менше одного року. Вони мають схожу або майже однакову картину протягом 12 місяців. Такі варіації стають частиною часового ряду, якщо дані записуються регулярно, тобто щогодини, щодня, щотижня, щомісяця або щокварталу.
Сезонні коливання можуть бути викликані як природними, так і людськими факторами. Різні пори року або кліматичні умови відіграють важливу роль у таких варіаціях. Наприклад, рослинництво повністю залежить від сезонів. Аналогічно, попит на парасолі та плащі зростає у сезон дощів, тоді як продажі кулерів та кондиціонерів досягають піку влітку.
До рукотворних подій належать фестивалі, свята та такі події, як весілля, які повторюються з року в рік.
Циклічні варіації
Зміни у часових рядах, що відбуваються протягом періоду більше одного року, називаються циклічними варіаціями. Для бізнесу один повний період вважається “діловим циклом”. Підвищення або зниження ефективності бізнесу залежить від різних факторів, таких як економічна структура, управління бізнесом та інші взаємодіючі сили. Ці циклічні зміни можуть бути регулярними, але не періодичними. Зазвичай, бізнес проходить чотири етапи циклічного процесу, а саме процвітання, спад, депресію та пожвавлення.
Такі циклічні коливання є невід’ємною частиною часових рядів, оскільки розвиток бізнесу залежить від згенерованих послідовних точок даних.
Випадкові або нерегулярні зміни
Випадкові компоненти спричиняють значні коливання спостережуваної змінної. Це є суто нерегулярними коливаннями без будь-якої встановленої моделі. Вони непередбачувані та нестабільні за своєю природою, наприклад, землетруси, повені, голод та інші катастрофи.
Випадкові події аналізуються з використанням даних часових рядів для кращого розуміння реальних ситуацій, які можуть трапитися у майбутньому.
Типи часових рядів
Дані часових рядів поділяють на чотири типи: детерміновані, недетерміновані, стаціонарні та нестаціонарні. Розглянемо кожен з них докладніше.
#1. Детермінований часовий ряд
Детермінований часовий ряд можна описати за допомогою аналітичного виразу. Він не містить випадкових або ймовірнісних елементів. Математично його можна точно виразити для будь-якого інтервалу часу через розкладання в ряд Тейлора, якщо всі його похідні відомі у деякий момент часу. Ці похідні чітко показують минуле та майбутнє. Якщо всі умови виконуються, можна точно передбачити його майбутню поведінку та проаналізувати, як він поводився в минулому.
#2. Недетермінований часовий ряд
Недетермінований часовий ряд має випадковий аспект, що унеможливлює його точний опис. Аналітичні вирази не є достатнім рішенням для його вираження. Часовий ряд може бути недетермінованим через такі причини:
- Інформація, необхідна для його опису, є неповною. Хоча дані можуть існувати в принципі, вони можуть бути не піддані кількісному вимірюванню.
- Процес генерування даних має випадковий характер.
Через випадкові фактори, недетермінований часовий ряд підпорядковується ймовірнісним законам. Дані розглядаються у статистичних термінах, тобто непрямі дані визначаються розподілами ймовірностей та середніми значеннями різних форм, включаючи середні та міри дисперсії.
#3. Стаціонарний часовий ряд
У стаціонарних часових рядах статистичні властивості, такі як середнє значення, дисперсія та інші, не залежать від часового аспекту. Стаціонарний часовий ряд простіше передбачити, оскільки можна стверджувати, що його статистичні властивості залишаться такими ж, як вони спостерігалися в минулому. Різні статистичні методи прогнозування базуються на тому, що часовий ряд є майже стаціонарним. Тобто, часові ряди можна розглядати як стаціонарні після застосування простих математичних перетворень.
#4. Нестаціонарний часовий ряд
У нестаціонарному ряді статистичні властивості змінюються з часом. Таким чином, часові ряди з трендами або сезонністю належать до категорії нестаціонарних, оскільки тренд та сезонність впливають на значення часових рядів у різні часові інтервали. Нестаціонарні часові ряди описують непередбачувані дані, що ускладнює їх моделювання та прогнозування.
Аналіз та прогнозування часових рядів
Аналіз та прогнозування часових рядів є корисними інструментами для спостереження, аналізу та вивчення еволюції та динаміки різних процесів і об’єктів. Розглянемо їх більш детально.
Аналіз часових рядів
Аналіз часових рядів – це процес аналізу даних, зібраних протягом певного періоду часу. Аналітики даних фіксують дані через рівні інтервали протягом фіксованого періоду часу. Швидкість спостереження даних, тобто інтервал часу, може варіюватися від секунд до років.
Дані часових рядів описують змінні, що перевіряються, забезпечуючи детальний аналіз коливань за певний час. Параметри, необхідні для аналізу, залежать від конкретної галузі. Деякі приклади включають:
- Наукові прилади – дані, що записуються протягом дня
- Комерційний веб-сайт – кількість відвідувань за день
- Фондовий ринок – вартість акцій за тиждень
- Сезон – кількість дощових днів у році
Для забезпечення послідовності та надійності, аналіз часових рядів використовує велику кількість точок даних. Великий розмір вибірки дозволяє точніше визначити тенденції та закономірності.
Аналіз часових рядів також підходить для прогнозування майбутніх подій на основі даних, зібраних у минулому.
Прогнозування часових рядів
Аналіз часових рядів дозволяє організаціям визначати основні причини коливань трендів. Маючи доступні дані, підприємства можуть проводити подальші дослідження для кращого розуміння того, як боротися з незнайомими трендами та прогнозувати майбутні події. Для виявлення аномалій в даних компанії часто використовують методи візуалізації даних.
Прогнозування часових рядів базується на двох важливих факторах:
- Прогнозування майбутніх подій на основі минулих даних.
- Припущення, що майбутні тенденції будуть схожими на моделі минулих даних.
Основною метою прогнозування є передбачення того, як дані залишаться незмінними або зміняться в майбутньому. Нижче наведено кілька прикладів з різних галузей для кращого розуміння аналізу часових рядів і прогнозування.
- Фондовий ринок – Щоденне прогнозування ціни акцій на момент закриття.
- Продажі – Прогнозування щоденних продажів товарів для магазину.
- Ціноутворення – Прогнозування середньої ціни на паливо щодня.
Деякі з поширених статистичних методів, що використовуються для прогнозування часових рядів, включають просте ковзне середнє (SMA), експоненційне згладжування (SES), авторегресійну інтегровану модель ковзного середнього (ARIMA) та нейронні мережі (NN).
Дані часових рядів у хмарі
Щоб повністю розкрити цінність даних часових рядів, підприємства повинні мати можливість швидко зберігати та запитувати дані. Компанії, що працюють на ринках капіталу, використовують великі обсяги історичних і поточних даних для проведення аналізу даних у реальному часі та прийняття ефективних бізнес-рішень. Це може включати прогнозування вразливості цін на акції, визначення вимог до чистого капіталу або прогнозування обмінних курсів. Щоб забезпечити гнучкість і безперебійну обробку даних, багато компаній переносять свої бази даних часових рядів у хмару.
Завдяки перенесенню баз даних у хмару, організації отримують доступ до необмежених ресурсів за потребою. Це дозволяє компаніям використовувати сотні ядер для виконання завдань, що максимізує пропускну здатність мережі без проблем із затримкою.
Бази даних часових рядів у хмарній інфраструктурі підходять для обчислювальних навантажень. Це включає виконання розрахунків ризиків у відповідь на ринкові тенденції в реальному часі. Фінансові компанії можуть відмовитися від витрат на центри обробки даних і зосередитися на використанні ресурсів для підвищення продуктивності своїх робочих навантажень.
Хмарні постачальники, такі як AWS, пропонують Amazon Timestream, сервіс баз даних часових рядів, який дозволяє легко завантажувати, зберігати та аналізувати набори даних. Вони пропонують сховище для управління робочими навантаженнями, пов’язаними з інтенсивними транзакціями, інструменти аналізу в реальному часі та функцію потокового передавання даних для відображення подій, коли вони відбуваються.
Таким чином, хмарна інфраструктура розширює та масштабує переваги даних часових рядів.
Застосування часових рядів
Моделі часових рядів служать двом цілям:
- Розуміння факторів, що лежать в основі конкретної моделі даних.
- На основі аналізу, підбір моделі для прогнозування та моніторингу.
Розглянемо деякі приклади застосування даних часових рядів.
#1. Часові ряди у фінансах та бізнесі
Усі фінансові, бізнес- та інвестиційні рішення приймаються на основі поточних ринкових тенденцій та прогнозів попиту. Дані часових рядів використовуються для пояснення, кореляції та прогнозування динаміки фінансового ринку. Фінансові експерти вивчають фінансові дані, щоб давати прогнози для програм, які допомагають зменшити ризики, стабілізувати ціни та торгівлю.
Аналіз часових рядів відіграє ключову роль у фінансовому аналізі. Він використовується для прогнозування процентних ставок, волатильності на фондових ринках та іншого. Зацікавлені сторони бізнесу та політики можуть приймати обґрунтовані рішення щодо виробництва, закупівель, розподілу ресурсів та оптимізувати свої бізнес-операції.
Цей аналіз ефективно використовується в інвестиційному секторі для моніторингу ставок безпеки та їх коливань з часом. Ціна безпеки може спостерігатися як у короткостроковій перспективі (тобто запис даних щогодини або щодня), так і в довгостроковій перспективі (тобто спостереження протягом місяців або років). Аналіз часових рядів є корисним інструментом для відстеження ефективності безпеки, активу або економічної змінної протягом тривалого періоду часу.
#2. Часові ряди в медицині
Охорона здоров’я швидко стає галуззю, що керується даними. Окрім фінансового та бізнес-аналізу, сфера медицини значною мірою використовує аналіз часових рядів.
Розглянемо приклад, який потребує синергії даних часових рядів, медичних процедур та методів інтелектуального аналізу даних під час лікування хворих на рак. Така гібридна структура може бути використана для вилучення ознак зі зібраних даних часового ряду (тобто рентгенівських зображень пацієнта) для відстеження прогресу пацієнта та його реакції на лікування.
В медичній сфері отримання висновків з даних часових рядів, які постійно змінюються, є критично важливим. Записи пацієнтів з часом з’єднуються для кращого розуміння стану їхнього здоров’я. Крім того, параметри здоров’я пацієнта повинні реєструватися через регулярні проміжки часу, щоб мати чітке уявлення про його стан.
З появою передових медичних інструментів аналіз часових рядів зарекомендував себе в галузі охорони здоров’я. Розгляньте такі приклади:
- Пристрої ЕКГ: пристрої, розроблені для моніторингу стану серця шляхом реєстрації електричних імпульсів.
- ЕЕГ пристрої: пристрої, що використовуються для кількісного визначення електричної активності мозку.
Ці пристрої дозволяють лікарям проводити аналіз часових рядів для швидшої, ефективнішої та точнішої діагностики.
Крім того, з появою пристроїв Інтернету речей, таких як переносні датчики та портативні медичні пристрої, люди можуть проводити регулярні вимірювання своїх параметрів здоров’я з плином часу, що призводить до узгодженого збору медичних даних як для хворих, так і для здорових.
#3. Часові ряди в астрономії
Астрономія та астрофізика — це сучасні дисципліни, де широко використовуються дані часових рядів.
Астрономія передбачає побудову траєкторій космічних об’єктів і небесних тіл та виконання точних вимірювань для кращого розуміння Всесвіту за межами Землі. Тому астрономічні експерти вміють працювати з даними часових рядів під час калібрування та налаштування складних інструментів та вивчення цікавих астрономічних об’єктів.
Дані часових рядів давно використовуються в астрономії. У 800 році до нашої ери дані про сонячні плями збиралися через регулярні проміжки часу. З тих пір аналіз часових рядів використовується для:
- Відкриття далеких зірок на основі їх відстаней.
- Спостереження за космічними подіями, такими як наднові, для кращого розуміння походження Всесвіту.
Дані часових рядів у цьому випадку стосуються довжин хвиль та інтенсивності світла, що випромінюється зірками, небесними тілами або об’єктами. Астрономи постійно відстежують ці дані для виявлення космічних подій у реальному часі.
Останнім часом з’явилися такі галузі досліджень, як астроінформатика та астростатистика, які поєднують різні дисципліни, такі як інтелектуальний аналіз даних, машинне навчання, обчислювальний інтелект і статистика. У цих нових сферах досліджень роль даних часових рядів полягає у швидкому та ефективному виявленні та класифікації астрономічних об’єктів.
#4. Часові ряди у прогнозуванні погоди
Арістотель ретельно вивчав погодні умови для кращого розуміння причин та наслідків змін погоди. Згодом вчені почали записувати дані про погоду за допомогою таких інструментів, як “барометр”, для обчислення атмосферних змінних. Дані збиралися через регулярні проміжки часу та зберігалися в різних місцях.
З часом прогнози погоди з’явилися в газетах. Сьогодні, погодні станції встановлені в різних географічних регіонах світу для збору точних даних про погодні зміни.
Ці станції мають передові пристрої, які взаємопов’язані для збору та кореляції даних про погоду з різних місць. Зібрані дані використовуються для прогнозування погодних умов залежно від потреби.
#5. Часові ряди для розвитку бізнесу
Дані часових рядів дозволяють підприємствам приймати бізнес-рішення. Це досягається завдяки аналізу минулих даних для виявлення майбутніх подій та можливостей. Шаблон минулих даних використовується для отримання таких параметрів:
- Зростання бізнесу: для оцінки загальних фінансових та ділових показників та вимірювання зростання дані часових рядів є надійним активом.
- Оцінка тенденцій: для оцінки нових тенденцій використовуються різні методи часових рядів. Наприклад, аналіз даних спостережень за певний період часу для відображення збільшення чи зменшення продажів певного електронного пристрою.
- Відкриття сезонних закономірностей: записані точки даних можуть виявити коливання та сезонні закономірності, які допомагають у прогнозуванні даних. Отримана інформація відіграє ключову роль на ринках, де ціни на товари коливаються сезонно. Такі дані допомагають підприємствам у плануванні та розробці продукції.
Висновок 👨🏫
Отже, дані часових рядів – це характеристики складних точок даних, зібраних протягом певного періоду часу. Аналіз, моделювання та прогнозування часових рядів стали невід’ємною частиною нашого повсякденного життя з появою пристроїв IoT, розумної побутової техніки та портативних пристроїв. Дані часових рядів використовуються в різних сферах, включаючи охорону здоров’я, астрофізику, економіку, інженерію, бізнес та багато інших.