Як сховища даних – це майбутнє сховищ даних[+5 Learning Resources]

Зміст

Зі зростанням обсягів даних, які генерують компанії, традиційні підходи до управління сховищами даних стають дедалі складнішими та витратнішими. Data Vault, відносно новий метод, пропонує рішення цієї проблеми, забезпечуючи масштабований, гнучкий та економічно вигідний спосіб обробки великих масивів інформації.

У цій статті ми розглянемо, чому Data Vaults вважаються майбутнім сховищ даних і чому все більше організацій переходять на цей підхід. Ми також надамо ресурси для навчання тим, хто хоче глибше вивчити цю тему!

Що таке Data Vault?

Data Vault — це техніка моделювання сховищ даних, яка відмінно підходить для гнучких середовищ. Вона пропонує значну гнучкість для розширень, повну історизацію даних та можливість паралельної обробки завантаження даних. Ден Лінстедт розробив модель Data Vault в 1990-х роках.

Після першої публікації у 2000 році, вона привернула більшу увагу в 2002 році завдяки серії статей. У 2007 році Лінстедт отримав підтримку Білла Інмона, який назвав це «оптимальним вибором» для своєї архітектури Data Vault 2.0.

Будь-хто, хто працює з концепцією agile data warehouse, неминуче зіткнеться з Data Vault. Особливістю цієї технології є її орієнтація на потреби компаній, забезпечуючи гнучку та легку адаптацію сховища даних.

Data Vault 2.0 розглядає весь процес розробки та архітектури, включаючи методи компонентів, архітектуру та модель. Перевагою такого підходу є врахування всіх аспектів бізнес-аналітики з базовим сховищем даних на етапі розробки.

Модель Data Vault пропонує сучасне рішення для подолання обмежень традиційних підходів до моделювання даних. Завдяки масштабованості, гнучкості та адаптивності, вона створює надійну основу для побудови платформи даних, здатної обробляти складність та різноманітність сучасних інформаційних середовищ.

Архітектура хабу Data Vault та поділ сутностей та атрибутів забезпечують інтеграцію та гармонізацію даних з різних систем і доменів, сприяючи поступовому та гнучкому розвитку.

Ключова роль Data Vault у створенні платформи даних полягає у встановленні єдиного джерела достовірної інформації. Уніфіковане представлення даних та підтримка збору й відстеження історичних змін за допомогою сателітних таблиць забезпечують відповідність вимогам, аудит, нормативні вимоги, а також комплексний аналіз і звітність.

Можливості інтеграції даних Data Vault практично в режимі реального часу за допомогою дельта-завантаження полегшують обробку великих обсягів даних у швидкозмінних середовищах, таких як програми Big Data та IoT.

Data Vault проти традиційних моделей сховищ даних

Третя нормальна форма (3NF) є однією з найбільш відомих традиційних моделей сховищ даних, яка часто застосовується у великих проектах. Вона відповідає ідеям Білла Інмона, одного з “батьків” концепції сховищ даних.

Архітектура Інмона базується на реляційній моделі бази даних і усуває надмірність даних, розбиваючи джерела даних на менші таблиці, які зберігаються у вітринах даних і з’єднуються між собою за допомогою первинних і зовнішніх ключів. Це забезпечує узгодженість і точність даних, дотримуючись правил цілісності посилань.

Метою нормальної форми було створення комплексної моделі даних для всієї компанії для основного сховища; однак вона має проблеми з масштабованістю та гнучкістю через тісно пов’язані вітрини даних, труднощі з завантаженням у режимі реального часу, трудомісткі запити та низхідний підхід до дизайну та впровадження.

Модель Кімбала, яка використовується для OLAP (онлайн-аналітичної обробки) та вітрин даних, є ще однією поширеною моделлю, в якій таблиці фактів містять агреговані дані, а таблиці вимірів описують збережені дані у схемі “зірка” або “сніжинка”. У цій архітектурі дані організовані в таблиці фактів і вимірів, які денормалізовані для спрощення запитів та аналізу.

Модель Кімбала орієнтована на аналітичні запити та звіти, що робить її ідеальною для програм бізнес-аналітики. Проте, вона має проблеми з ізоляцією інформації за предметними областями, надмірністю даних, несумісними структурами запитів, проблемами масштабування, непослідовною деталізацією таблиць фактів, проблемами синхронізації та необхідністю проектування згори вниз з реалізацією знизу вгору.

На відміну від цього, архітектура сховища даних є гібридним підходом, який поєднує елементи 3NF та архітектур Кімбала. Це модель, що базується на реляційних принципах, нормалізації даних і математиці надмірності, яка по-іншому представляє зв’язки між об’єктами та структурує поля таблиць та позначки часу.

У цій архітектурі всі дані зберігаються в сховищі необроблених даних або озері даних, тоді як часто використовувані дані зберігаються в нормалізованому форматі в бізнес-сховищі, яке містить історичні та контекстно-залежні дані, що використовуються для звітування.

Data Vault вирішує проблеми традиційних моделей, будучи більш ефективним, масштабованим та гнучким. Він забезпечує завантаження майже в реальному часі, покращену цілісність даних та легке розширення без впливу на існуючі структури. Модель також можна розширити без перенесення існуючих таблиць.

Підхід до моделювання	Структура даних	Підхід до проектування
3NF	Таблиці моделювання в 3NF	Bottom-up
Kimbal Modeling	Схема зірки або Сніжинка	Зверху-вниз
Data Vault	Hub-and-Spoke	Bottom-up

Архітектура сховища даних

Data Vault має архітектуру “hub and spoke” і складається з трьох основних рівнів:

Проміжний рівень: збирає необроблені дані з вихідних систем, таких як CRM або ERP

Рівень сховища даних: у моделі сховища даних цей рівень включає:

Raw Data Vault: зберігає необроблені дані.
Business Data Vault: містить узгоджені та трансформовані дані на основі бізнес-правил (необов’язково).
Metrics Vault: зберігає інформацію про час виконання (необов’язково).
Operational Vault: зберігає дані, що надходять безпосередньо з операційних систем у сховище даних (необов’язково).

Рівень Data Mart: цей рівень моделює дані як зіркову схему та/або інші методи моделювання. Він надає інформацію для аналізу та звітності.

Джерело зображення: Lamia Yessad

Data Vault не потребує зміни архітектури. Нові функції можна розробляти паралельно безпосередньо за допомогою концепцій та методів Data Vault, при цьому існуючі компоненти не втрачаються. Фреймворки можуть значно спростити роботу: вони створюють прошарок між сховищем даних та розробником, зменшуючи складність реалізації.

Компоненти Data Vault

Під час моделювання Data Vault поділяє всю інформацію, що належить до об’єкта, на три категорії – на відміну від класичного моделювання третьої нормальної форми. Ця інформація зберігається строго окремо. Функціональні області можна представити в Data Vault у вигляді хабів, посилань і сателітів:

#1. Хаби

Хаби є ядром основних бізнес-концепцій, таких як клієнт, постачальник, продаж або продукт. Таблиця хабу формується навколо бізнес-ключа (назва магазину або розташування), коли новий екземпляр цього бізнес-ключа вперше вводиться в сховище даних.

Хаб не містить описової інформації та FK. Він складається лише з бізнес-ключа зі згенерованою в сховищі послідовністю ідентифікаторів або хеш-ключів, позначки дати/часу завантаження та джерела запису.

#2. Посилання

Посилання встановлюють зв’язки між бізнес-ключами. Кожен запис у посиланні моделює nm зв’язків між будь-якою кількістю хабів. Це дозволяє сховищу даних гнучко реагувати на зміни в бізнес-логіці вихідних систем, такі як зміни в кількості зв’язків. Як і хаб, посилання не містить описової інформації. Воно складається з ідентифікаторів послідовності хабів, на які воно посилається, ідентифікатора послідовності, створеного складом, позначки дати/часу завантаження та джерела запису.

#3. Сателіти

Сателіти містять описову інформацію (контекст) для бізнес-ключа, що зберігається в хабі, або зв’язку, що зберігається в посиланні. Сателіти працюють за принципом “лише вставка”, тобто повна історія даних зберігається в сателіті. Кілька сателітів можуть описувати один бізнес-ключ (або зв’язок). Однак сателіт може описати лише один ключ (хаб або посилання).

Джерело зображення: Carbidfischer

Як створити модель сховища даних

Створення моделі Data Vault складається з кількох етапів, кожен з яких є важливим для забезпечення масштабованості, гнучкості та відповідності моделі потребам бізнесу.

#1. Визначте сутності та атрибути

Визначте об’єкти та їхні відповідні атрибути. Це передбачає тісну співпрацю зі стейкхолдерами, щоб зрозуміти їхні вимоги та дані, які вони мають отримати. Після визначення цих об’єктів та атрибутів, розділіть їх на хаби, посилання та сателіти.

#2. Визначте зв’язки сутностей та створіть посилання

Після визначення сутностей та атрибутів, визначаються зв’язки між сутностями та створюються посилання для представлення цих зв’язків. Кожному посиланню призначається бізнес-ключ, який визначає зв’язок між сутностями. Потім додаються сателіти для фіксації атрибутів та зв’язків об’єктів.

#3. Встановіть правила та стандарти

Після створення посилань, необхідно встановити набір правил та стандартів моделювання сховищ даних, щоб забезпечити гнучкість моделі та її здатність обробляти зміни з часом. Ці правила та стандарти слід регулярно переглядати та оновлювати, щоб вони залишалися актуальними та відповідали потребам бізнесу.

#4. Заповніть модель

Після створення моделі, її потрібно заповнити даними за допомогою підходу поступового завантаження. Це передбачає завантаження даних у хаби, посилання та сателіти за допомогою дельта-завантажень. Дельта-завантаження гарантує, що завантажуються лише зміни, внесені до даних, що зменшує час та ресурси, необхідні для інтеграції даних.

#5. Випробуйте та перевірте модель

Нарешті, модель має бути перевірена та підтверджена, щоб переконатися, що вона відповідає бізнес-вимогам і є достатньо масштабованою та гнучкою для обробки майбутніх змін. Слід проводити регулярне технічне обслуговування та оновлення, щоб гарантувати, що модель залишається узгодженою з потребами бізнесу та продовжує надавати уніфіковане уявлення про дані.

Навчальні ресурси Data Vault

Опанування Data Vault може надати цінні навички та знання, які є дуже затребуваними в сучасних галузях, де керують даними. Ось вичерпний перелік ресурсів, включаючи курси та книги, які можуть допомогти вивчити тонкощі Data Vault:

#1. Моделювання сховища даних за допомогою Data Vault 2.0

Цей курс Udemy є комплексним вступом до моделювання Data Vault 2.0, гнучкого управління проектами та інтеграції великих даних. Курс охоплює основи Data Vault 2.0, включаючи її архітектуру та рівні, бізнес-сховища та інформаційні сховища, а також передові методи моделювання.

Він навчить вас створювати модель Data Vault з нуля, перетворювати традиційні моделі, як-от 3NF, і розмірні моделі в Data Vault, а також зрозуміти принципи розмірного моделювання в Data Vault. Курс вимагає базових знань баз даних та основ SQL.

Завдяки високому рейтингу 4,4 з 5 і понад 1700 відгуків, цей курс є бестселером і підходить для тих, хто хоче побудувати міцну основу для Data Vault 2.0 та інтеграції Big Data.

#2. Моделювання сховища даних пояснюється випадками використання

Цей курс Udemy націлений на те, щоб допомогти вам створити модель сховища даних на практичному бізнес-прикладі. Він є посібником для початківців з моделювання сховища даних, охоплюючи ключові поняття, такі як відповідні сценарії використання моделей сховища даних, обмеження традиційного моделювання OLAP та систематичний підхід до побудови моделі сховища даних. Курс доступний для осіб з мінімальними знаннями баз даних.

#3. Гуру Data Vault: прагматичний посібник

«Гуру Data Vault» Патріка Куби — це вичерпний посібник з методології сховища даних, що пропонує унікальну можливість моделювати корпоративне сховище даних з використанням принципів автоматизації, аналогічних до тих, що використовуються в розробці програмного забезпечення.

У книзі представлено огляд сучасної архітектури, а потім пропонується докладний посібник щодо того, як створити гнучку модель даних, яка адаптується до змін на підприємстві, сховища даних.

Крім того, книга розширює методологію сховища даних, забезпечуючи автоматизоване корегування часової шкали, журнали аудиту, контроль метаданих та інтеграцію з гнучкими інструментами доставки.

#4. Створення масштабованого сховища даних за допомогою Data Vault 2.0

Ця книга надає читачам вичерпний посібник зі створення масштабованого сховища даних від початку до кінця, використовуючи методологію Data Vault 2.0.

Книга охоплює всі основні аспекти побудови масштабованого сховища даних, включаючи техніку моделювання Data Vault, розроблену для запобігання типових збоїв у сховищі даних.

Книга містить численні приклади, які допомагають читачам чітко зрозуміти концепції. Завдяки практичним ідеям та реальним прикладам, ця книга є важливим ресурсом для всіх, хто цікавиться сховищами даних.

#5. Слон у холодильнику: покрокові кроки до успіху Data Vault

«Слон у холодильнику» Джона Джайлза — це практичний посібник, який допомагає читачам досягти успіху в Data Vault, починаючи з бізнесу та закінчуючи ним.

Книга зосереджується на важливості корпоративної онтології та моделювання бізнес-концепцій, та надає покрокові вказівки щодо застосування цих концепцій для створення надійної моделі даних.

Завдяки практичним порадам і зразкам шаблонів, автор пропонує чітке та зрозуміле пояснення складних тем, що робить книгу чудовим посібником для тих, хто тільки починає знайомитися зі сховищами даних.

Заключні слова

Data Vault є майбутнім сховищ даних, пропонуючи компаніям значні переваги з точки зору гнучкості, масштабованості та ефективності. Він особливо добре підходить для компаній, яким потрібно швидко завантажувати великі обсяги даних, та тих, хто хоче розвивати свої програми бізнес-аналітики гнучким способом.

Крім того, компанії з існуючою силосною архітектурою можуть отримати значну вигоду від впровадження базового сховища даних на першому етапі за допомогою Data Vault.

Вам також може бути цікаво дізнатися про походження даних.