Знайте про основну схему: зірка проти сніжинки

Багатовимірна схема призначена для побудови моделі систем сховища даних.

Основна мета цих схем — задовольнити потреби більших баз даних, створених для аналітичних цілей (OLAP).

Цей метод використовується для впорядкування даних у базі даних із хорошим розташуванням вмісту в базі даних. Схема дозволяє клієнтам задавати питання, пов’язані з бізнесом або ринковими тенденціями.

Крім того, багатовимірна схема представляє дані у формі кубів даних, які дозволяють переглядати та моделювати дані з різних точок зору та вимірів.

Він буває трьох типів, але багато хто плутає зірку і сніжинку. Тому їм стає складно вибрати вподобану модель.

Якщо ви один із них, давайте обговоримо відмінності між схемами зірки та сніжинки, починаючи з визначення та розуміння їхніх переваг, проблем, діаграми та характеристик.

Що таке багатовимірна схема?

Схема відноситься до логічного опису повної бази даних і вітрин даних. Він містить назви записів та їх описи, включаючи агрегати та пов’язані елементи даних.

База даних зазвичай використовує для опису реляційну модель, тоді як система сховища даних використовує модель схеми.

Багатовимірну схему можна визначити за допомогою мови запитів інтелектуального аналізу даних (DMQL).

Для визначення вітрин даних і сховищ даних він використовує два примітиви – визначення розміру та визначення куба.

Багатовимірна схема використовує різні типи моделей схем. Вони є:

  • Зіркова схема
  • Схема сніжинки
  • Схема галактики

Давайте обговоримо, що таке схеми зірок і сніжинок.

Зірка проти Сніжинки: що це?

Що таке зіркова схема?

Зіркова схема — це модель архітектурного сховища даних і бізнес-аналітики, яка потребує єдиної таблиці фактів для зберігання виміряних і транзакційних даних. Він також використовує різні менші розмірні таблиці для зберігання атрибутів бізнес-даних.

Він отримав назву відповідно до своєї структури. Подібно до зірки, таблиця фактів займає своє місце в центрі діаграми, а невеликі розмірні таблиці розташовані як гілки до центральної таблиці, утворюючи зіркоподібну структуру.

Кожна зіркова схема складається з однієї таблиці фактів і кількох таблиць невеликих розмірів. Таблиці фактів містять конкретні вимірювані дані, які потрібно проаналізувати, наприклад зареєстровані результати, фінансові дані або записи про продажі. Це може бути знімок історичних даних за один момент або транзакція.

Крім того, схема Star є найпростішою та найбільш фундаментальною серед схем сховищ даних і вітрин даних. Він ефективний у обробці основних запитів. Зірчаста схема зазвичай підтримує бізнес-аналітику, спеціальні запити, аналітичну програму та онлайн-куби аналітичної обробки.

Зіркова схема також підтримує підрахунок, середнє значення, суму та інші агрегації багатьох записів. Користувачі можуть легко фільтрувати та групувати агрегації за параметрами. Наприклад, користувачі генерують запити на зразок «знайти всі записи про продажі в червні» або «проаналізувати загальний дохід від офісу XYZ у 2022 році».

Що таке схема сніжинки?

Схема сніжинки — це багатовимірна модель даних, яку також можна назвати розширенням схеми зірка. Це тому, що таблиці розмірів у схемі сніжинки розбиваються на підвиміри.

  Отримуйте сповіщення, коли AirPods є в наявності в найближчому магазині Apple

Схема є сніжинкою, якщо одна або більше таблиць вимірів не пов’язані безпосередньо з таблицею фактів, а з’єднані через інші таблиці вимірів.

Сніжинка — це явище, яке нормалізує таблиці розмірів у зірковій схемі. Коли ви нормалізуєте всі таблиці розмірностей, отримана структура нагадує сніжинку, яка містить таблицю фактів у середині структури.

Простіше кажучи, схема сніжинки складається з однієї таблиці фактів у середині моделі, яка з’єднана з таблицями розмірності, які знову пов’язані з іншими таблицями розмірності. Ця схема використовується для підвищення продуктивності запитів.

Модель створено для швидкого й гнучкого створення запитів у складних зв’язках і вимірах. Це корисно для зв’язків один до багатьох і багато до багатьох між різними рівнями вимірів.

Завдяки суворішому дотриманню більшої кількості стандартів нормалізації ви отримаєте більшу ефективність зберігання. Але надлишковість даних незначна, а продуктивність низька порівняно з денормализованими моделями даних, такими як схема зі зіркою.

Зірка проти Сніжинки: як вони працюють?

Як працює зіркова схема?

Таблиця фактів у середині зіркової моделі зберігає два типи інформації – числові значення та значення атрибутів розмірності. Давайте розберемося в них на прикладі бази даних продажів.

  • Числові значення є унікальними для кожного рядка та точки даних. Це не співвідноситься з даними, що зберігаються в іншому рядку. Це факти про певну транзакцію, такі як загальна сума, кількість замовлення, точний час, чистий прибуток, ідентифікатор замовлення тощо.
  • Значення розмірних атрибутів не зберігають дані безпосередньо, вони зберігають значення зовнішнього ключа для рядка в розмірній таблиці. Різні рядки в центральній таблиці посилатимуться на цю інформацію, як-от значення даних, ідентифікатор торгового працівника, ідентифікатор філії, ідентифікатор продукту тощо.

Таблиці розмірів завжди зберігають допоміжну інформацію з таблиці фактів. Кожна розмірна таблиця пов’язана зі стовпцем таблиці фактів разом із розмірним значенням і зберігає додаткові дані про це значення.

Приклад. Таблиця параметрів співробітника використовує ідентифікатор працівника як значення ключа, а також містить інформацію, таку як ім’я, стать, адреса та номер телефону. Подібним чином таблиця розмірів продукту зберігає інформацію, включаючи назву продукту, колір, дату першого надходження на ринок, вартість виробництва тощо.

Як працює схема сніжинки?

Подумайте про дизайн сніжинки з центральною коробкою та різними з’єднаннями через цю коробку з різними точками. Щоб підтримувати вітрини даних і сховища даних, використовується дизайн схеми сніжинки.

Це схоже на зіркову схему, але з мінімальними змінами. На відміну від зіркової схеми, схема сніжинки розширює свої таблиці підрозмірів, які пов’язані з таблицями розмірів.

Основною метою цієї моделі є нормалізація денормализованої інформації зіркової моделі. Таким чином можна вирішити типові проблеми, пов’язані зі зірковою схемою.

В основі схеми ви знайдете таблицю фактів, яка пов’язана з інформацією, що міститься в таблицях розмірів. Ці таблиці знову випромінюються назовні до таблиць підвимірів, які містять детальну інформацію, що описує інформацію таблиці вимірів.

Приклад: схема сніжинки містить таблицю фактів продажів і таблиці параметрів розташування магазину, лінії, сімейства, продукту та часу. Розміри ринку складаються з двох таблиць розмірів, де магазин є основною таблицею розмірів, а розташування магазину – таблицею підвимірів. Розмір продукту містить три таблиці підвимірів, у яких згадується таблиця підвимірів продукту, лінії та родини.

  Як запланувати зустріч у Google Meet

Зірка проти Сніжинки: Характеристика

Характеристики зіркової схеми

  • Зірчаста схема може фільтрувати дані з нормалізованих даних для задоволення потреб у сховищі даних. Унікальний ключ генерується з пов’язаної інформації для кожної таблиці фактів для ідентифікації кожного рядка.
  • Він забезпечує швидкі обчислення та агрегації, наприклад доходу від отриманого доходу та загальної кількості проданих товарів наприкінці кожного місяця. Ці деталі можна відфільтрувати відповідно до потреб, створивши відповідні запити.
  • Це вимірювання подій, яке включає кінцеві числові значення, що складаються із зовнішнього ключа. Ці ключі пов’язані з розмірними таблицями. Існують різні типи таблиць фактів, які обрамляються значеннями на атомарному рівні.
  • Таблиця фактів транзакцій містить дані про певні події, наприклад розпродажі та свята.
  • Факти запису включають певні періоди, наприклад інформацію про обліковий запис наприкінці року або кожного кварталу.
  • Розмірна таблиця надає детальні дані щодо атрибутів або записів, знайдених у центральній таблиці.
  • Користувач може самостійно спроектувати стіл відповідно до потреб.
  • Ви можете використовувати зіркову схему для накопичення таблиць знімків.

Характеристики схеми сніжинки

  • Схемі сніжинки потрібен невеликий простір на диску.
  • Ця модель проста у виконанні завдяки роздільній і основній таблиці розмірів.
  • Таблиці розмірів містять принаймні два атрибути для визначення інформації в кількох зернах.
  • Через кілька таблиць продуктивність низька порівняно зі зірковою схемою.
  • Схема сніжинки має найвищий рівень цілісності даних і низьку надмірність завдяки нормалізації.

Зірка проти Сніжинки: переваги

Переваги зіркової схеми

  • Зіркова схема є найпростішим способом серед схем вітрин даних.
  • Він має просту логіку звітності. Ця логіка мається на увазі динамічно.
  • Його розроблено з використанням кубів живлення, застосованих через процес онлайн-транзакцій, щоб куби працювали ефективно та ефективно.
  • Зірчаста схема формується за допомогою простої логіки та запитів, які легко витягти з транзакційного процесу.
  • Він пропонує підвищену продуктивність для програм звітування.
  • Його розгортають, щоб контролювати швидке відновлення даних.
  • Відфільтровану та відібрану інформацію можна легко застосувати в різних випадках.

Переваги схеми Snowflake

  • Зірчаста схема використовується для покращення продуктивності запитів завдяки меншим вимогам до пам’яті на диску.
  • Він забезпечує більшу масштабованість у зв’язках між компонентами та рівнями розмірів.
  • Його легше обслуговувати.
  • Зіркова схема забезпечує швидкий пошук даних.
  • Це звичайна та проста схема даних для сховищ даних.
  • Це допомагає підвищити якість даних.
  • Структуровані дані зменшують проблему цілісності даних.

Зірка проти Сніжинки: Обмеження

Обмеження зіркової схеми

Він має високий денормализований стан і стан цілісності. Весь процес згорнеться, якщо користувач не оновить дані. Безпека та захист також обмежені. Крім того, зіркова схема не така гнучка, як аналітична модель. Він не забезпечує ефективної підтримки різноманітних відносин.

Обмеження схеми сніжинки

Основним обмеженням, яке ви знайдете у Snowflake, є додаткові зусилля з обслуговування через збільшення кількості таблиць малих розмірів. Багато складних запитів ускладнюють пошук необхідних даних. Крім того, час виконання питання великий через вищі таблиці. Ця модель також жорстка і вимагає більших витрат на обслуговування.

  Як додати ярлик на домашню сторінку Google Chrome

Зірка проти Сніжинки: відмінності

Зірка та сніжинка є типами багатовимірної схеми, але мають різні структури та властивості. Перший схожий на зірку, а другий нагадує сніжинку, що й визначає їхні назви.

У зірковій схемі лише одне об’єднання створює зв’язок між центральною таблицею фактів і бічними таблицями вимірів. З іншого боку, у схемі сніжинки потрібні кілька об’єднань для зв’язування з таблицями розмірів.

Схема зірка зазвичай використовується, коли у вас менше рядків у таблиці розмірності, тоді як схема сніжинки використовується, коли таблиця розмірності відносно велика.

На діаграмі нижче показано різницю між двома моделями та те, як таблиці вимірювань і таблицю фактів пов’язані в різних схемах.

Параметри Star SchemaSnowflake SchemaDisk spaceStar схема використовує більше місця на диску. Схема Snowflake використовує менше дискового простору. Надмірність даних. Вона має високу надлишковість даних. Має низьку надлишковість даних. Нормалізація. Таблиці розмірів денормалізовано, що означає повторення того самого значення в таблиці. Таблиці розмірностей є повністю нормалізовано. Ефективність запиту Для виконання запитів потрібен мінімум часу, що забезпечує кращу продуктивність. Виконання запиту займає більше часу, ніж схема зі зіркою, що робить його менш продуктивним, ніж схема зі зіркою. Складність запитуСкладність запиту низька. Складність запиту вище, ніж схема зірка. ОбслуговуванняЧерез високу надлишковість даних підтримувати схему зірок дещо складно. Через низьку надлишковість даних її легко підтримувати та змінювати схему сніжинки. Цілісність даних Цілісність даних висока, оскільки дані зберігаються надлишково, де кілька копії існують у таблицях розмірності. Цілісність даних низька, оскільки вона повністю нормалізує таблиці розмірності. Ієрархії Ієрархії для таблиць вимірювань у зірковій схемі зберігаються в таблиці розмірів. Ієрархії розділені на окремі таблиці розмірів. Конструкція БД Має простий дизайн БД. Має дуже складний дизайн БД. Таблиця фактівКілька таблиць вимірювань оточують таблицю фактів. Таблиця фактів оточена таблицями розмірів, які також оточені таблицями підвимірів. Схему Set upStar легко розробити та налаштувати, оскільки її представляють прямі зв’язки. З іншого боку, схему сніжинки трохи складніше налаштувати. Обробка куба. Обробка куба швидша. Завдяки складному об’єднанню обробка куба відбувається трохи повільніше. Зовнішні ключі. Він має мінімальну кількість зовнішніх ключів. Він має максимальну кількість зовнішніх ключів.

Висновок

Схеми зірка та сніжинка корисні в різних секторах. Отже, рішення про те, хто з них кращий, ґрунтується на їхніх вимогах.

Схема сніжинки є розширенням схеми зірки, де вона нормалізує таблиці розмірів у схемі зірки.

Зірчаста схема проста за дизайном, виконує запити швидше, а налаштування просте. З іншого боку, схему сніжинки легше підтримувати, вона займає менше місця на диску та менш схильна до проблем цілісності даних.

Отже, зірчаста схема може бути кращим варіантом, якщо вам потрібен простий дизайн, менше зовнішніх ключів і швидша обробка куба. Але якщо вам потрібно менше дискового простору, низька цілісність даних і низькі витрати на обслуговування, схема сніжинки може бути більш підходящою.

Ви також можете дослідити деякі найкращі рішення для баз даних графів.