Що, як і чому [+ 5 Learning Resources]

| | 0 Comments| 10:49 AM
Categories:

Перевірка гіпотез — це метод, який використовують багато аналітиків у приватному та державному секторах для створення ймовірних тверджень або припущень щодо даних про населення.

Якщо ви мали справу з даними про населення або вивчали їх, ви напевно стикалися з цим життєво важливим інструментом для перевірки гіпотез.

Щоб зробити припущення, можна використовувати багато методів, але не всі забезпечують більшу точність.

І якщо ви не впевнені у своїх даних, але все одно хочете їх використовувати, це може бути ризиковано для вашої організації.

Перевірка гіпотез є хорошою стратегією для досягнення більш високого рівня точності. Він відіграв важливу роль у аналізі населення.

У цій статті я розповім, що таке перевірка гіпотез, як вона працює, її переваги та випадки використання.

Отже, без зайвих слів, почнемо!

Що таке перевірка гіпотез?

Перевірка гіпотези — це метод статистичного висновку, який використовують аналітики, щоб перевірити, чи достатньо наявні дані про сукупність підтверджують певну гіпотезу, і зробити на основі неї припущення.

За допомогою цього методу аналітики можуть легко оцінити гіпотезу та визначити, наскільки точним є припущення на основі наявних даних.

Простими словами, це процес тестування, заснований на статистичних висновках, який дозволяє винести вердикт щодо даних про населення на основі зібраних вибіркових даних.

Загалом аналітикам майже неможливо знайти властивості чи будь-який окремий параметр усієї сукупності. Але завдяки перевірці гіпотез ви можете зробити обґрунтований прогноз і прийняти рішення на основі вибіркових даних і їх точності.

Види перевірки гіпотези

Різні типи перевірки гіпотез:

  • Нульова гіпотеза: статистика показує, що дані вибірки є різкими, і немає кореляції між двома змінними в наведених даних вибірки.
  • Альтернативна гіпотеза: вона демонструє первинну тезу та протистоїть нульовій гіпотезі. Це головна рушійна сила в процесі тестування, оскільки вона показує кореляцію між двома змінними у вибіркових даних.
  • Неспрямована гіпотеза: цей тип перевірки гіпотези служить двосторонньою гіпотезою. Він показує, що немає напрямку між двома змінними у вибіркових даних і що справжнє значення не збігається з прогнозованим значенням.
  • Спрямована гіпотеза: Спрямована гіпотеза описує певний зв’язок між двома змінними. Тут одна змінна у вибірці даних може впливати на інші змінні.
  • Статистична гіпотеза: допомагає аналітикам оцінити, чи дані та значення задовольняють певну гіпотезу. Це дуже корисно для створення тверджень і припущень щодо результату параметра вибіркової сукупності.

Далі обговоримо методи перевірки гіпотези.

Методи перевірки гіпотез

Для того, щоб оцінити, чи є конкретна гіпотеза вірною чи ні, вам як аналітику знадобиться багато правдоподібних доказів, щоб зробити висновок. У цьому процесі тестування перед початком оцінювання встановлюється нульова та альтернативна гіпотеза.

Перевірка гіпотез включає не лише один метод, а багато методів, щоб оцінити, чи вибіркові дані є сприятливими. Як аналітик, ви повинні розглянути дані та розмір вибірки та вибрати, який метод перевірки гіпотез вам підходить.

  Як захистити себе від атаки Pharming

Тестування нормальності

Це стандартний метод перевірки гіпотез для аналізу регулярного розподілу у вибіркових даних. У процесі тестування перевіряється, чи згруповані точки даних навколо середнього значення нижче або вище середнього.

У цьому статистичному тестуванні ймовірність того, що бали піднімуться вище або нижче середнього, однаково ймовірна. Утворюється дзвоноподібна крива, яка однаково розподілена по обидва боки від середнього.

Тестування Z-тесту

Це ще один тип перевірки гіпотез, який використовується, коли дані про населення розподілені нормально. Він перевіряє, що середнє значення двох окремих параметрів генеральної сукупності відрізняється, коли вам відома дисперсія даних.

Під час аналізу даних сукупності дуже ймовірно, що ви будете використовувати цей тип, якщо розмір вибірки даних перевищує тридцять. Крім того, центральна гранична теорема є ще однією причиною, яка робить Z-тест придатним, оскільки теорема стверджує, що коли розміри вибірки збільшуються, вибірки розподіляються нормально.

Т-тест Тестування

Перевірка гіпотез T-Test буде використовуватися вами, коли розмір вибірки обмежений і зазвичай розподілений. Загалом, коли розмір вибірки менше 30, а стандартне відхилення параметра вам невідоме, воно в основному застосовується.

Коли ви виконуєте T-тест, ви робите це для обчислення довірчих інтервалів конкретних даних про сукупність.

Тест хі-квадрат

Тест хі-квадрат — це популярний процес перевірки гіпотез, який часто використовують для оцінки придатності та цілісності розподілу даних.

Джерело: wikipedia.org

Однак основна причина, чому ви будете використовувати цей тип гіпотези, це коли ви хочете перевірити дисперсію генеральної сукупності проти дисперсії генеральної сукупності припущеного або відомого значення. Проводяться різні тести хі-квадрат, але найпоширенішим типом є тест дисперсії та незалежності хі-квадрат.

Тестування ANOVA

Скорочено, як дисперсійний аналіз, це метод статистичного тестування, який допомагає порівняти набори даних двох вибірок. Однак це дозволяє порівнювати більше ніж два засоби одночасно.

Він також пояснює залежну змінну та незалежну змінну вибіркових даних. Використання дисперсійного аналізу схоже на використання Z-тестів і Т-тестів, але останні два обмежені лише двома засобами.

Як працює перевірка гіпотез?

Кожен аналітик, який використовує перевірку гіпотез, використовує дані випадкової вибірки для аналізу та вимірювання. Під час тестування дані випадкової вибірки використовуються для перевірки нульової гіпотези та альтернативної гіпотези.

Як ми обговорювали раніше, нульова гіпотеза та альтернативна гіпотеза повністю виключають одна одну, і під час тестування лише одна може бути вірною.

Однак є деякі випадки, коли нульова гіпотеза відхиляється; альтернативна гіпотеза не завжди вірна.

Джерело: Analytics Steps

p-value: коли починається процес тестування, p-value або значення ймовірності бере участь, і воно показує, чи є результат значущим чи ні. Крім того, p-значення також показує ймовірність виникнення помилки під час відхилення або неспростування нульової гіпотези під час перевірки. Отримане значення p дорівнює 0 або 1, яке потім порівнюється з рівнем значущості або альфа-рівнем.

Рівень значущості тут визначає прийнятний ризик при відхиленні нульової гіпотези під час перевірки. Важливо пам’ятати, що результат перевірки гіпотези може призвести до двох типів помилок:

  • Помилка типу 1 виникає, коли результат тесту відхиляє нульову гіпотезу, навіть якщо вона істинна.
  • Помилка типу 2 з’являється, коли нульова гіпотеза приймається результатом вибірки, незважаючи на те, що вона хибна.
  Перевірте, наскільки повільно працює ваш пристрій

Усі значення, які викликають відхилення нульової гіпотези, зберігаються в критичній області. І саме критичне значення відокремлює критичні регіони від інших.

Кроки для виконання перевірки гіпотези

Джерело: Medium

Перевірка гіпотези в основному включає чотири етапи:

  • Визначте гіпотези: на першому кроці ваша робота як аналітика полягає в тому, щоб визначити дві гіпотези так, щоб тільки одна могла бути істинною. Нульова гіпотеза вказуватиме на відсутність різниці в середньому ІМТ, тоді як альтернативна гіпотеза стверджуватиме, що існує значна різниця в середньому ІМТ.
  • План: на наступному кроці вам потрібно буде розробити план аналізу того, як можна аналізувати вибіркові дані. Важливо, щоб ви проводили вибірку та збирали вибіркові дані, щоб переконатися, що вони призначені для перевірки вашої гіпотези.
  • Аналіз зразків даних: Вирішивши, як ви будете оцінювати дані, настав час розпочати процес. Вам доведеться фізично проаналізувати зразки даних, щоб не було надмірності. Аналізуючи дані, ви повинні переконатися, що вибірки незалежні одна від одної та що обидва розміри вибірки достатньо великі.
  • Обчислити статистику тесту: на цьому етапі вам потрібно буде обчислити статистику тесту та знайти значення p. P-значення буде визначено, припускаючи, що нульова гіпотеза вірна.
  • Оцініть результат: на останньому етапі вам потрібно буде оцінити результат перевірки гіпотези. Тут ви вирішуєте, відхилити нульову гіпотезу чи заявити про її правдоподібність на основі вибіркових даних.

Тепер ми дослідимо переваги перевірки гіпотез.

Переваги перевірки гіпотез

Переваги перевірки гіпотез:

  • Це допоможе вам проаналізувати силу вашої претензії щодо рішення щодо даних.
  • Як аналітику, це дозволяє створити надійне середовище для прийняття рішень щодо вибіркових даних.
  • Це дозволяє визначити, чи вибіркові дані, задіяні в перевірці гіпотез, є статистично значущими.
  • Це корисно для оцінки надійності та валідності результатів тестування в будь-якому процесі систематичного тестування.

Це допоможе вам екстраполювати дані зі стадії вибірки на більшу сукупність залежно від вимог.

Випадки використання перевірки гіпотез

Перевірка гіпотез використовується в різних секторах, щоб належним чином визначити точність вибіркових даних. Деякі приклади перевірки гіпотез у реальному світі:

#1. Клінічні випробування

Перевірка гіпотез широко використовується під час клінічних випробувань, оскільки вона допомагає медичним працівникам вирішити, чи буде новий препарат, лікування або процедура ефективним чи ні на основі вибіркових даних.

Лікар може подумати, що лікування може знизити рівень калію у деяких пацієнтів. Лікар може виміряти рівень калію у групи пацієнтів перед початком лікування та перевірити рівень ще раз.

Далі лікар проводить перевірку гіпотези, де H0: Uпісля = Uперед, і це означає, що рівень калію такий самий, як і раніше, після застосування лікування. Інша гіпотеза вказує на те, що Ha: Uпісля

Отже, якщо значення p менше рівня значущості, лікар може зробити висновок, що лікування може знизити рівень калію.

#2. Виробництво

Перевірка гіпотез використовується на виробничих підприємствах, щоб допомогти керівникам вирішити, чи є новий метод чи техніка ефективними чи ні.

Наприклад, деякі виробничі підрозділи можуть використовувати перевірку гіпотез, щоб визначити, чи допомагає їм новий метод зменшити кількість дефектних продуктів на партію. Припустимо, кількість бракованих виробів становить 300 на партію.

  Апаратні ключі безпеки постійно відкликаються; Чи безпечні вони?

Виробник повинен визначити середнє значення для загальної кількості бракованих виробів, вироблених до та після використання методу. Вони можуть виконувати перевірку гіпотез і використовувати гіпотези H0: Uпісля = Uперед, де середнє значення бракованих продуктів, вироблених після застосування нового методу, таке ж, як і раніше.

Інша гіпотеза показує, що HA: Uafter не дорівнює Ubefore, тобто загальна кількість бракованих продуктів, вироблених після застосування нового методу, неоднакова.

Після тесту, коли p-значення менше рівня значущості, виробничий підрозділ може зробити висновок, що кількість вироблених дефектних продуктів змінилася.

#3. Сільське господарство

Перевірка гіпотез часто використовується, щоб з’ясувати, чи добриво чи пестицид спричиняють ріст та імунітет рослин. Біологи можуть використовувати тестування, щоб довести, що певна рослина може вирости більше ніж на 15 дюймів після застосування нового добрива.

Біолог може застосовувати добриво протягом одного місяця, щоб зібрати зразки даних. Коли біолог проводить тест, однією з гіпотез є H0 U=15 дюймів, яка вказує на те, що добриво не спричиняє підвищення середнього росту рослини.

Інша гіпотеза показує, що HA: U> 15 дюймів, тобто добрива спричиняють підвищення середнього росту рослини. Після тестування, коли p-значення менше рівня значущості, біолог тепер може довести, що добрива викликають більше зростання, ніж раніше.

Навчальні ресурси

#1. Статистика: покроковий вступ від Udemy

Udemy пропонує курс зі статистики, у якому ви крок за кроком дізнаєтесь про статистику, охоплюючи перевірку гіпотез. Цей курс містить приклади та уроки колишнього спеціаліста з обробки даних Google, які допоможуть вам освоїти довірчі інтервали, перевірку гіпотез тощо.

#2. Основна статистика для аналізу даних Udemy

Цей курс Udemy про основну статистику для аналізу даних допоможе вам вивчити статистику за допомогою реальних проектів, розважальних заходів, перевірки гіпотез, розподілу ймовірностей, регресійного аналізу тощо.

#3. Статистика для науки про дані та бізнес-аналізу

Цей курс зі статистики для науки про дані та бізнес-аналізу пропонує Udemy, який допоможе вам навчитися перевіряти гіпотези. Він охоплює різні теми статистики, що дає змогу фахівцям із обробки даних і бізнес-аналітикам вивчати та опанувати їх. Він охоплює інференційну та описову статистику, а також регресійний аналіз.

#4. Перевірка гіпотези Джима Фроста

Ця книга доступна на Amazon і є інтуїтивно зрозумілим посібником, який допоможе аналітикам приймати рішення на основі даних.

Він охоплює роботу з перевіркою гіпотез, навіщо вони потрібні, як ефективно використовувати довірчі інтервали, p-значення, рівні значущості та багато інших тем.

#5. Перевірка гіпотези Скотта Хартсхорна

Ця книга унікальна завдяки своїм наочним прикладам і найкраще підходить для початківців, які шукають короткий посібник із перевірки гіпотез.

Він познайомить вас із значенням статистичних даних, типами та їх роботою. Він не вимагає від вас попередніх глибоких знань зі статистики, але все пояснює інтуїтивно.

Заключне слово

Перевірка гіпотези допомагає перевірити припущення, а потім розробити статистичні дані на основі оцінки. Він використовується в багатьох секторах, від виробництва та сільського господарства до клінічних випробувань та ІТ. Цей метод не тільки точний, але й допомагає вам приймати рішення на основі даних для вашої організації.

Далі перегляньте навчальні ресурси, щоб стати бізнес-аналітиком.