26 чудових відкритих наборів даних для ваших проектів Data Science/ML

Пошук безкоштовних наборів даних для ваших проєктів

Пошук необхідних масивів інформації може стати справжнім викликом, особливо коли вони потрібні для проєктів у галузі машинного навчання (ML) та аналізу даних. Щоб полегшити ваші пошукові зусилля, ми підготували вичерпний перелік безкоштовних наборів даних.

Набори даних – це, по суті, колекції інформації. Це можуть бути фінансові звіти, відомості про стан здоров’я населення, дані фондових ринків, банківська інформація, географічні дані, результати досліджень елементарних частинок, відгуки про товари в інтернет-магазинах тощо.

Набори даних містять інформацію, зібрану за певними науковими стандартами, і є важливими для подальшої візуалізації, аналізу, прогнозування та інших операцій. Оскільки дані є своєрідною “сирою нафтою” цифрового світу, набори даних набувають комерційної цінності і можуть бути дефіцитними.

Читайте далі, щоб дізнатися більше про основи роботи з наборами даних. Також ви знайдете добірку відкритих наборів даних, які можна вільно використовувати для ваших проєктів з машинного навчання (ML) або наукових розробок.

Що таке набори даних?

Набір даних – це зібрання інформації, що зберігається у структурованому та організованому вигляді. Зазвичай, дослідники асоціюють набори даних з конкретними джерелами, наприклад, відкритими даними Світового банку.

Крім того, збирачі інформації створюють набори даних, що стосуються певних тематичних областей, таких як дані перепису населення США 2020 року, оприлюднені Бюро перепису населення США.

Існує безліч наборів даних, що охоплюють як глобальні, так і локальні проблеми. Більшість наборів даних містять взаємопов’язані елементи. Наприклад, чисельність населення країни та кореляція між ожирінням та різними соціальними групами.

Фахівцям з аналізу даних може знадобитися очищати, реструктуризувати та обробляти такі набори даних за допомогою інструментів великих даних, щоб отримати цінні висновки, такі як зменшення пластикових відходів шляхом аналізу даних про використання пластику, вирішення проблем з робочою силою через аналіз заробітних плат, розробка штучного інтелекту (ШІ) тощо.

Типи наборів даних

Залежно від джерела, набори даних можуть бути публічними або приватними. Публічні набори даних доступні для всіх і є важливим внеском у науку та розробки.

Також, залежно від інформації, яку вони містять, набори даних можна поділити на такі типи:

  • Багатовимірні: містять кілька змінних.
  • Категорійні: відображають різні групи людей.
  • Числові: дані, що вимірюються в числах, наприклад, вік, зріст тощо.
  • Кореляційні: дані, де елементи взаємопов’язані.
  • Файлові: набори даних, що зберігаються у файлах.
  • Двовимірні: набори даних із двома змінними та зв’язком між ними.
  • Веб-набори даних: інформація, зібрана з одного або кількох інтернет-порталів.
  • Бази даних: набори даних, де інформація зберігається в таблицях, стовпцях і рядках.

Набори даних з відкритим вихідним кодом для проєктів з аналізу даних

Безкоштовні набори даних – це ресурс для тих, хто прагне розвивати кар’єру у сфері аналізу даних. Якщо ви тільки починаєте свій шлях у цій галузі, ви можете працювати над особистими та некомерційними проєктами, щоб набути впевненості та створити портфоліо.

По-перше, ви зможете перевірити свої навички, застосовуючи інструменти та методи до реальних проблем, використовуючи набори даних.

Наприклад, є відкриті дані досліджень раку, дані про COVID-19, дані ФБР про судимості, дані про аналіз частинок з CERN тощо. Ви можете використовувати ці дані для створення моделей аналізу, що дозволяють відповісти на важливі соціальні, економічні та медичні питання.

По-друге, такі проєкти допоможуть вам покращити ваше портфоліо. Якщо ви зможете розробити успішну модель аналізу даних, що надає корисну інформацію, ви зможете продемонструвати свої навички, створивши веб-сайти з портфоліо. Роботодавці більше цінують проєкти, ніж просто заяви про наміри.

Безкоштовні набори даних для проєктів машинного навчання

Так само, як фахівець з аналізу даних, спеціаліст з машинного навчання повинен працювати над самостійними проєктами, щоб оцінити свої навички. Якщо проєкт є успішним, він стане цінним доповненням до вашого онлайн або офлайн портфоліо проєктів ML.

Отже, тепер ви розумієте, що аналіз даних та розвиток машинного навчання залежать від структурованих наборів даних. Якщо б такі набори даних були занадто комерціалізовані, дослідження в галузі аналізу даних стали б повністю корпоративно-орієнтованими.

Щоб зробити наукові дослідження даних ML доступними для всіх, агентства, установи та платформи пропонують безкоштовні набори даних:

Data.gov

На Data.gov ви знайдете всі відкриті дані, які збирає та обробляє уряд США. Платформа також пропонує ресурси та інструменти для проведення досліджень, візуалізації даних, розробки мобільних/веб-застосунків тощо.

Серед відомих наборів даних: інформація про стійке землекористування, дані про сільське житло, внутрішні електронні навігаційні карти тощо.

Відкриті набори даних: Kaggle

Kaggle пропонує велику кількість відкритих даних та комп’ютерних кодів для наукових проєктів. Ви можете знайти набори даних для необробленої інформації та коди для програмування. Популярними наборами даних на Kaggle є дані AMEX, кількість глядачів Сімпсонів, дані для навчання чат-ботів тощо.

Набори даних сегментів: YouTube 8-M

Набори даних сегментів YouTube 8-M містять анотації сегментів, перевірені модераторами. Також можна отримати доступ до набору даних YouTube-8M з того ж порталу. Набір даних включає 6,1 мільйона ідентифікаторів відео, 350 000 годин відео, 2,6 мільярда аудіо/візуальних особливостей, 3863 класи відео та в середньому 3,0 мітки на відео.

Реєстр відкритих даних на AWS

ROD на AWS допомагає дослідникам обмінюватися та знаходити набори даних, розміщені на ресурсах AWS. Серед цікавих наборів даних: Атлас геному раку, набори даних Foldingathome COVID-19, Common Crawl тощо.

Репозиторій машинного навчання: UCI

Репозиторій машинного навчання UCI містить 622 набори даних, придатних для науковців та інженерів ML для навчання їхніх моделей ШІ. Крім того, є пошукова система для зручного перегляду бази даних. Популярні набори даних: Accelerometer, Synchronous Machine, Wikipedia Math Essentials, Turkish Headlines тощо.

Публічні набори даних BigQuery: Google Cloud

BigQuery зберігає велику кількість публічних наборів даних. Google надає безкоштовний доступ до них через програму Google Cloud Public Dataset Program. Однак безкоштовний запит має обмеження в 1 ТБ на місяць. Ви можете використовувати стандартні запити SQL та старі SQL.

Чудові публічні набори даних: GitHub

Awesome Public Datasets – це відкритий репозиторій, що містить публічні дані, згруповані за темами. Зібрані з різних блогів, форумів та відгуків користувачів, він об’єднує безкоштовні та платні набори даних з фізики, спорту, програмного забезпечення, природної мови та машинного навчання.

Дані Світового банку

Відкриті дані Світового банку – це платформа, де ви можете отримати безкоштовний доступ до глобальних даних про розвиток. Тут також є інші корисні ресурси, такі як попередньо відформатовані таблиці та звіти. Ви можете легко шукати інформацію за країною або показником, щоб знайти необхідний набір даних.

FiveThirtyEight: дані

FiveThirtyEight – це американський веб-сайт, що займається аналізом громадської думки, політикою, економікою та спортом. Ви можете отримати доступ до цих опитувань та прогнозів через набори даних на платформі. Ви можете завантажити набори даних в один клік.

ImageNet

ImageNet – це база даних зображень, звідки дослідники з усього світу можуть отримувати відкриті набори даних для своїх некомерційних проєктів. Зображення організовано на основі ієрархії WordNet. Проєкт відіграє важливу роль у дослідженнях глибокого навчання.

Архів наборів даних: ДАНІ ЮНІСЕФ

В Архіві наборів даних можна знайти набори даних, зібрані ЮНІСЕФ по всьому світу. Тут є дані про міграцію, переміщення, харчування, комунікації, освіту, здоров’я, навчання, смертність, насильство, розвиток дітей, дитячі шлюби, дитячу працю та інші статистичні дані.

Знайти відкриті дані: Уряд Великобританії

Якщо для вашого проєкту потрібні дані, опубліковані місцевими органами влади та центральним урядом Великобританії, портал Find Open Data – саме те, що вам потрібно. Він містить дані про державні витрати, бізнес, охорону здоров’я, освіту, оборону та інші галузі.

Дані: Бюро перепису населення США

Потрібні дані перепису населення США для вашого проєкту? Вам допоможе USCB Data. Тут можна досліджувати дані перепису 2020 року, таблиці, карти та профілі даних, візуалізувати інформацію та використовувати інструменти обробки даних.

Дані та статистика: CDC

Федеральне агентство США з контролю та профілактики захворювань також надає безкоштовні набори даних для доступу до інформації та статистики. Тематики наборів даних: стан довкілля, хронічні захворювання, народжуваність, смертність, очікувана тривалість життя, травми та насильство, репродуктивне здоров’я, інфекційні хвороби тощо.

Набори даних: MIT

Цей набір даних зосереджено на інформації про вихрові коливання. Центр океанічної інженерії Массачусетського технологічного інституту надає доступ до загальнодоступних наборів даних для порівняльного аналізу комп’ютерного коду. Набори даних відкриті для всіх, щоб досліджувати нові теорії та співпрацювати з фахівцями, які працюють у цій галузі.

Каталог даних Світового банку

Каталог даних збирає безкоштовні набори даних, що пов’язані з розвитком, і надаються Світовим банком. Їх легко використовувати в різних проєктах, оскільки ви можете легко знайти та завантажити необхідну інформацію. Він містить понад 5000 наборів даних, що охоплюють мікродані, фінанси та енергетичні платформи Світового банку.

Дані NASA Space Science

NASA надає доступ до своїх архівних даних через Координований архів космічних наук. Ця платформа є важливим ресурсом для широкої громадськості, особливо для тих, хто працює у сфері освіти та космічних досліджень. Вона містить 400 ТБ цифрових даних, що містять інформацію про 550 космічних місій.

Отримайте дані: в Airbnb

Airbnb – відома онлайн-платформа для оренди житла. Вона також пропонує збір даних про різні міста світу. Ви можете переглядати дані за містом. Крім того, ви можете запитати необхідні дані та прочитати припущення даних на цьому порталі.

Веб-дані: відгуки Amazon

Для тих, хто цікавиться дослідженням ринку та відгуками про товари, варто використовувати набори даних від Snap Web Data. Він містить понад 34 мільйони відгуків користувачів на Amazon з червня 1995 року по березень 2013 року. Набір даних включає текст відгуків, інформацію про товар, ім’я користувача, рейтинги та сам відгук.

Дані МВФ

Портал даних МВФ є цінним ресурсом для всіх видів економічних та фінансових даних. Незалежно від того, чи шукаєте ви фінансові звіти МВФ, статистичні дані зовнішнього сектора, публікації або мікроекономічні дані, ви знайдете їх тут. Крім того, ви можете використовувати фільтр для пошуку даних за країною.

Google Books Ngrams

Якщо ви досліджуєте мову та її структуру, Google Books Ngrams може бути вам корисним. Цей набір даних з відкритим вихідним кодом надає інформацію про використання певних слів та фраз протягом історії або за певний період часу. Джерелом цього набору даних є оцифровані документи Google.

Ринкові дані: The Financial Times

Якщо вам потрібні достовірні дані про глобальні та регіональні ринки акцій, Markets Data від The Financial Times стане в нагоді. Він дозволяє працювати з ринковою інформацією з Америки, Азіатсько-Тихоокеанського регіону, Європи, Африки та світового ринку.

Дані Землі: НАСА

NASA надає повний і відкритий доступ до своїх наукових даних через програму Earth Data, що допомагає вам вивчати нашу планету. Ви можете знайти безкоштовні набори даних про атмосферу, біосферу, кріосферу, антропогенний вплив, поверхню суші, океан, геологію, взаємодію Сонця та Землі та гідросферу планети.

Пошук наборів даних: Google

Якщо ви студент, дослідник або аналітик даних, що шукає набори даних для проєкту, скористайтеся порталом пошуку наборів даних. Його можна назвати пошуковою системою для наборів даних, оскільки він допомагає знаходити їх за допомогою ключових слів.

Відкриті дані: CERN

Європейська дослідницька організація CERN має портал відкритих даних, де ви можете знайти інформацію, отриману в результаті досліджень в CERN. Цей портал набору даних містить два петабайти даних, пов’язаних з фізикою елементарних частинок. Також додаються необхідні додатки та документація для аналізу даних.

Дослідник даних про злочини: ФБР

Crime Data Explorer (CDE) – це відкритий набір даних від ФБР, що має на меті спростити доступ до кримінальної, некримінальної та правоохоронної інформації. Завдяки візуалізації та фільтрації категорій, ви можете легко знайти необхідні дані та завантажити їх у форматі CSV.

Насамкінець

Ви ознайомилися з вичерпним переліком якісних наборів даних. У статті представлені дані з різних галузей, таких як фізичні науки, медичні записи, дослідження космосу, судимості, відгуки про товари тощо.

Залежно від проєкту з аналізу даних або машинного навчання, ви можете зробити свій вибір. Майже всі набори даних також мають відповідні інструкції, що допоможуть вам у роботі над проєктом.

Також вас можуть зацікавити ці ресурси для вивчення аналізу даних та машинного навчання.