26 чудових відкритих наборів даних для ваших проектів Data Science/ML

Пошук потрібних наборів даних може бути непростим, особливо коли вони потрібні для проектів машинного навчання (ML) і науки про дані. Ми зменшуємо ваші дослідницькі зусилля, надаючи повний список безкоштовних наборів даних.

Набори даних — це просто колекції даних. Це можуть бути фінансові дані, дані про стан здоров’я громади, дані фондового ринку, банківські дані, географічні дані, дані дослідження елементарних частинок, рейтинги продуктів на сайті електронної комерції тощо.

Набори даних містять дані, зібрані за допомогою стандарту наукових досліджень, і важливі для подальшої візуалізації, видобутку, прогнозування тощо. Оскільки дані є еквівалентом сирої нафти в цифровому всесвіті, набори даних стають комерційними та дефіцитними.

Продовжуйте читати, щоб дізнатися основи про набори даних. Ви також знайдете деякі набори даних з відкритим кодом, які дійсно безкоштовні для ваших проектів машинного навчання (ML) або наукових проектів.

Що таке набори даних?

Набори даних — це сукупність даних у структурованому та організованому контейнері. Зазвичай геодезисти пов’язують набори даних з унікальним тілом, наприклад, відкритими даними Світового банку.

Знову ж таки, збирачі даних зберігають набори даних, що стосуються такої теми, як дані перепису населення Сполучених Штатів Америки 2020 року, опубліковані Бюро перепису населення США.

Ви знайдете багато наборів даних про глобальні та локальні проблеми. Більшість наборів даних містять взаємопов’язані точки даних. Наприклад, чисельність населення країни та те, як ожиріння відноситься до різних класів цього населення.

Науковцям даних може знадобитися очистити, реструктурувати та обробити такі набори даних за допомогою інструментів великих даних, щоб дійти цінних висновків, як-от зменшення пластикових відходів шляхом аналізу даних про використання пластику, вирішення проблем робочої сили шляхом аналізу даних про заробітну плату, навчання штучного інтелекту (ШІ) тощо. на.

Типи наборів даних

Залежно від джерела наборів даних вони можуть бути публічними або приватними. Публічні набори даних відкриті для всіх і роблять великий внесок у дослідження та розробки.

Знову ж таки, набори даних можуть бути наступних типів залежно від інформації, що в них міститься:

  • Багатоваріантність: такі дані містять кілька змінних.
  • Категоричний: зображує багато категорій людей.
  • Числовий: такі набори даних вимірюють дані в числах, як-от вік, зріст тощо.
  • Кореляція: у цьому типі точки даних взаємопов’язані.
  • На основі файлів: Тут набори даних зберігаються у файлах.
  • Двомірний: набір даних із двома змінними та зв’язком між ними.
  • Веб-набір даних: дані, зібрані з одного чи багатьох подібних інтернет-порталів.
  • База даних: такі набори даних зберігають дані в таблицях, стовпцях і рядках.

Набори даних з відкритим вихідним кодом для проектів з вивчення даних

Безкоштовні набори даних — це паливо для вашої пристрасті до кар’єри в галузі обробки даних. Тому що, якщо ви перебуваєте на ранніх етапах своєї кар’єри в галузі обробки даних, ви можете взятися за особисті та некомерційні проекти для впевненості в собі або створення портфоліо.

По-перше, ви можете легко перевірити свої щойно набуті навички, застосувавши інструменти та методи до реальних проблем із набором даних.

Наприклад, у вільному доступі є дані досліджень раку, дані Covid-19, дані судимостей ФБР, дані аналізу частинок із CERN тощо. Ви можете використовувати такі дані та створити наукову модель даних, щоб відповісти на важливі соціальні, фінансові та медичні проблеми .

  Як вирівняти таблиці та зображення в Microsoft Word

По-друге, такі проекти підсилюють портфоліо для вашої кар’єри. Якщо ви можете побудувати успішну модель аналізу даних, яка може запропонувати корисну інформацію, ви можете продемонструвати ці моделі онлайн, створивши веб-сайти портфоліо. Роботодавці віддають перевагу проектам, а не заявам про мету.

Безкоштовні набори даних для проектів машинного навчання

Як і фахівець з обробки даних, фахівець з ML також повинен працювати над самокерованими проектами, щоб перевірити свої навички. Якщо проект стає успішним, він також стає ідеальним компонентом для вашого онлайн- або офлайн-портфоліо проектів ML.

Отже, тепер ви можете зрозуміти, що наука про дані та розвиток машинного навчання залежать від структурованих наборів даних. Якби такі набори даних були занадто комерціалізовані, дослідження та розробки в галузі науки про дані стали б повністю корпоративно-центричними.

Щоб зробити наукові дослідження даних МЛ відкритими для всіх, такі агентства, установи та платформи пропонують безкоштовні набори даних:

Data.gov

Ви знайдете всі відкриті дані, які збирає та обробляє уряд США. в Data.gov. Платформа також пропонує ресурси та інструменти для проведення досліджень, проектування візуалізації даних, розробки мобільних/веб-додатків тощо.

Його відомі набори даних включають дані про стале землекористування, дані про сільське житло, внутрішні електронні навігаційні карти тощо.

Відкрити набори даних: Kaggle

Kaggle пропонує океан публічних даних і комп’ютерних кодів для наукових проектів. Ви можете вибрати набори даних для необроблених даних і код для кодів програмування. Популярні набори даних на Kaggle – це дані AMEX, кількість глядачів Сімпсонів, дані навчання чат-ботів тощо.

Набори даних сегментів: YouTube 8-M

Набори даних сегментів із YouTube 8-M пропонують анотації сегментів, перевірені аудиторами. Ви також можете отримати доступ до набору даних YouTube-8M з того самого порталу. Набір даних містить 6,1 мільйона ідентифікаторів відео, 350 000 годин відео, 2,6 мільярда аудіо/візуальних функцій, 3863 класи відео та в середньому 3,0 мітки на відео.

Реєстр відкритих даних на АРМ

ROD на AWS допомагає дослідникам даних ділитися та відкривати набори даних, розміщені на ресурсах AWS. Деякі цікаві набори даних, які ви можете знайти тут: Атлас геному раку, набори даних Foldingathome COVID-19, Common Crawl тощо.

Репозиторій машинного навчання: UCI

UCI Machine Learning Repository наразі містить 622 набори даних, придатні для вчених та інженерів ML для навчання їхніх моделей ШІ. Крім того, існує пошуковий інтерфейс для дослідження баз даних. Популярними пам’ятками є набір даних Accelerometer, набір даних Synchronous Machine, Wikipedia Math Essentials, набір даних Turkish Headlines тощо.

Публічні набори даних BigQuery: Google Cloud

У BigQuery зберігається багато публічних наборів даних. Google надає доступ до набору даних безкоштовно через програму Google Cloud Public Dataset Program. Однак безкоштовний запит має обмеження в 1 ТБ на місяць. Ви можете виконувати стандартні запити SQL і старі SQL.

  Як увімкнути темний режим Microsoft Outlook

Чудові публічні набори даних: GitHub

Awesome Public Datasets — це набір даних із відкритим кодом, який містить публічні дані, орієнтовані на теми. Зібрані та відсортовані з різних блогів, відповідей і відгуків користувачів, він поєднує безкоштовні та платні набори даних про фізику, спорт, програмне забезпечення, природну мову та машинне навчання.

Дані Світового банку

Відкриті дані Світового банку – це платформа, на якій ви отримуєте безкоштовний доступ до даних глобального розвитку. Він також пропонує інші цінні ресурси, такі як попередньо відформатовані таблиці та звіти. Ви можете легко переглядати за країною чи показником, щоб отримати необхідний набір даних.

FiveThirtyEight: дані

FiveThirtyEight — це американський веб-сайт, який займається аналізом опитувань громадської думки, політикою, економікою та спортом. Ви можете отримати доступ до цих опитувань і прогнозів через набори даних з його платформи. Ви можете завантажити набори даних в один клік.

ImageNet

ImageNet — це база даних зображень, з якої дослідники з усього світу можуть отримувати набори даних із відкритим кодом для своїх некомерційних проектів. Тут зображення організовано на основі ієрархії WordNet. Проект відіграє життєво важливу роль у дослідженнях глибокого навчання просунутого рівня.

Архів наборів даних: ДАНІ ЮНІСЕФ

Використовуючи Архів наборів даних, ви можете отримати набори даних, зібрані ЮНІСЕФ по всьому світу. Тут доступні дані про міграцію, переміщення, харчування, зв’язок, освіту, здоров’я, навчання, смертність, насильство, розвиток дитинства, дитячі шлюби, дитячу працю та різноманітні статистичні дані.

Знайти відкриті дані: уряд Великобританії

Якщо для вашого проекту потрібні дані, опубліковані місцевими органами влади та центральним урядом Великої Британії, портал Find Open Data — це портал, на який вам слід звернути увагу. Він охоплює державні витрати, бізнес, охорону здоров’я, освіту, оборону та інші набори даних.

Дані: Бюро перепису населення США

Вам потрібні дані перепису населення США для відповідного проекту? Ви можете отримати допомогу від USCB Data. Тут ви можете досліджувати дані перепису населення 2020 року, таблиці, карти та профілі даних, візуалізуючи дані та використовуючи інструменти обробки даних.

Дані та статистика: CDC

Федеральне агентство США з контролю та профілактики захворювань також надає громадськості безкоштовні набори даних для доступу до даних і статистики з цього порталу. Теми набору даних: здоров’я навколишнього середовища, хронічні захворювання, народжуваність і народжуваність, смертність і смертність, очікувана тривалість життя, травми та насильство, репродуктивне здоров’я, захворювання, що підлягають повідомленню, тощо.

Набори даних: MIT

Цей набір даних зосереджено на даних про вихрову вібрацію. Центр океанічної інженерії Массачусетського технологічного інституту містить деякі загальнодоступні набори даних для порівняльного аналізу комп’ютерного коду. Набори даних відкриті для всіх, щоб запросити нові теорії від даних і синхронізувати дослідників, які працюють у тій самій галузі.

Каталог даних Світового банку

Каталог даних збирає безкоштовні набори даних, які роблять доступними дані Світового банку, пов’язані з розвитком. Використовувати його в різних проектах легко, оскільки ви можете легко знайти та завантажити бажану інформацію. Він містить понад 5000 наборів даних, що охоплюють мікродані, фінанси та енергетичні платформи Світового банку.

  Універсальний додаток для фотографій пропонує редагування в реальному часі, фільтри та текст

Дані NASA Space Science

NASA пропонує доступ до своїх архівних даних у Coordinated Archive Space Science Data Coordinated Archive. Ця платформа є великою підмогою для широкої громадськості, особливо для людей, які працюють у сфері освіти та космічних досліджень. Він містить 400 ТБ цифрових даних, що містять інформацію про 550 космічних наук.

Отримайте дані: в Airbnb

Airbnb — всесвітньо відомий онлайн-ринок розміщення в сім’ї та оренди житла на відпочинок. Він також пропонує збір даних про різні міста світу з Get the Data. Ви можете переглядати місто, щоб швидко отримати дані. Крім того, ви можете запитати необхідні дані та прочитати припущення даних на цьому порталі.

Веб-дані: огляди Amazon

Тим, хто зацікавлений у дослідженні ринку та оглядах продуктів, слід використовувати набори даних, надані Snap Web Data. Він містить понад 34 мільйони відгуків користувачів на Amazon з червня 1995 року по березень 2013 року. Набір даних містить простий текст, інформацію про продукт, ім’я користувача, рейтинги та огляд.

Дані МВФ

Портал даних МВФ є цінним для всіх типів економічних і фінансових даних. Незалежно від того, чи шукаєте ви фінансові дані МВФ, статистичні дані зовнішнього сектора, провідні публікації чи мікроекономічні дані, саме тут ви їх знайдете. Крім того, ви можете використовувати фільтр, щоб отримати дані по країні.

Google Books Ngrams

Якщо ви працюєте над частинами мови та мовою, Google Books Ngrams може вам значно допомогти. Цей набір даних із відкритим вихідним кодом дає вам уявлення про використання певного слова та фрази протягом історії або певного періоду часу. Джерелом цього набору даних є цифрові документи, проіндексовані Google.

Ринкові дані: The Financial Times

Якщо ви хочете отримати надійні та точні глобальні та регіональні дані про ринок акцій, Markets Data від The ​​Financial Times тут, щоб допомогти вам. Це дозволяє вам працювати з ринковими даними з Америки, Азіатсько-Тихоокеанського регіону, Європи, Африки та світового ринку.

Дані Землі: НАСА

NASA надає повний і відкритий доступ до своїх наукових даних через програму Earth Data, яка допомагає вам зрозуміти нашу рідну планету та робити проекти з нею. Ви можете знайти безкоштовні набори даних про атмосферу, біосферу, кріосферу, людські виміри, поверхню суші, океан, тверду землю, взаємодію сонце-земля та гідросферу землі.

Пошук набору даних: Google

Якщо ви студент, дослідник або фахівець із обробки даних, який шукає набори даних для підтримки свого проекту, ви можете отримати допомогу на порталі пошуку набору даних. Ви можете назвати це пошуковою системою для наборів даних, оскільки вона дозволяє знаходити набори даних, розміщені в різних звітах в Інтернеті за допомогою пошуку за ключовими словами.

Відкриті дані: CERN

Європейська дослідницька організація CERN має портал відкритих даних, який можна використовувати для доступу до даних, створених дослідженнями в CERN. Цей портал набору даних містить два петабайти даних, пов’язаних з фізикою елементарних частинок. Крім того, він поставляється з додатками та документацією, необхідною для аналізу даних.

Дослідник даних про злочини: ФБР

Crime Data Explorer (CDE) — це набір даних із відкритим кодом від ФБР, який має на меті забезпечити легший доступ до кримінальних, некримінальних і правоохоронних органів. Крім того, що дозволяє вам знаходити необхідні дані за допомогою візуалізації та фільтрації категорій, ця платформа дозволяє завантажувати дані у форматі CSV.

Заключні слова

Наразі ви переглянули справді вичерпний список високоякісних наборів даних. У статті представлено дані з різних ніш, таких як фізичні науки, медичні записи, космічні дослідження, судимості, рейтинги продуктів тощо.

Залежно від проекту з обробки даних або машинного навчання, який ви плануєте, ви можете вибрати. Майже всі набори даних також мають відповідні інструкції, які допоможуть вам у вашому проекті.

Вас також можуть зацікавити ці ресурси, щоб вивчити науку про дані та машинне навчання.