Що ви не знали про клей AWS

Amazon Glue набирає популярності, оскільки багато компаній почали використовувати служби інтеграції керованих даних.

ETL — це процес, який передає дані з вихідної бази даних до сховища даних. ETL складний і його важко реалізувати для всіх корпоративних даних через його складність. Для вирішення цієї проблеми Amazon представив AWS Glue.

Розробники ETL та інженери обробки даних використовують Glue для створення, моніторингу та запуску робочих процесів ETL.

Що таке клей AWS?

AWS Glue, безсерверна служба інтеграції даних, дозволяє легко знаходити, готувати, переміщувати та інтегрувати дані з багатьох джерел. Це корисно для машинного навчання (ML) і аналітики.

Це значно скорочує час, необхідний для підготовки даних до аналізу. Він автоматично знаходить і перераховує дані, генерує код Scala або Python для передачі даних із джерела, а також завантажує та перетворює завдання відповідно до запланованих подій.

Це забезпечує гнучке планування та створює середовище Apache Spark, яке можна масштабувати для цільового завантаження даних. Крім того, AWS Glue забезпечує моніторинг і зміну складного потоку даних. AWS Glue — це безсерверний сервіс, який спрощує складні операції розробки програм.

Це дозволяє швидко інтегрувати кілька дійсних даних. Він також швидко руйнує та авторизує дані.

Для чого використовується клей AWS?

Важливо знати, де найкраще використовувати клей Amazon. Це лише кілька прикладів використання клею AWS, які варто розглянути.

  • Glue — це інструмент, який дозволяє запускати безсерверні запити до озер даних Amazon S3. Amazon Glue — чудовий інструмент для початку. Це робить усі ваші дані доступними в одному інтерфейсі, дозволяючи аналізувати їх без необхідності переміщувати.
  • Amazon Glue можна використовувати для розуміння ваших ресурсів даних. Amazon Glue спрощує пошук у різних наборах даних AWS за допомогою каталогу даних. Ви також можете зберігати дані в кількох службах AWS за допомогою каталогу даних, маючи при цьому узгоджене подання.
  • Glue може бути корисним під час створення керованих подіями робочих процесів ETL. Ви можете виконувати свої операції ETL з Amazon S3, викликаючи завдання Glue ETL через службу AWS Lambda.
  • AWS Glue також можна використовувати для очищення, перевірки, форматування та організації даних для зберігання в озері даних або сховищі.

Які компоненти клею AWS?

Нижче наведено основні компоненти клею AWS:

  • Каталог даних: цей каталог даних містить метадані та структуру даних.
  • База даних: це ключ до доступу та створення бази даних для джерел і цілей.
  • Таблиця: Створіть одну або кілька таблиць у базі даних, які можуть використовуватися як цільовим, так і вихідним.
  • Веб-сканер і класифікатор: сканер отримує дані з джерела за допомогою вбудованих або спеціальних класифікацій. Він створює/використовує попередньо визначені таблиці метаданих у каталозі даних.
  • Робота: це робота бізнес-логіки для виконання завдання ETL. Ця бізнес-логіка написана внутрішньо Apache Spark за допомогою мов python і scala.
  • Тригер: тригер ETL – це пристрій, який ініціює виконання завдання ETL на вимогу або в певний час.
  • Кінцева точка для розробки: це створює середовище, у якому сценарій завдання ETL тестується, розробляється та налагоджується.
  Навіщо перевіряти себе? Ось що ви дізнаєтеся

Переваги клею AWS

Це переваги використання на вашому робочому місці або в організації.

  • AWS Glue сканує всі дані, доступні за допомогою сканера.
  • Остаточні оброблені дані можна зберігати в багатьох місцях (Amazon RDS і Amazon Redshift, Amazon S3 тощо).
  • Це хмарний сервіс. Немає необхідності витрачати гроші на локальну інфраструктуру.
  • Оскільки це ETL без сервера, це економічно ефективний вибір.
  • це швидко. Він одразу дає вам код Python/Scala ETL.

Основні характеристики AWS Glue?

Amazon Glue має всі функції, необхідні для інтеграції даних, щоб ви могли отримати кращу інформацію та використовувати свої знання для досягнення нових досягнень за лічені хвилини замість місяців. Ось деякі функції, які вам слід знати.

  • Інтерфейс перетягування: Редактор завдань із функцією перетягування дозволяє створювати процес ETL. AWS Glue негайно створить код, необхідний для вилучення, конвертації та завантаження даних.
  • Автоматичне виявлення схеми: щоб створити сканери, які підключаються до різних джерел даних, ви можете використовувати службу Glue. Він упорядковує дані та витягує відповідну інформацію. Потім ці дані можна використовувати для моніторингу процесів ETL за допомогою завдань ETL.
  • Планування роботи: клей можна використовувати на вимогу або згідно з розкладом. Планувальник можна використовувати для побудови складних конвеєрів ETL, встановлюючи залежності між завданнями.
  • Генерація коду: Glue Elastic Views дозволяє легко створювати матеріалізовані представлення, які поєднують і копіюють дані з різних джерел даних без необхідності писати будь-який власний код.
  • Вбудоване машинне навчання: Glue постачається з вбудованою функцією машинного навчання під назвою «FindMatches». Він видаляє дублікати записів, які не є ідеальними копіями один одного.
  • Кінцеві точки розробника: якщо ви хочете активно розробляти свій код ETL, Glue надає кінцеві точки розробника, які дозволяють змінювати, налагоджувати та тестувати створений код.
  • Glue DataBrew: це інструмент підготовки даних, який можуть використовувати аналітики даних і дослідники даних, щоб допомогти їм очистити та нормалізувати дані. Він використовує активний і візуальний інтерфейс Glue DataBrew.

Як працює ціноутворення AWS Glue?

AWS Glue стягує погодинну оплату, яка виставляється за секунду для сканерів (виявлення даних) і завдань ETL (обробка та завантаження даних). За доступ і зберігання метаданих у каталозі даних AWS Glue стягується проста щомісячна плата.

Вартість Amazon Glue починається з 0,44 дол. Ви можете вибрати один з чотирьох планів:

  • Завдання ETL, кінцеві точки розробки та інші завдання ETL доступні за $0,44
  • Інтерактивні сеанси сканерів доступні за $0,44
  • Вакансії DataBrew починаються від $0,48
  • Щомісячне зберігання та запити до каталогу даних коштують 1,00 дол
  Як позначити документ як остаточний в MS Word

AWS не пропонує безкоштовний план Glue. Кожна година коштуватиме $0,44 за DPU. У середньому це коштуватиме вам 21 долар на день. Ціни можуть відрізнятися залежно від вашого місця проживання.

Кроки для налаштування AWS Glue

Каталог даних можна використовувати для швидкого пошуку та пошуку в кількох наборах даних AWS без необхідності переміщення даних. Після каталогізації даних вони одразу стають доступними для запитів і пошуку за допомогою Amazon Athena та Amazon EMR.

Посилання: https://aws.amazon.com/glue/

  • Amazon Redshift, Amazon S3, Amazon RDS і бази даних на Amazon EC2 – знаходьте свої дані, зберігайте метадані та використовуйте AWS Glue Data Catalog, щоб знайти їх
  • AWS Glue Data Catalog – керуйте даними за допомогою каталогу даних, який діє як центральне сховище метаданих
  • AWS Glue ETL – читання та запис метаданих у ваш каталог даних
  • Amazon Athena та Amazon Redshift, Amazon EMR, Amazon ETL – отримайте каталог даних для ETL, аналітику тощо.

Як налаштувати AWS Glue?

По-перше, увійдіть у консоль керування AWS і відкрийте консоль IAM. Натисніть Створити роль. Потім для типу ролі знайдіть Glue і виберіть «Дозволи».

Я обираю AWSGlueServiceRole для загальних дозволів AWS Glue Studio та AWS Glue, а також керовану AWS політику AmazonS3FullAccess для доступу до ресурсів Amazon S3.

Введіть назву ролі.

Натисніть «Створити роль».

Створіть сегмент Amazon S3.

Створіть папку всередині відра S3.

Виберіть файл для завантаження.

Нарешті, завантажте файл у відро.

Потім відкрийте AWS Glue з консолі керування AWS і створіть базу даних.

Тепер, коли у вас є база даних в AWS Glue, створіть сканер.

У джерелі даних виберіть створене вами сегмент S3.

Далі виберіть роль IaM для AWS Glue, яку ви створили на початку.

Нарешті, у вихідних даних виберіть gluedb, який ви створили.

Перегляньте всі налаштування та створіть сканер.

Після створення сканера виберіть його та натисніть «Запустити». Через деякий час ви отримаєте готовий статус.

Запустивши сканер, база даних отримає таблицю з усіма даними з файлу CSV.

Коли ви клацнете на переглянути дані, ви перейдете до Amazon Athena (редактор запитів). Коли ви виконуєте запит, ви можете побачити дані таблиці.

Тепер ви можете успішно використовувати цей сканер AWS Glue у будь-якій роботі ETL.

Що таке AWS Glue Databrew?

AWS Glue DataBrew дозволяє користувачам нормалізувати та очищати дані без написання коду. DataBrew може скоротити час, необхідний для підготовки даних для машинного навчання та аналітики, на цілих 80 відсотків порівняно з підготовкою даних на замовлення.

Існує понад 250 готових перетворень даних, які можна використовувати для автоматизації завдань підготовки даних, таких як фільтрування аномалій, виправлення недійсних значень і перетворення даних у стандартні формати.

DataBrew спрощує співпрацю спеціалістів із обробки даних, бізнес-аналітиків та інженерів над отриманням розуміння з необроблених даних. DataBrew працює без серверів, тож вам не потрібно керувати інфраструктурою чи створювати кластери, щоб досліджувати та перетворювати терабайти вихідних даних.

  Вступ до Matplotlib у Python

Функції DataBrew для підприємств

Візуалізована підготовка даних

DataBrew — це інший спосіб перегляду даних, які зазвичай розглядаються в базах даних із стовпцями як буквено-цифрові числа. DataBrew візуалізує всі завантажені джерела даних, щоб допомогти вам зрозуміти зв’язки та ієрархію даних.

250+ автоматизованих систем підготовки даних

Очікується, що науковці, які працюють з даними, будуть виконувати різноманітні повторювані ізольовані робочі процеси як частину своєї роботи. Ці робочі процеси та процеси були змодельовані AWS як модулі мовних і незалежних від даних модулів. Ця бібліотека містить дії, які можуть використовувати кінцеві користувачі.

Лінія даних

Подібно до журналів аудиту, які використовуються для відстеження активності клієнтів в ІТ-мережі ІТ-мережі, лінійка даних дозволяє відстежувати дії перетворення даних у AWS DataBrew. Ця інформація включає джерело даних, застосовані перетворення та вихідні дані, включаючи цільове розташування.

Відображення даних

Databrew дозволяє знаходити відповідні поля у двох джерелах даних. Після визначення відповідних полів їх можна завантажити в схему.

AWS Glue DataBrew: переваги

Нижче наведено функції AWS Glue DataBrew:

  • Нижчий бар’єр для введення для підготовки даних
  • Автоматизоване створення профілю даних
  • Автоматизуйте понад 250 процесів підготовки даних
  • Розумні наказові пропозиції

Альтернативи клею AWS

Повітряний потік

Airflow належить до розділу Workflow Manager технічного стека. Це інструмент із відкритим вихідним кодом, який підтримує GitHub stars, GitHub forks та інші функції. Airflow дозволяє створювати робочі процеси за допомогою спрямованих ациклічних діаграм (DAG). Планувальник повітряного потоку виконує ваші завдання, використовуючи масив працівників і дотримуючись указаних залежностей.

Матильйон

Matillion ETL, інструмент ETL/ELT, був розроблений спеціально для платформ хмарних баз даних, таких як Amazon Redshift і Google BigQuery. Це сучасний користувальницький інтерфейс на основі браузера з потужними можливостями ETL/ELT. Завдяки швидкому налаштуванню ви можете почати роботу за лічені хвилини.

стібок

Stitch — це ETL-сервіс з відкритим вихідним кодом, який з’єднує кілька джерел даних і копіює дані у бажані місця призначення. Він дуже простий у використанні, оскільки вам не потрібні знання програмування, щоб переміщувати дані між джерелами та призначеннями в Stitch. Він простий у використанні, має зручний графічний інтерфейс і працює швидко.

На відміну від інших інструментів ETL, Stitch не дозволяє вибрати готову інформаційну панель. Натомість ви повинні інтегрувати свої дані у відкриті сховища даних, які ви вибрали як місце призначення. Може бути важко орієнтуватися в запасах.

Альтерикс

Alteryx — це платформа автоматизації аналітики, яка допомагає у підготовці та змішуванні збору даних. Ці дані можна використовувати для прискорення процесів і надання розуміння бізнесу. Оскільки це інструмент перетягування, вам не потрібні знання програмування. Alteryx – чудове місце, куди можна звернутися за порадою та відповідями від професіоналів галузі.

Висновок

Отже, це все про AWS Glue, яке є хмарним рішенням, яке дозволяє вам працювати з конвеєрами ETL. Підсумовуючи, процес взаємодії з користувачем AWS Glue складається з трьох етапів. Щоб створити каталог даних, ви спочатку використовуєте сканери даних. Далі ви створюєте код ETL, необхідний для конвеєра даних AWS. Нарешті створюється розклад ETL. Сподіваюся, цей блог дав вам хороший огляд Amazon Glue.

Ви також можете переглянути найкращі поради щодо захисту сховища AWS S3.