Як використовувати ChatGPT для веб-збирання за допомогою плагінів та інтерпретатора коду

Детальний посібник із веб-скрейпінгу за допомогою Інтерпретатора коду ChatGPT та його плагінів.

Якщо ви не любите створювати якісь новинки, швидше за все, вам потрібна певна передумова для початку. Або ви можете вивчити конкуренцію, щоб отримати цінний внесок. Крім того, може бути незліченна кількість причин для того, щоб хтось зацікавився вмістом певного веб-сайту.

Веб-скопіювання — це процес, який обслуговує такі випадки використання.

І є кілька способів зробити це. Є важкі інструменти, на які можна підписатися для професійного аналізу великих веб-сайтів. Крім того, вам може знадобитися спеціальне налаштування для локальної обробки.

У будь-якому випадку, цей підхід є дорогим, трудомістким і виснажливим для початківців, особливо для сканування кількох веб-сторінок.

Огляд ChatGPT для веб-збирання

Я не повинен представляти вам ChatGPT. чи я?

Коротше кажучи, ChatGPT — це генеративний ШІ, який реагує як люди. Ви отримуєте інтерфейс чату, щоб попросити його виконати різні завдання, наприклад запитувати про історичні події, писати есе, конспектувати, перекладати, кодувати тощо.

Відповіді ChatGPT у текстовому вигляді. Однак існують плагіни ChatGPT, які багатьма способами розширюють його можливості. І ми будемо використовувати один такий плагін. Крім того, ми використовуватимемо його Інтерпретатор коду для аналізу веб-сайтів зі складною структурою веб-сторінок або з активними протоколами захисту від аналізу.

Зверніть увагу, що ChatGPT має безкоштовну та платну версії. Але вам знадобиться платна підписка (наразі 20 доларів на місяць) для використання плагіна веб-скребка або механізму інтерпретатора коду.

У наступних розділах я проілюструю процес крок за кроком.

Відмова від відповідальності: перш ніж продовжити самостійно, підтвердьте, що відповідний веб-сайт дозволяє копіювати свій вміст. Якщо ні, ви можете зв’язатися з їхнім адміністратором і дізнатися, чи дозволять вони вам це, щоб уникнути будь-яких юридичних проблем.

  Налаштуйте фокус після зйомки на iPhone

Веб-скрапінг за допомогою плагіна ChatGPT

Увійдіть до свого Обліковий запис OpenAIнаведіть курсор на GPT-4 (його поточну платну версію) і натисніть «Плагіни».

Далі натисніть Жодні плагіни не ввімкнено, прокрутіть униз і натисніть Магазин плагінів.

Зауважте, що замість «Плагіни не ввімкнено» у вас буде піктограма плагіна, якщо він активний. У такому випадку вам потрібно клацнути цю піктограму, щоб відкрити спадне меню, і клацнути магазин плагінів унизу.

Це відкриє магазин плагінів. Знайдіть Scraper і натисніть «Встановити».

Виберіть цей плагін в інтерфейсі ChatGPT.

Після того, як це вибрано, потрібно запитати ChatGPT, згадавши URL-адресу теми та вміст для копіювання.

Я зробив це для кількох веб-сайтів. Заціни.

Викопування публікації

Ми — видання, орієнтоване на технології, і для цієї ілюстрації я вибрав нашу домашню сторінку techukraine.net.com/.

Ось підказка:

check this webpage: https://techukraine.net.com/ and prepare a table indicating the article title, author, publication date, and excerpt for the top 10 articles.

Можна також повторно запропонувати конвертувати дані у формат CSV, вставити їх у текстовий файл із розширенням .csv і відкрити в програмі для роботи з електронними таблицями, як-от MS Excel.

Збирання веб-сторінки пропозицій або купонів

У розділі пропозицій techukraine.net ми підібрали деякі пропозиції щодо високотехнологічних проектів. Як щодо отримання кожної угоди в табличному форматі?

Prepare a list of deals from this webpage: https://techukraine.net.com/deals/. present the result in a tabular format.

Викопування Вікіпедії

Summarize in tabular format the latest news from the "in the news" section from this wikipedia page: https://en.wikipedia.org/wiki/Main_Page

Скрапінг магазинів електронної комерції

Нарешті, я спробував отримати Amazon.com для ноутбуків, застосувавши кілька фільтрів і передавши URL-адресу ChatGPT. Ось що я отримав:

  Як змінити адресу електронної пошти Yahoo

Проблема в тому, що це не одиничний випадок. Ви знайдете багато подібних випадків, коли на веб-сайтах передбачено заходи проти скрапінгу. У цій ситуації вам потрібно буде знайти альтернативу для отримання даних, якщо підписка на галузеві стандартні скребки не є варіантом.

Наступні розділи містять одне з таких рішень.

Веб-скрапінг за допомогою інтерпретатора коду ChatGPT

Інтерпретатор коду — це нещодавно запущений механізм ChatGPT для вирішення завдань, пов’язаних із програмуванням. У той час як механізм за замовчуванням значною мірою покладається на текстові відповіді, Інтерпретатор коду може допомогти візуалізувати виходи, аналізувати, налагоджувати та виконувати код, інтегрувати з програмними двійковими файлами та виконувати багато інших завдань, орієнтованих на програмування.

У цьому процесі ми завантажимо вихідний HTML, завантажимо його в інтерпретатор коду ChatGPT і продовжимо копіювання.

Я взяв цю сторінку для вилучення:

Ми почнемо зі збереження веб-сторінки як HTML. Для цього перейдіть на веб-сторінку та натисніть Ctrl+S.

Тепер у нас є напилок для вискоблювання. Давайте розберемося з підказкою.

На додаток до текстового підказки, ви бачите, що я надав йому зразки елементів, щоб пришвидшити копіювання. Оскільки структури веб-сторінок Amazon є складними, без цих зразків спроба збирання може бути невдалою або нічим не призвести.

А отримати ці елементи досить просто. Клацніть правою кнопкою миші будь-де на відповідній веб-сторінці та натисніть Перевірити у спливаючому вікні.

Спочатку натисніть самий верхній значок (позначений як 1). Це виділить деталі під час вибору елементів на сторінці. Далі виберіть елемент контейнера для будь-якого конкретного продукту.

Переконайтеся, що ви вибрали самий внутрішній контейнер. Ви можете навести вказівник миші, і він буде продовжувати підсвічуватися. Коли ви отримаєте останню оболонку, що покриває цей блок, ви можете клацнути та перейти до правого боку, щоб скопіювати клас div елемента.

  Як показати, приховати або змінити розмір ескізів слайдів у PowerPoint

Так само підберіть зразки для інших елементів.

Нарешті, завантажте HTML і запитайте подібне до цього:

check out this webpage html and extract the laptop titles, price, and ratings. present the result in a tabular format within this chat interface and also give the results in a CSV to download.

div class="s-card-container s-overflow-hidden aok-relative puis-include-content-margin puis puis-vfcg1duwvmpo42mcln9ojhiljk s-latency-cf-section s-card-border"
sample title element: span class="a-size-medium a-color-base a-text-normal"
sample price element: span class="a-price-whole"
sample ratings element: span class="a-size-base puis-bold-weight-text"

Це займе деякий час, поки інтерпретатор коду ChatGPT зробить свою роботу. У вас буде кілька деталей, тоді як усе буде у вбудованому файлі CSV.

Ви можете помітити, що в таблиці є кілька записів, яких немає на оригінальній веб-сторінці, особливо на початку. У таких випадках вам потрібно ще раз перевірити та очистити дані на наявність надмірностей.

Якщо такі є, ви можете повторно запитати ChatGPT, щоб отримати чистий CSV.

Заключні думки

ChatGPT робить багато речей, і базове веб-збирання є однією з них. Погодьтеся, це може не підійти для тих, хто збирає сотні сторінок. Тим не менш, це допоможе вам почати роботу в правильному напрямку та ідеально підходить для короткого сеансу скребінгу.

У цьому посібнику ми використали один із плагінів для збирання та інтерпретатор коду. Хоча плагіни працюють на багатьох стандартних веб-сайтах, другий метод призначений для власних структур веб-сторінок або якщо сторінка має динамічні елементи (нескінченне прокручування, читання далі тощо).

І повторюю, прочитайте умови веб-сайту, перш ніж знімати.

PS: ознайомтеся з цими рішеннями для хмарного копіювання та нашим власним API для копіювання techukraine.net.