Як заблокувати сканерам OpenAI сканування вашого веб-сайту

Попри популярність ChatGPT серед користувачів завдяки його широкому доступу до інформації, власники веб-ресурсів часто мають іншу думку.

ChatGPT від OpenAI використовує спеціалізовані сканери для збору даних з веб-сайтів. Якщо ви є власником сайту і не бажаєте, щоб сканери OpenAI мали доступ до вашого ресурсу, існує декілька способів це запобігти.

Як працює сканування OpenAI?

Веб-сканер, часто званий “павуком” або “ботом пошукової системи”, це автоматизована програма, призначена для дослідження інтернету в пошуках інформації. Зібрані дані обробляються для зручного доступу через пошукові системи.

Сканери індексують кожну сторінку з відповідними URL-адресами, фокусуючись на ресурсах, які найбільш точно відповідають пошуковим запитам. Наприклад, якщо ви шукаєте інформацію про певну помилку Windows у Google, сканер вашої пошукової системи проаналізує всі URL-адреси, які вважаються авторитетними джерелами щодо помилок Windows.

Сканер OpenAI має назву GPTBot. Згідно з документацією OpenAI, надання GPTBot доступу до вашого веб-сайту може сприяти навчанню моделі штучного інтелекту, роблячи її безпечнішою, точнішою, а також розширюючи її можливості.

Як заблокувати сканування вашого сайту OpenAI

Як і більшість інших веб-сканерів, GPTBot можна відключити від доступу до вашого веб-сайту, змінивши файл robots.txt (протокол виключення роботів). Цей .txt файл, розміщений на сервері веб-сайту, контролює поведінку веб-сканерів та інших автоматизованих програм на вашому ресурсі.

Файл robot.txt дозволяє:

  • Повністю заборонити GPTBot доступ до веб-сайту.
  • Заборонити GPTBot доступ лише до певних сторінок на сайті.
  • Визначити, за якими посиланнями GPTBot може переходити, а за якими ні.

Ось як ви можете контролювати дії GPTBot на вашому веб-сайті:

Повне блокування доступу GPTBot до вашого сайту

  • Знайдіть файл robot.txt, а потім відредагуйте його за допомогою текстового редактора.
  • Додайте наступний рядок до файлу robots.txt:
 User-agent: GPTBot
Disallow: /

Блокування доступу GPTBot до певних сторінок

  • Знайдіть файл robot.txt і відредагуйте його в текстовому редакторі.
  • Додайте наступні рядки до файлу robots.txt:
 User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Важливо пам’ятати, що зміни в файлі robot.txt не діють ретроспективно. Інформація, яку GPTBot міг зібрати раніше, не буде видалена.

OpenAI надає можливість власникам сайтів відмовитися від сканування

З моменту початку використання сканерів для навчання моделей ШІ, власники веб-сайтів шукають методи захисту своїх даних.

Деякі висловлюють побоювання, що моделі штучного інтелекту фактично крадуть їхню роботу. Зменшення відвідуваності веб-сайтів часто пов’язують з тим, що користувачі тепер можуть отримувати інформацію, не переходячи на самі веб-сайти.

Зрештою, рішення про повне блокування сканування вашого сайту чат-ботами на основі ШІ залишається за вами.