Як заблокувати сканерам OpenAI сканування вашого веб-сайту

Хоча користувачі люблять ChatGPT за величезну кількість інформації, яку він зараз містить, цього не можна сказати про власників веб-сайтів.

ChatGPT OpenAI використовує сканери для сканування веб-сайтів, але якщо ви власник веб-сайту та не хочете, щоб сканер OpenAI отримував доступ до вашого веб-сайту, ось кілька речей, які ви можете зробити, щоб запобігти цьому.

Як працює сканування OpenAI?

Веб-сканер (також відомий як павук або бот пошукової системи) – це автоматизована програма, яка сканує Інтернет для пошуку інформації. Потім він компілює цю інформацію таким чином, щоб вашій пошуковій системі було легко отримати до неї доступ.

Веб-сканери індексують кожну сторінку кожної відповідної URL-адреси, зазвичай зосереджуючись на веб-сайтах, які більше відповідають вашим пошуковим запитам. Наприклад, припустімо, що ви шукаєте в Google певну помилку Windows. Веб-сканер у вашій пошуковій системі скануватиме всі URL-адреси веб-сайтів, які він вважає більш авторитетними щодо помилок Windows.

Веб-сканер OpenAI називається GPTBot і відповідно Документація OpenAIнадання GPTBot доступу до вашого веб-сайту може допомогти навчити модель штучного інтелекту, щоб вона стала безпечнішою та точнішою, і навіть може допомогти розширити можливості моделі штучного інтелекту.

Як завадити OpenAI сканувати ваш сайт

Як і більшості інших веб-сканерів, GPTBot можна заблокувати від доступу до вашого веб-сайту, змінивши протокол веб-сайту robots.txt (також відомий як протокол виключення роботів). Цей файл .txt розміщено на сервері веб-сайту та контролює поведінку веб-сканерів та інших автоматизованих програм на вашому веб-сайті.

Ось короткий список можливостей файлу robot.txt:

  • Він може повністю блокувати доступ GPTBot до веб-сайту.
  • Він може блокувати лише певні сторінки з URL-адреси для доступу GPTBot.
  • Він може повідомити GPTBot, за якими посиланнями він може переходити, а за якими ні.

Ось як контролювати, що може робити GPTBot на вашому веб-сайті:

Повністю заблокуйте GPTBot доступ до вашого сайту

  • Налаштуйте файл robot.txt, а потім відредагуйте його будь-яким інструментом редагування тексту.
  • Додайте GPTBot до robots.txt вашого сайту таким чином:
  •  User-agent: GPTBot
    Disallow: /

    Блокувати лише певні сторінки від доступу GPTBot

  • Налаштуйте файл robot.txt, а потім відредагуйте його за допомогою інструмента для редагування тексту.
  • Додайте GPTBot до robots.txt вашого сайту таким чином:
  •  User-agent: GPTBot
    Allow: /directory-1/
    Disallow: /directory-2/

    Однак майте на увазі, що зміна файлу robot.txt не є ретроактивним рішенням, і будь-яку інформацію, яку GPTBot міг уже зібрати з вашого веб-сайту, не можна буде відновити.

    OpenAI дозволяє власникам веб-сайтів відмовитися від сканування

    З тих пір, як сканери почали використовувати для навчання моделей ШІ, власники веб-сайтів шукали способи зберегти конфіденційність своїх даних.

    Деякі побоюються, що моделі штучного інтелекту фактично крадуть їхню роботу, навіть пояснюючи меншу кількість відвідувань веб-сайтів тим фактом, що тепер користувачі отримують свою інформацію, навіть не відвідуючи їхні веб-сайти.

    Загалом, чи хочете ви повністю заблокувати чат-ботам AI сканування ваших веб-сайтів, залежить від вас.