Хоча користувачі люблять ChatGPT за величезну кількість інформації, яку він зараз містить, цього не можна сказати про власників веб-сайтів.
ChatGPT OpenAI використовує сканери для сканування веб-сайтів, але якщо ви власник веб-сайту та не хочете, щоб сканер OpenAI отримував доступ до вашого веб-сайту, ось кілька речей, які ви можете зробити, щоб запобігти цьому.
Як працює сканування OpenAI?
Веб-сканер (також відомий як павук або бот пошукової системи) – це автоматизована програма, яка сканує Інтернет для пошуку інформації. Потім він компілює цю інформацію таким чином, щоб вашій пошуковій системі було легко отримати до неї доступ.
Веб-сканери індексують кожну сторінку кожної відповідної URL-адреси, зазвичай зосереджуючись на веб-сайтах, які більше відповідають вашим пошуковим запитам. Наприклад, припустімо, що ви шукаєте в Google певну помилку Windows. Веб-сканер у вашій пошуковій системі скануватиме всі URL-адреси веб-сайтів, які він вважає більш авторитетними щодо помилок Windows.
Веб-сканер OpenAI називається GPTBot і відповідно Документація OpenAIнадання GPTBot доступу до вашого веб-сайту може допомогти навчити модель штучного інтелекту, щоб вона стала безпечнішою та точнішою, і навіть може допомогти розширити можливості моделі штучного інтелекту.
Як завадити OpenAI сканувати ваш сайт
Як і більшості інших веб-сканерів, GPTBot можна заблокувати від доступу до вашого веб-сайту, змінивши протокол веб-сайту robots.txt (також відомий як протокол виключення роботів). Цей файл .txt розміщено на сервері веб-сайту та контролює поведінку веб-сканерів та інших автоматизованих програм на вашому веб-сайті.
Ось короткий список можливостей файлу robot.txt:
- Він може повністю блокувати доступ GPTBot до веб-сайту.
- Він може блокувати лише певні сторінки з URL-адреси для доступу GPTBot.
- Він може повідомити GPTBot, за якими посиланнями він може переходити, а за якими ні.
Ось як контролювати, що може робити GPTBot на вашому веб-сайті:
Повністю заблокуйте GPTBot доступ до вашого сайту
User-agent: GPTBot
Disallow: /
Блокувати лише певні сторінки від доступу GPTBot
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
Однак майте на увазі, що зміна файлу robot.txt не є ретроактивним рішенням, і будь-яку інформацію, яку GPTBot міг уже зібрати з вашого веб-сайту, не можна буде відновити.
OpenAI дозволяє власникам веб-сайтів відмовитися від сканування
З тих пір, як сканери почали використовувати для навчання моделей ШІ, власники веб-сайтів шукали способи зберегти конфіденційність своїх даних.
Деякі побоюються, що моделі штучного інтелекту фактично крадуть їхню роботу, навіть пояснюючи меншу кількість відвідувань веб-сайтів тим фактом, що тепер користувачі отримують свою інформацію, навіть не відвідуючи їхні веб-сайти.
Загалом, чи хочете ви повністю заблокувати чат-ботам AI сканування ваших веб-сайтів, залежить від вас.