Повний посібник із виявлення плагіату чат-бота AI

Як виявити текст, написаний штучним інтелектом: повний посібник

Чат-боти зі штучним інтелектом, такі як ChatGPT, відкривають перед нами не лише можливість отримувати відповіді на питання. Вони тепер здатні створювати електронні листи, мотиваційні листи, есе, вірші, публікації для блогів і багато іншого.

Стиль письма, згенерований штучним інтелектом, є настільки адаптивним, що його важко відрізнити від тексту, створеного людиною. Це робить виявлення таких текстів справжнім викликом.

Нам, звичайним людям, стає дедалі важче розпізнати, коли текст був створений штучним інтелектом, а не живою людиною. Можна було б скористатися дедуктивним методом Шерлока Холмса, але хто має стільки часу?

А що, якби я сказав, що попередній абзац був написаний штучним інтелектом? Так, я попросив YouWrite створити короткий вступ до цієї статті, і результат, як бачите, досить переконливий. І саме це становить проблему: така правдоподібність дозволяє будь-кому видавати ці тексти за свої власні та отримувати з цього вигоду.

Штучний інтелект не просто переписує існуючий матеріал. Він аналізує тему та створює текст природною мовою, використовуючи метод навчання з підкріпленням на основі зворотного зв’язку від людини (RLHF). Таким чином, згенерований контент не буде звучати як текст, написаний роботом, і його не можна буде ідентифікувати як плагіат, порівнюючи з даними, доступними в Інтернеті.

Виявлення контенту, створеного штучним інтелектом, є непростим завданням, і я не обіцяю вам 100% точності. Однак, завдяки детективним навичкам та сучасним інструментам розпізнавання тексту, можна виявити значну частину текстів, створених штучним інтелектом.

Нижче ви знайдете опис методів ручного виявлення плагіату ШІ, а також перелік автоматичних інструментів, які можуть вам допомогти.

Ручне виявлення плагіату ШІ 🕵️

ChatGPT – це не єдина проблема, коли мова йде про плагіат ШІ. Існує цілий ряд альтернативних інструментів, які використовують ту ж технологію GPT-3 та спеціально розроблені для генерування текстів. Вони дуже просунуті і створюють контент, який важко відрізнити від написаного людиною.

В залежності від типу тексту, його об’єму та складності, ефективність автоматичних інструментів виявлення може бути різною. Тому на даний момент найкращим способом є комбінування ручних методів для визначення, чи був текст створений штучним інтелектом, чи ні.

Далі я наводжу кілька основних ознак, які можуть допомогти вам розпізнати контент, згенерований ШІ.

#1. Застаріла інформація

Наприкінці 2021 року ChatGPT та інші моделі ШІ на базі GPT-3 обмежили свої знання. Хоча деякі чат-боти ШІ мають вбудовану пошукову систему для доступу до актуальної інформації, для створення довгих текстів, таких як есе чи статті, вони все ще використовують старі дані.

Якщо ви помічаєте, що стаття постійно посилається на застарілу інформацію, особливо до 2021 року, цілком ймовірно, що вона була створена штучним інтелектом.

На прикладі нижче я попросив YouWrite надати інформацію про нещодавній Чемпіонат світу з футболу, і ось що я отримав:

Бот розповів про чемпіонат світу 2018 року, а не про нещодавній чемпіонат 2022 року. Хоча інструмент оновлюється для надання інформації про сучасні події, такі як Чемпіонат світу з футболу 2022 року, він все ще використовує старі дані для створення довгих текстів.

#2. Однотипна структура речень в описах

При створенні описів різних продуктів або додатків штучний інтелект часто використовує однакову структуру речень, адаптуючи її до конкретного товару. Описи, як правило, починаються з певного слова, наприклад, “The”, “It”, “A” або назви продукту. Крім того, в описах часто повторюється певна тема або фокус.

Наприклад, нижче я попросив ChatGPT розповісти про “веб-сайти для обробки даних”. Як бачите, всі описи починаються з літери “A” і мають схожий фокус.

Я задав те саме питання YouChat, і він зробив те саме, повторюючи назву кожного веб-сайту на початку, а самі описи були схожі на перефразовані версії один одного.

Якщо текст, який ви аналізуєте, містить схожі описи, це може бути ознакою того, що він створений штучним інтелектом.

#3. Короткі речення

Штучний інтелект, як правило, використовує короткі речення, які містять не більше однієї коми. Можливо, вони намагаються мінімізувати ризик помилок, але уникають довгих речень, що можуть вимагати використання двокрапок, крапок з комою чи складних структур.

Це не є найточнішим індикатором, але його можна використовувати для підтвердження своїх підозр.

#4. Надання неточної інформації

При відповіді на складні питання, які вимагають певних інструкцій, штучний інтелект може неправильно зрозуміти запит та надати неточну інформацію. Я не маю на увазі застарілу інформацію, а просто невірні дані, коли бот не розуміє суті питання.

Наприклад, я попросив YouWrite пояснити “як рутувати телефон Android без комп’ютера”. Результатом стали інструкції, які включали використання комп’ютера на певному етапі процесу.

#5. Відсутність особистої думки

Штучний інтелект, говорячи про щось, описує тільки відомі факти. На відміну від людей, він не буде ділитися власним досвідом чи думками. Хоча штучний інтелект можна навчити створювати більш персоналізовані описи, за замовчуванням він цього уникає.

Якщо ви помітили, що текст містить лише відомі факти, велика ймовірність, що його створив ШІ. Наприклад, при описі програми, текст буде зосереджуватися на її функціях, а не на враженнях від користування чи навігації.

#6. Короткі пояснення

Оскільки знання штучного інтелекту обмежені, він схильний надавати короткі пояснення та описи. З мого досвіду, якщо мова йде про конкретну тему, таку як рутування Android, пояснення будуть обмежені 2-3 абзацами. Описи програм чи товарів зазвичай займають не більше одного абзацу.

Люди, як правило, пишуть більш детально, включаючи особливості, недоліки, особистий досвід та ціни. Штучний інтелект, навпаки, концентрується на ключових функціях, тому описи виходять короткими. Якщо ж вимагати більш детальної інформації, зростає ймовірність неточної відповіді.

#7. Аналіз попередніх робіт автора

Якщо ви є викладачем або редактором і маєте доступ до попередніх робіт автора, корисно буде порівняти їх з текстом, що викликає у вас підозру. Малоймовірно, що стиль письма автора буде ідентичний стилю ШІ. Хоча штучний інтелект може змінювати свій тон, він все одно використовує досить загальні шаблони та не може відтворити ваш унікальний стиль.

Візьмемо, наприклад, абзац, згенерований ШІ на початку цієї статті. Будь-хто, хто читав мої попередні роботи, одразу помітить різницю в стилі.

Прочитайте кілька попередніх текстів автора і порівняйте їх зі стилем підозрілого тексту.

Інструменти для виявлення плагіату ШІ

Сьогодні існує безліч інструментів, які допомагають виявляти тексти, написані штучним інтелектом. Проте їх точність може відрізнятися в залежності від типу контенту та його обсягу.

Я протестував ці інструменти, використовуючи різноманітні тексти, створені за допомогою ChatGPT, GPT-3 Playground, WriteSonic, Rytr і YouWrite. Вони успішно виявили контент, створений ChatGPT та GPT-3 Playground.

Результати для спеціалізованих інструментів для написання були неоднозначними. Цікаво, що жоден з них не зміг виявити тексти, згенеровані YouWrite, можливо тому, що YouWrite спеціально створює тексти, які імітують людські помилки, щоб уникнути виявлення.

Рекомендую вам використовувати ці інструменти разом з ручною перевіркою. Спочатку проаналізуйте текст за допомогою інструменту, а потім перевірте його на наявність ознак, описаних вище.

Нижче я наведу список інструментів, які продемонстрували найкращі результати і є найпростішими у використанні:

Примітка: для демонстрації я використаю текст про “Переваги манго”, згенерований WriteSonic.

#1. Content At Scale

Інструмент Content At Scale показав найточніші результати в більшості моїх тестів. Він дозволяє сканувати до 2500 символів за один раз та надає прогноз у відсотках, що вказує на ймовірність того, що текст є згенерованим штучним інтелектом.

Можна з впевненістю сказати, що текст, який має 60% і вище оцінку “згенеровано штучним інтелектом”, швидше за все, дійсно був створений ШІ. На прикладі нижче ви бачите, що 96% тексту є “підробкою”, і він дійсно повністю згенерований за допомогою ШІ.

#2. GPTZero

Якщо ви хочете побачити, які конкретно частини тексту, ймовірно, створені ШІ, то GPTZero є хорошим варіантом. GPTZero не оцінює текст, а виділяє конкретні частини, які, найімовірніше, були створені штучним інтелектом.

Інструмент також показує оцінки заплутаності та розриву, які дають уявлення про випадковість в тексті. GPTZero підтримує до 5000 символів за сканування та дозволяє завантажувати файли. Сканування великих об’ємів тексту значно підвищує точність аналізу.

#3. Output Detector GPT-2

Розробники ChatGPT також пропонують інструмент для виявлення своєї роботи. Оскільки GPT-2 та GPT-3 відрізняються лише даними, використаними для навчання, цей детектор GPT-2 добре працює і для ШІ на базі GPT-3.

Інструмент не має обмежень на обсяг сканованого тексту, тому ідеально підходить для аналізу довгих текстів, створених ШІ. Він також досить точний, особливо для контенту, створеного ChatGPT. Однак, він може неточно оцінювати, тому рекомендую звертати увагу на результати лише тоді, коли він показує понад 50% тексту як “згенерований ШІ”.

#4. Writer AI Content Detector

Writer AI Content Detector демонструє неоднозначні результати при виявленні текстів, згенерованих інструментами для написання ШІ, але він чудово справляється з контентом, створеним ChatGPT. Ви можете сканувати 1500 символів за один раз та навіть вставити URL-адресу тексту, якщо він вже опублікований.

Мій тестовий текст, створений штучним інтелектом, отримав оцінку 94% “написано людиною”, що є досить низьким показником, порівняно з іншими інструментами. Тим не менш, цей інструмент варто використовувати для виявлення контенту ChatGPT, особливо якщо він вже опублікований.

#5. Draft & Goal

Простий, але потужний інструмент для виявлення текстів, створених ШІ. З мого досвіду Draft & Goal показує схожі результати, що і Content At Scale, але він не має обмежень на кількість слів, дозволяючи сканувати довгі тексти. Проте, час сканування збільшується, в залежності від обсягу тексту.

В моєму прикладі тексту інструмент визначив, що 94% тексту є згенерованим штучним інтелектом.

Мої роздуми 💭

Я вважаю, що штучний інтелект може бути корисним інструментом для подолання творчої кризи, пошуку необхідної інформації та отримання натхнення. Однак він ніколи не повинен замінювати людський текст, оскільки ШІ обмежений вже наявними знаннями.

Також рекомендую ознайомитися з найкращими інструментами перевірки на плагіат, щоб уникнути копіювання.