Чому контекст одного мільйона токенів Gemini 1.5 змінює правила гри

Ключові висновки

  • Google Gemini 1.5 представляє контекстне вікно в один мільйон токенів, перевершуючи таких конкурентів, як Claude і ChatGPT.
  • Більше контекстне вікно покращує продуктивність моделі штучного інтелекту та зменшує кількість помилок, але може не гарантувати загального успіху.
  • Більше контекстне вікно Gemini 1.5 може значно підвищити точність, зменшити кількість помилок і покращити розуміння.

Google Gemini 1.5 тепер має величезне контекстне вікно в один мільйон токенів, що затьмарює пряму конкуренцію в ChatGPT, Claude та інших чат-ботах AI.

Звучить як масштабне оновлення і може виділити Gemini окремо. Трохи складно осягнути його повний масштаб, але величезне контекстне вікно Gemini може змінити правила гри.

Що таке контекстне вікно?

Відповідаючи на ваші запити, як-от пояснюючи концепцію чи підсумовуючи текст, моделі штучного інтелекту мають обмеження на кількість даних, які вони можуть розглянути для створення відповіді. Обмеження розміру тексту, який він може враховувати, називається контекстним вікном.

Ось інший погляд на це. Припустімо, ви йдете в продуктовий магазин, щоб купити продукти без списку продуктів. Обмеження кількості продуктів, які ви запам’ятали під час покупки, – це контекстне вікно. Чим більше продуктів ви запам’ятаєте, тим вищі шанси не зіпсувати свої плани покупок. Подібним чином, чим більше контекстне вікно моделі штучного інтелекту, тим вищі шанси моделі запам’ятати все, що їй потрібно, щоб забезпечити вам найкращі результати.

На момент написання статті вікно контексту Claude 2.1 від Anthropic розміром 200 тис. є найбільшим серед загальнодоступних моделей ШІ. Далі йде GPT-4 Turbo з контекстним вікном 128k. Google Gemini 1.5 пропонує один мільйон контекстних вікон, що в чотири рази більше, ніж будь-що на ринку. Це призводить до великого питання: що таке таке важливе контекстне вікно з мільйоном токенів?

Чому контекстне вікно Gemini 1.5 є важливою справою

Розумні макети

Якщо говорити про це в більш чіткій перспективі, контекстне вікно Claude AI 200 тис. означає, що він може переварити книгу приблизно з 150 000 слів і дати відповіді на неї. Це масивно. Але Gemini 1.5 від Google міг би переварити 700 000 слів за один раз!

Коли ви передаєте великий текстовий блок у чат-боти штучного інтелекту, такі як ChatGPT або Gemini, він намагається переварити якомога більше тексту, але те, скільки він зможе переварити, залежить від контекстного вікна. Отже, якщо ви ведете розмову, яка містить 100 тисяч слів на моделі, яка може обробляти лише 28 тисяч, а потім починаєте задавати запитання, які вимагають повного знання всіх 100 тисяч слів розмови, ви налаштовуєте її на провал.

Уявіть, що ви дивитесь лише 20 хвилин годинного фільму, але вас просять пояснити весь фільм. Наскільки гарними були б ваші результати? Ви або відмовляєтеся відповідати, або просто щось вигадуєте, що саме зробив би чат-бот ШІ, що призвело б до галюцинацій ШІ.

Тепер, якщо ви думаєте, що вам ніколи не доводилося вводити 100 тисяч слів у чат-бота, це ще не все. Контекстне вікно виходить за рамки лише тексту, який ви подаєте в модель ШІ в одній підказці. Моделі штучного інтелекту враховують всю розмову, яку ви мали під час сеансу чату, щоб переконатися, що їхні відповіді були якомога релевантнішими.

Таким чином, навіть якщо ви не подаєте йому книгу зі словами на 100 тисяч, ваші розмови вперед і назад і відповіді, які він надає, додають до обчислення контекстного вікна. Вам цікаво, чому ChatGPT або Google Gemini постійно забувають те, що ви сказали їм раніше в розмові? Ймовірно, вичерпано простір вікна контексту, і він почав забувати речі.

Більше контекстне вікно особливо важливо для завдань, які вимагають глибокого розуміння контексту, таких як підсумовування довгих статей, відповіді на складні запитання або підтримка зв’язної розповіді у створеному тексті. Хочете написати роман на 50 тисяч слів, який має послідовну розповідь? Хочете модель, яка може «переглядати» одногодинний відеофайл і відповідати на нього? Вам потрібно більше контекстне вікно!

Коротше кажучи, велике контекстне вікно Gemini 1.5 може значно покращити продуктивність моделі ШІ, зменшивши галюцинації та значно підвищивши точність і здатність краще виконувати інструкції.

Чи виправдає Gemini 1.5 очікування?

Якщо все піде за планом, Gemini 1.5 потенційно може перевершити найкращі моделі ШІ на ринку. Однак, враховуючи численні невдачі Google у створенні стабільної моделі ШІ, важливо бути обережним. Збільшення контекстного вікна моделі не робить модель автоматично кращою.

Я використовував вікно контексту Claude 2.1 розміром 200 тисяч місяців з моменту його випуску, і мені зрозуміло одне: велике вікно контексту справді може покращити чутливість до контексту, але проблеми з продуктивністю основної моделі можуть зробити більший контекст проблемою власні.

Чи Google Gemini 1.5 змінить правила гри? Наразі соціальні мережі наповнені яскравими відгуками про Gemini 1.5 від користувачів раннього доступу. Однак більшість 5-зіркових відгуків походять від поспішних або спрощених випадків використання. Гарне місце, щоб перевірити, як Gemini 1.5 працюватиме в дикій природі, знаходиться в Google Технічний звіт Gemini 1.5 [PDF]. Звіт показує, що навіть під час «контрольованого тестування» модель не могла отримати всі крихітні деталі документів у межах розміру контекстного вікна.

Контекстне вікно в один мільйон токенів — справді вражаюче технічне досягнення, але без можливості надійного отримання деталей документа більше контекстне вікно не має практичної цінності та може навіть стати причиною зниження точності та галюцинацій.