Як завантажити та встановити Llama 2 локально

Meta випустила Llama 2 влітку 2023 року. Нова версія Llama налаштована на 40% більше токенів, ніж оригінальна модель Llama, подвоївши довжину контексту та значно перевершуючи інші доступні моделі з відкритим кодом. Найшвидший і найпростіший спосіб отримати доступ до Llama 2 — через API через онлайн-платформу. Однак якщо ви хочете отримати найкращий досвід, найкраще встановити та завантажити Llama 2 безпосередньо на комп’ютері.

Пам’ятаючи про це, ми створили покроковий посібник із використання Text-Generation-WebUI для локального завантаження квантованого Llama 2 LLM на ваш комп’ютер.

Навіщо встановлювати Llama 2 локально

Є багато причин, чому люди вирішують запускати Llama 2 безпосередньо. Деякі роблять це з міркувань конфіденційності, деякі для налаштування, а інші для офлайн-можливостей. Якщо ви досліджуєте, налаштовуєте чи інтегруєте Llama 2 у свої проекти, то доступ до Llama 2 через API може бути не для вас. Сенс запуску LLM локально на вашому ПК полягає в тому, щоб зменшити залежність від сторонніх інструментів штучного інтелекту та використовувати штучний інтелект у будь-який час і будь-де, не турбуючись про витік потенційно конфіденційних даних компаніям та іншим організаціям.

З огляду на це, давайте почнемо з покрокового посібника з локального встановлення Llama 2.

Щоб спростити речі, ми будемо використовувати інсталятор одним клацанням миші для Text-Generation-WebUI (програма, яка використовується для завантаження Llama 2 з GUI). Однак, щоб цей інсталятор працював, вам потрібно завантажити Visual Studio 2019 Build Tool і встановити необхідні ресурси.

Завантажити: Visual Studio 2019 (безкоштовно)

  Як користуватися мережею Jio 5G в Індії
  • Завантажте програмне забезпечення для спільноти.
  • Тепер інсталюйте Visual Studio 2019, а потім відкрийте програмне забезпечення. Після відкриття встановіть прапорець «Розробка робочого столу за допомогою C++» і натисніть «Установити».
  • Тепер, коли ви встановили Desktop development with C++, настав час завантажити інсталятор Text-Generation-WebUI одним клацанням миші.

    Крок 2. Встановіть Text-Generation-WebUI

    Інсталятор Text-Generation-WebUI одним клацанням миші — це сценарій, який автоматично створює необхідні папки та налаштовує середовище Conda та всі необхідні вимоги для запуску моделі ШІ.

    Щоб установити сценарій, завантажте програму встановлення одним клацанням миші, натиснувши «Код» > «Завантажити ZIP».

    Завантажити: Встановлювач WebUI Text-Generation (безкоштовно)

  • Після завантаження розпакуйте ZIP-файл у потрібне місце, а потім відкрийте розпаковану папку.
  • У папці прокрутіть вниз і знайдіть відповідну програму запуску для вашої операційної системи. Запустіть програми, двічі клацнувши відповідний сценарій.
    • Якщо ви використовуєте Windows, виберіть пакетний файл start_windows
    • для MacOS виберіть сценарій оболонки start_macos
    • для Linux, сценарій оболонки start_linux.
  • Ваш антивірус може створити сповіщення; це добре. Підказка — це лише помилковий результат антивіруса для запуску пакетного файлу або сценарію. Натисніть Все одно запустити.
  • Відкриється термінал і почнеться налаштування. На початку налаштування призупиниться та запитає, який графічний процесор ви використовуєте. Виберіть відповідний тип графічного процесора, встановленого на вашому комп’ютері, і натисніть Enter. Для тих, у кого немає спеціальної відеокарти, виберіть «Немає» (я хочу запускати моделі в режимі ЦП). Майте на увазі, що робота в режимі ЦП набагато повільніша порівняно з роботою моделі з виділеним графічним процесором.
  • Після завершення налаштування ви можете локально запустити Text-Generation-WebUI. Ви можете зробити це, відкривши бажаний веб-браузер і ввівши надану IP-адресу в URL-адресу.
  • WebUI тепер готовий до використання.
  •   Як налаштувати екран Apple CarPlay

    Однак програма є лише завантажувачем моделі. Давайте завантажимо Llama 2 для запуску моделі завантажувача.

    Крок 3: Завантажте модель Llama 2

    Вирішуючи, яка ітерація Llama 2 вам потрібна, потрібно враховувати чимало речей. До них належать параметри, квантування, апаратна оптимізація, розмір і використання. Вся ця інформація буде позначена в назві моделі.

    • Параметри: кількість параметрів, які використовуються для навчання моделі. Більші параметри роблять моделі ефективнішими, але за рахунок продуктивності.
    • Використання: може бути стандартним або чатом. Модель чату оптимізовано для використання як чат-бот, наприклад ChatGPT, тоді як стандартна модель є типовою.
    • Оптимізація обладнання: вказує на те, яке обладнання найкраще запускає модель. GPTQ означає, що модель оптимізовано для роботи на виділеному GPU, тоді як GGML оптимізовано для роботи на CPU.
    • Квантування: позначає точність ваг і активацій у моделі. Для логічного висновку оптимальною є точність q4.
    • Розмір: Відноситься до розміру конкретної моделі.

    Зауважте, що деякі моделі можуть бути організовані по-іншому та навіть не мати однакових типів інформації. Однак цей тип іменування є досить поширеним у бібліотеці HuggingFace Model, тому його все одно варто зрозуміти.

    У цьому прикладі модель можна ідентифікувати як модель Llama 2 середнього розміру, навчену на 13 мільярдах параметрів, оптимізовану для створення висновків у чаті за допомогою виділеного ЦП.

    Для тих, хто працює на виділеному GPU, виберіть модель GPTQ, а для тих, хто використовує CPU, виберіть GGML. Якщо ви хочете спілкуватися з моделлю, як із ChatGPT, виберіть чат, але якщо ви хочете поекспериментувати з моделлю з усіма її можливостями, скористайтеся стандартною моделлю. Що стосується параметрів, знайте, що використання більших моделей забезпечить кращі результати за рахунок продуктивності. Особисто я рекомендую вам почати з моделі 7B. Що стосується квантування, використовуйте q4, оскільки воно лише для логічного висновку.

      Що таке генератор мемів Top Text Bottom Text?

    Завантажити: GGML (безкоштовно)

    Завантажити: GPTQ (безкоштовно)

    Тепер, коли ви знаєте, яка ітерація Llama 2 вам потрібна, завантажте потрібну модель.

    У моєму випадку, оскільки я запускаю це на ультрабуці, я буду використовувати модель GGML, налаштовану для чату, llama-2-7b-chat-ggmlv3.q4_K_S.bin.

    Після завершення завантаження розмістіть модель у text-generation-webui-main > models.

    Тепер, коли ваша модель завантажена та розміщена в папці моделі, настав час налаштувати завантажувач моделі.

    Крок 4: Налаштуйте Text-Generation-WebUI

    Тепер почнемо етап налаштування.

  • Ще раз відкрийте Text-Generation-WebUI, запустивши файл start_(ваша ОС) (див. попередні кроки вище).
  • На вкладках, розташованих над графічним інтерфейсом користувача, натисніть «Модель». Натисніть кнопку оновлення в спадному меню моделі та виберіть свою модель.
  • Тепер натисніть спадне меню завантажувача моделей і виберіть AutoGPTQ для тих, хто використовує модель GTPQ, і ctransformers для тих, хто використовує модель GGML. Нарешті натисніть «Завантажити», щоб завантажити свою модель.
  • Щоб використовувати модель, відкрийте вкладку «Чат» і почніть тестувати модель.
  • Вітаємо, ви успішно завантажили Llama2 на свій локальний комп’ютер!

    Спробуйте інші LLM

    Тепер, коли ви знаєте, як запускати Llama 2 безпосередньо на своєму комп’ютері за допомогою Text-Generation-WebUI, ви також повинні мати можливість запускати інші LLM, окрім Llama. Просто пам’ятайте про правила іменування моделей і про те, що на звичайні комп’ютери можна завантажити лише квантовані версії моделей (зазвичай з точністю q4). Багато квантованих LLM доступні на HuggingFace. Якщо ви хочете дослідити інші моделі, знайдіть TheBloke у бібліотеці моделей HuggingFace, і ви знайдете багато доступних моделей.