Графічні процесори NVIDIA серії RTX 3000: ось що нового

1 вересня 2020 року компанія NVIDIA представила нову лінійку графічних процесорів для ігор, відому як серія RTX 3000, яка базується на архітектурі Ampere. Розглянемо детальніше інновації, програмне забезпечення зі штучним інтелектом, що йде в комплекті, та інші особливості, які виділяють це покоління.

Зустрічайте нові графічні процесори RTX 3000

Ключовою подією від NVIDIA став анонс нових відеокарт, створених на основі 8-нм техпроцесу. Ці процесори забезпечують значний приріст продуктивності як при растеризації, так і при трасуванні променів.

В початковому сегменті лінійки знаходиться RTX 3070, оцінена в 499 доларів США. Хоча вона дещо дорожча за найдешевшу карту, анонсовану NVIDIA на початку, її продуктивність перевершує RTX 2080 Ti, топову карту, що раніше продавалася за 1400 доларів. Ціни на RTX 2080 Ti на вторинному ринку після оголошення впали, досягнувши позначки менше ніж 600 доларів на eBay.

Оскільки на момент анонсу не було незалежних тестів, важко однозначно стверджувати, що 3070 дійсно “краща” за 2080 Ti. Тестування проводилося в роздільній здатності 4K з активованим RTX, що могло спотворити результати на користь серії 3000, яка на архітектурі Ampere має подвійну продуктивність трасування променів порівняно з Turing. Проте, важливим є факт, що 3070 за вартістю майже втричі нижчою від попереднього флагмана, пропонує аналогічну швидкість, а трасування променів стає все більш популярною технологією, підтримуваною консолями нового покоління.

Також залишається відкритим питання щодо стабільності ціни. Моделі від партнерів NVIDIA зазвичай додають щонайменше 50 доларів до вартості. Враховуючи високий попит, не дивно, що вже в жовтні 2020 року 3070 продавали за 600 доларів.

Наступним рівнем є RTX 3080 за 699 доларів, яка має бути вдвічі швидшою за RTX 2080 та на 25-30% швидшою за 3070.

В топі лінійки знаходиться новий флагман RTX 3090, що відрізняється великими розмірами. NVIDIA називає його “BFGPU”, що розшифровується як “Big Ferocious GPU” (Великий Лютий Графічний Процесор).

NVIDIA не надала точних даних продуктивності, але продемонструвала запуск ігор в роздільній здатності 8K при 60 кадрах на секунду. Звісно, для цього швидше за все використовується DLSS, але факт залишається фактом – 8K геймінг стає реальністю.

Згодом очікуються 3060 та інші бюджетніші варіанти, але їх вихід на ринок відбудеться пізніше.

Для ефективного охолодження NVIDIA розробила оновлену конструкцію кулера. Модель 3080 має споживання 320 Вт, що досить багато, тому компанія обрала двовентиляторну конструкцію. Однак, на відміну від традиційного розміщення обох вентиляторів внизу, NVIDIA встановила один вентилятор зверху, де зазвичай знаходиться задня панель. Цей вентилятор направляє повітря вгору, до кулера процесора та верхньої частини корпусу.

Враховуючи вплив повітряного потоку в корпусі на продуктивність, таке рішення є виправданим. З іншого боку, це призводить до більш тісної компоновки друкованої плати, що може вплинути на ціни на моделі від сторонніх виробників.

DLSS: Перевага програмного забезпечення

Трасування променів не є єдиною перевагою нових відеокарт. RTX 2000 та 3000 не мають значної переваги в продуктивності при фактичному трасуванні променів в порівнянні зі старшими поколіннями. Обробка трасування променів всієї 3D сцени в таких програмах, як Blender, може займати кілька секунд або навіть хвилин на кадр, тому досягнення швидкості менше 10 мілісекунд неможливе.

Хоча існують спеціалізовані блоки для обчислення променів (ядра RT), NVIDIA обрала інший шлях. Компанія покращила алгоритми шумозаглушення, які дозволяють відеокартам рендерити неякісний перший прохід, а потім – за допомогою штучного інтелекту – перетворювати його у прийнятний для геймера вигляд. В поєднанні з традиційними методами растеризації це забезпечує комфортний ігровий процес з покращеним ефектом трасування променів.

Для прискорення цих процесів NVIDIA додала спеціальні ядра для обробки штучного інтелекту, так звані тензорні ядра. Вони швидко виконують обчислення, необхідні для роботи моделей машинного навчання. Це революційна технологія для штучного інтелекту у сфері хмарних серверів, де ШІ застосовується багатьма компаніями.

Окрім шумозаглушення, головним застосуванням тензорних ядер для геймерів є DLSS (Deep Learning Super Sampling). Ця технологія бере зображення з низькою роздільною здатністю та покращує його до рівня повної якості. Це означає, що ви можете грати, отримуючи частоту кадрів рівня 1080p, але бачити картинку 4K.

Це також значно підвищує ефективність трасування променів. Тестування від PCMag показало, що RTX 2080 Super в грі Control з максимальними налаштуваннями трасування променів видає лише 19 кадрів на секунду в 4K. Але з активованим DLSS фреймрейт досягає 54 кадрів на секунду. DLSS – це фактично безкоштовне підвищення продуктивності для NVIDIA, що стало можливим завдяки тензорним ядрам в архітектурах Turing та Ampere. Будь-яка гра, що підтримує DLSS та залежить від потужності GPU, може отримати значний приріст продуктивності лише завдяки програмному забезпеченню.

DLSS не є новинкою і був представлений як функція ще два роки тому, коли вийшла серія RTX 2000. Проте тоді його підтримувало дуже мало ігор, оскільки NVIDIA мала навчати та налаштовувати модель машинного навчання для кожної гри окремо.

З того часу NVIDIA повністю переписала цю технологію, представивши нову версію DLSS 2.0. Це універсальний API, який будь-який розробник може інтегрувати, і він вже активно використовується у багатьох іграх. Замість того, щоб працювати з одним кадром, він бере векторні дані з попереднього кадру, як TAA. Результат є чіткішим, ніж DLSS 1.0, а в деяких випадках виглядає навіть краще, ніж оригінальна роздільна здатність. Тому немає причин не використовувати його.

Є лише один нюанс: під час різкої зміни сцени, як у відеороликах, DLSS 2.0 на кілька мілісекунд відображає перший кадр із 50% якістю, очікуючи на векторні дані. Проте, 99% контенту відтворюватиметься належним чином, і більшість користувачів не помітить цієї особливості.

Архітектура Ampere: створена для AI

Ampere є дуже швидкою архітектурою, особливо в обчисленнях ШІ. Ядра RT в 1,7 раза швидші, ніж в Turing, а нові тензорні ядра – в 2,7 раза. Поєднання цих двох технологій забезпечує значний прорив у продуктивності трасування променів.

Раніше цього року, NVIDIA випустила Ampere A100, графічний процесор для дата-центрів, розроблений для роботи зі штучним інтелектом. Компанія детально розповіла про те, що робить Ampere настільки швидким. Для дата-центрів і високопродуктивних обчислень Ampere приблизно в 1,7 раза швидший за Turing. При навчанні ШІ приріст швидкості сягає 6 разів.

В Ampere NVIDIA використовує новий формат чисел, що має замінити стандартний “Floating-Point 32” або FP32 в деяких задачах. Кожне число, яке обробляє комп’ютер, займає певну кількість бітів в пам’яті (8, 16, 32, 64 і т.д.). Обробка більших чисел є більш ресурсозатратною. Тому, якщо можливо використовувати менший розмір, можна досягти кращої продуктивності.

FP32 зберігає 32-бітове десяткове число, де 8 біт використовуються для діапазону числа, а 23 біти для точності. NVIDIA стверджує, що ці 23 біти точності є надлишковими для багатьох завдань ШІ і можна отримати подібні результати з кращою продуктивністю, використовуючи лише 10 з них. Зменшення розміру з 32 до 19 біт суттєво впливає на швидкість обчислень.

Цей новий формат називається Tensor Float 32, а тензорні ядра в A100 оптимізовані для роботи з ним. Це, разом зі зменшенням розміру та збільшенням кількості ядер, забезпечує шестикратне прискорення при навчанні ШІ.

Окрім нового формату чисел, Ampere демонструє значний приріст продуктивності в обчисленнях FP32 і FP64. Це не призводить до прямого збільшення FPS для звичайного користувача, але є одним з факторів, що роблять його майже втричі швидшим в операціях Tensor.

Для подальшого прискорення обчислень було введено концепцію дрібнозернистої структурованої розрідженості. Нейронні мережі працюють з великими списками чисел (ваг), що впливають на кінцевий результат. Чим більше чисел обробляється, тим повільніше відбувається процес.

Не всі ці числа є корисними. Деякі з них дорівнюють нулю і можуть бути відкинуті, що значно прискорює обчислення. Розрідженість, по суті, стискає числа, вимагаючи менше обчислювальних ресурсів. Нове “Sparse Tensor Core” створено для роботи зі стиснутими даними.

NVIDIA запевняє, що ці зміни не впливають на точність навчання моделей.

Для обчислень Sparse INT8, одного з найменших числових форматів, максимальна продуктивність одного GPU A100 становить понад 1,25 Петафлопс, що є вражаючим показником. Звісно, це лише при визначенні одного конкретного числа, але результат вражає.