Технологія nvidia gpu boost 2.0. Сімейства відеокарт Nvidia GeForce Довідкова інформація. Хочу перевірити його у справі

GPU Boost 2.0

З відеокартою NVIDIA GeForce GTX 680 ми отримали нову функцію: GPU Boost. І нова NVIDIA GeForce GTX Titan пішла ще крок далі, розширивши цю функцію до версії GPU Boost 2.0. Перший варіант GPU Boost 1.0 орієнтувався на максимальне енергоспоживання, яке досягається в найвибагливіших сучасних іграх. При цьому температура GPU не відігравала особливої ​​ролі, хіба якщо вона впритул підходила до критичного порога. Максимальна тактова частота визначалася з урахуванням відносного напруги. Недолік був цілком очевидним: GPU Boost 1.0 не могла запобігти ситуації, коли навіть при некритичній напрузі температура надмірно збільшувалася.

NVIDIA GeForce GTX Titan - GPU-Boost 2.0

У GeForce GTX Titan оцінюються вже два параметри: напруга та температура. Тобто відносна напруга (Vref) визначається вже основі двох даних параметрів. Звичайно, залежність від окремих екземплярів GPU збережеться, оскільки розкид при виробництві чіпів існує, тому кожна відеокарта відрізнятиметься від будь-якої іншої. Але NVIDIA вказує, що технічно добавка температури дозволила дати в середньому на 3-7 відсотків вищий розгін Boost. Технологія GPU Boost 2.0 теоретично може бути перенесена на старі відеокарти, але навряд це станеться.

NVIDIA GeForce GTX Titan - GPU-Boost 2.0

Дозвольте розглянути GPU Boost 2.0 докладніше. Утиліти, подібні до EVGA Precision Tool або MSI Afterburner, вже підтримують GPU Boost 2.0. Ми використовували утиліту EVGA Precision Tool у версії 4.0.

NVIDIA GeForce GTX Titan - GPU-Boost 2.0

GPU Boost 2.0 враховує температуру, і за низьких температур технологія може суттєво збільшувати продуктивність. Цільова температура (Ttarget) за умовчанням виставлена ​​на рівень 80 °C.

NVIDIA GeForce GTX Titan - GPU-Boost 2.0

Технологія GPU Boost 2.0 містить усі функції, знайомі нам по першому поколінню технології, але при цьому додатково дає можливість виставляти вищу напругу, отже, і більш високі тактові частоти. Для оверклокерів є можливість змінити налаштування. Можна увімкнути GPU Overvoltage, але при цьому слід пам'ятати про потенційне зниження терміну служби відеокарти.

NVIDIA GeForce GTX Titan - GPU-Boost 2.0

Оверклокери можуть піднімати Vref та Vmax (OverVoltaging). Цього хотіли багато користувачів на GK104, але NVIDIA не довірила подібну нагоду ні користувачам, ні виробникам. І протестована нами відеокарта EVGA GTX 680 Classified (тест та огляд) якраз є чудовим прикладом. У цій відеокарти спеціальний модуль EVGA Evbot забезпечував користувачам контроль над напругою. Але NVIDIA терміново зажадала, щоб EVGA прибрала додаткове обладнання своїх відеокарт. У випадку GPU Boost 2.0 та OverVoltaging NVIDIA сама зробила крок у цьому напрямку. Отже, виробники відеокарт можуть випускати кілька моделей GeForce GTX Titan, наприклад, стандартні версіїта варіанти із заводським розгоном. Активація OverVoltaging виконується через перемикач VBIOS (тобто явно для користувача, щоб він усвідомлював можливі наслідки).

ПараметрЗначення
Кодове ім'я чіпаGP104
Технологія виробництва16 нм FinFET
Кількість транзисторів7,2 млрд.
Площа ядра314 мм²
Архітектура
Апаратна підтримка DirectX
Шина пам'яті
1607 (1733) МГц
Обчислювальні блоки20 потокових мультипроцесорів, що включають 2560 скалярних ALU для розрахунків з плаваючою комою в рамках стандарту IEEE 754-2008;
Блоки текстурування160 блоків текстурної адресації та фільтрації з підтримкою FP16- та FP32-компонент у текстурах та підтримкою трилінійної та анізотропної фільтрації для всіх текстурних форматів
Підтримка моніторів
Специфікації референсної відеокарти GeForce GTX 1080
ПараметрЗначення
Частота ядра1607 (1733) МГц
2560
Кількість текстурних блоків160
Кількість блоків блендінгу64
Ефективна частота пам'яті10000 (4×2500) МГц
Тип пам'ятіGDDR5X
Шина пам'яті256-біт
Обсяг пам'яті8 ГБ
320 ГБ/с
близько 9 терафлопс
103 гігапікселів/с
257 гігатекселів/с
ШинаPCI Express 3.0
Роз'єми
Енергоспоживаннядо 180 Вт
Додаткове харчуванняОдин 8-контактний роз'єм
2
Рекомендована ціна$599-699 (США), 54990 руб (Росія)

Нова модель відеокарти GeForce GTX 1080 отримала логічне для першого рішення нової серії GeForce найменування - вона відрізняється від свого прямого попередника тільки зміненою цифрою покоління. Новинка не просто замінює в поточній лінійці компанії топові рішення, але й на якийсь час стала флагманом нової серії, доки не випустили Titan X на GPU ще більшої потужності. Нижче її в ієрархії розташовується також анонсована модель GeForce GTX 1070, заснована на урізаній версії чіпа GP104, яку ми ще розглянемо нижче.

Рекомендовані ціни на нову відеоплату Nvidia становлять $599 і $699 для звичайних версій та спеціального видання Founders Edition (див. далі), відповідно, і це досить непогана пропозиція з урахуванням того, що GTX 1080 випереджає не лише GTX 980 Ti, а й Titan X. На сьогодні новинка є найкращим за продуктивністю рішенням на ринку одночіпових відеокарт без будь-яких питань, і при цьому вона коштує дешевше за найпродуктивніші відеокарти попереднього покоління. Поки що конкурента від AMD у GeForce GTX 1080 по суті немає, тому в Nvidia змогли встановити таку ціну, яка їх влаштовує.

Розглянута відеокарта заснована на чіпі GP104, що має 256-бітну шину пам'яті, але новий тип пам'яті GDDR5X працює на дуже високій ефективній частоті 10 ГГц, що дає високу пікову пропускну здатність в 320 ГБ/с - що майже на рівні GTX 980 Ti з 384 -бітною шиною. Об'єм встановленої на відеокарту пам'яті з такою шиною міг дорівнювати 4 або 8 ГБ, але ставити менший об'єм для настільки потужного рішення в сучасних умовах було б безглуздо, тому GTX 1080 цілком логічно отримала 8 ГБ пам'яті, і цього об'єму вистачить для запуску будь-яких 3D- програм з будь-якими налаштуваннями якості на кілька років уперед.

Друкована плата GeForce GTX 1080 зі зрозумілих причин відрізняється від попередніх PCB компанії. Значення типового енергоспоживання для новинки становить 180 Вт - це трохи вище, ніж у GTX 980, але помітно нижче, ніж менш продуктивних Titan X і GTX 980 Ti. Референсна плата має звичний набір роз'ємів для приєднання пристроїв виведення зображення: один Dual-Link DVI, один HDMI та три DisplayPort.

Референсний дизайн Founders Edition

Ще при анонсі GeForce GTX 1080 на початку травня було оголошено спеціальне видання відеокарти під назвою Founders Edition, що має вищу ціну, порівняно із звичайними відеокартами партнерів компанії. По суті, це видання є референсним дизайном карти та системи охолодження, і виробляється воно самою компанією Nvidia. Можна по-різному ставитися до таких варіантів відеокарт, але розроблений інженерами компанії референсний дизайн та вироблена із застосуванням якісних компонентів конструкція має своїх шанувальників.

А ось чи будуть вони віддавати на кілька тисяч рублів більше за відеокарту від самої Nvidia – це питання, відповідь на яке може дати лише практика. У будь-якому випадку, спочатку у продажу з'являться саме референсні відеокарти від Nvidia за підвищеною ціною, і вибирати особливо нема з чого - так буває при кожному анонсі, але референсна GeForce GTX 1080 відрізняється тим, що в такому вигляді її планується продавати протягом усього терміну її життя, до виходу рішень наступного покоління.

У Nvidia вважають, що це видання має свої переваги навіть перед найкращими творами партнерів. Наприклад, двослотовий дизайн кулера дозволяє легко збирати на основі цієї потужної відеокарти як ігрові ПК порівняно невеликого форм-фактора, так і багаточіпові відеосистеми (навіть незважаючи на нерекомендований компанією режим роботи в три- і чотиричіповому режимі). GeForce GTX 1080 Founders Edition має деякі переваги у вигляді ефективного кулера з використанням випарної камери та вентилятора, що викидає нагріте повітря з корпусу – це перше таке рішення Nvidia, що споживає менше 250 Вт енергії.

Порівняно з попередніми референсними дизайнами продуктів компанії, схема харчування була модернізована з чотирифазної до п'ятифазної. У Nvidia говорять і про покращені компоненти, на яких заснована новинка, також було знижено електричні перешкоди, що дозволяють покращити стабільність напруги та розгінний потенціал. Внаслідок всіх покращень енергоефективність референсної плати збільшилася на 6% порівняно з GeForce GTX 980.

А для того, щоб відрізнятись від «звичайних» моделей GeForce GTX 1080 і зовні, для Founders Edition розробили незвичайний «рубаний» дизайн корпусу. Який, щоправда, напевно привів також і до ускладнення форми випарної камери та радіатора (див. фото), що можливо і послужило одним із приводів для доплати $100 за таке спеціальне видання. Повторимося, що на початку продажу особливого вибору у покупців не буде, але надалі можна буде вибрати рішення з власним дизайном від одного з партнерів компанії, так і у виконанні самої Nvidia.

Нове покоління графічної архітектури Pascal

Відеокарта GeForce GTX 1080 стала першим рішенням компанії на основі чіпа GP104, що належить до нового покоління графічної архітектури Nvidia – Pascal. Хоча нова архітектура взяла в основу рішення, відпрацьовані ще в Maxwell, у ній є й важливі функціональні відмінності, про які ми напишемо далі. Головною ж зміною з глобального погляду став новий технологічний процес, яким виконаний новий графічний процесор.

Застосування техпроцесу 16 нм FinFET при виробництві графічних процесорів GP104 на фабриках тайванської компанії TSMC дозволило значно підвищити складність чіпа за збереження порівняно невисокої площі та собівартості. Порівняйте кількість транзисторів і площа чіпів GP104 і GM204 - вони близькі за площею (кристал новинки навіть трохи менше фізично), але чіп архітектури Pascal має помітно більше транзисторів, а відповідно і виконавчих блоків, у тому числі що забезпечують нову функціональність.

З архітектурної точки зору перший ігровий Pascal дуже схожий на аналогічні рішення архітектури Maxwell, хоча є і деякі відмінності. Як і Maxwell, процесори архітектури Pascal будуть мати різну конфігурацію обчислювальних кластерів Graphics Processing Cluster (GPC), потокових мультипроцесорів Streaming Multiprocessor (SM) та контролерів пам'яті. Мультипроцесор SM – це високопаралельний мультипроцесор, який планує та запускає варпи (warp, групи з 32 потоків команд) на CUDA-ядрах та інших виконавчих блоках у мультипроцесорі. Детальні дані про влаштування всіх цих блоків ви можете знайти у наших оглядах попередніх рішень компанії Nvidia.

Кожен з мультипроцесорів SM спарений з двигуном PolyMorph Engine, який обробляє текстурні вибірки, тесселяцію, трансформацію, встановлення вершинних атрибутів та корекцію перспективи. На відміну від попередніх рішень компанії, PolyMorph Engine у ​​чіпі GP104 також містить новий блок мультипроектування Simultaneous Multi-Projection, про який ми ще поговоримо нижче. Комбінація мультипроцесора SM з одним двигуном Polymorph Engine зазвичай для Nvidia називається TPC - Texture Processor Cluster.

Усього чіп GP104 у складі GeForce GTX 1080 містить чотири кластери GPC та 20 мультипроцесорів SM, а також вісім контролерів пам'яті, об'єднаних із блоками ROP у кількості 64 штук. Кожен кластер GPC має виділений двигун растеризації і включає п'ять мультипроцесорів SM. Кожен мультипроцесор, у свою чергу, складається з 128 CUDA-ядер, 256 КБ регістрового файлу, 96 КБ пам'яті, що розділяється, 48 КБ кеш-пам'яті першого рівня і восьми текстурних блоків TMU. Тобто всього в GP104 міститься 2560 CUDA-ядер і 160 блоків TMU.

Також графічний процесор, на якому заснована відеокарта GeForce GTX 1080, містить вісім 32-бітних (на відміну від 64-бітних, що застосовуються раніше) контролерів пам'яті, що дає підсумкову 256-бітну шину пам'яті. До кожного з контролерів пам'яті прив'язано по вісім блоків ROP та 256 КБ кеш-пам'яті другого рівня. Тобто всього чіп GP104 містить 64 блоків ROP і 2048 КБ кеш-пам'яті другого рівня.

Завдяки архітектурним оптимізаціям та новому техпроцесу, перший ігровий Pascal став найенергоефективнішим графічним процесором за весь час. Причому внесок у це є як з боку одного з найдосконаліших технологічних процесів 16 нм FinFET, так і від проведених оптимізації архітектури в Pascal, порівняно з Maxwell. Nvidia змогли підвищити тактову частоту навіть більше, ніж вони розраховували при переході на новий техпроцес. GP104 працює на більш високій частоті, чим би працював гіпотетичний GM204, випущений за допомогою техпроцесу 16 нм. Для цього інженерам Nvidia довелося ретельно перевірити та оптимізувати всі вузькі місця попередніх рішень, що не дають розігнатися вище за певний поріг. В результаті, Нова модель GeForce GTX 1080 працює більш ніж на 40% підвищеної частоти, порівняно з GeForce GTX 980. Але це ще не всі зміни, пов'язані із частотою роботи GPU.

Технологія GPU Boost 3.0

Як ми добре знаємо за попередніми відеокартами Nvidia, у своїх графічних процесорах вони застосовують апаратну технологію GPU Boost, призначену для збільшення робочої тактової частоти GPU в режимах, коли він ще не досяг меж з енергоспоживання та тепловиділення. За минулі роки цей алгоритм зазнав багатьох змін, і у відеочіпі архітектури Pascal застосовується вже третє покоління цієї технології – GPU Boost 3.0, основним нововведенням якого стала більш тонка установка турбо-частот залежно від напруги.

Якщо ви згадаєте принцип роботи попередніх версійтехнології, то різниця між базовою частотою (гарантоване мінімальне значення частоти, нижче за яке GPU не опускається, як мінімум в іграх) і турбо-частотою була фіксованою. Тобто, турбо-частота завжди була на певну кількість мегагерц вище за базову. У GPU Boost 3.0 з'явилася можливість встановлення зсувів турбо-частот для кожної напруги окремо. Найпростіше це зрозуміти з ілюстрації:

Зліва вказано GPU Boost другої версії, справа - третьої, що з'явилася Pascal. Фіксована різниця між базовою та турбо-частотами не давала розкрити можливості GPU повністю, у деяких випадках графічні процесори попередніх поколінь могли працювати швидше на встановленій напрузі, але фіксоване перевищення турбо-частоти не давало цього. У GPU Boost 3.0 така можливість з'явилася, і турбочастота може встановлюватися для кожного з індивідуальних значень напруги, повністю вичавлюючи всі соки з GPU.

Для того, щоб керувати розгоном та встановити криву турбо-частоти, потрібні зручні утиліти. Сама Nvidia цим не займається, але допомагає своїм партнерам створити подібні утиліти для полегшення розгону (в розумних межах, звичайно). Наприклад, нові функціональні можливості GPU Boost 3.0 вже розкрито в EVGA Precision XOC, що включає спеціальні сканер розгону, що автоматично знаходить і встановлює нелінійну різницю між базовою частотою і турбо-частотою для різних значень напруги за допомогою запуску вбудованого тесту продуктивності та стабільності. В результаті у користувача виходить крива турбо-частоти, що ідеально відповідає можливостям конкретного чіпа. Яку, до того ж, можна як завгодно модифікувати у ручному режимі.

Як ви бачите на скріншоті утиліти, на додаток до інформації про GPU та систему, є також налаштування для розгону: Power Target (визначає типове енергоспоживання при розгоні, у відсотках від стандартного), GPU Temp Target (максимально допустима температура ядра), GPU Clock Offset (перевищення над базовою частотою для всіх значень напруги), Memory Offset (перевищення частоти відеопам'яті над значенням за замовчуванням), Overvoltage ( додаткова можливістьпідвищення напруги).

Утиліта Precision XOC включає три режими розгону: основний Basic, лінійний Linear та ручний Manual. В основному режимі можна встановити єдине значення перевищення частоти (фіксовану турбо-частоту) над базовою, як це було для попередніх GPU. Лінійний режим дозволяє встановити лінійну зміну частоти від мінімальної до максимального значеньнапруги для GPU Ну і вручному режимі можна виставити унікальні значення частоти GPU для кожної точки напруги на графіку.

У складі утиліти є спеціальний сканер для автоматичного розгону. Можна встановити рівні частоти або дозволити утиліті Precision XOC просканувати GPU на всіх напругах і знайти максимально стабільні частоти для кожної точки на кривій напруги і частоти повністю автоматично. У процесі сканування Precision XOC поступово додає частоту GPU та перевіряє його роботу на стабільність або появу артефактів, будуючи ідеальну криву частот та напруг, яка буде унікальна для кожного конкретного чіпа.

Цей сканер можна налаштувати під свої власні вимоги, задавши тимчасовий відрізок тестування кожного значення напруги, мінімум і максимум частоти, що перевіряється, і її крок. Зрозуміло, що для досягнення стабільних результатів краще виставити невеликий крок та пристойну тривалість тестування. У процесі тестування може спостерігатись нестабільна робота відеодрайвера та системи, але якщо сканер не зависне, то відновить роботу та продовжить знаходження оптимальних частот.

Новий тип відеопам'яті GDDR5X та покращене стиснення

Отже, потужність графічного процесора помітно зросла, а шина пам'яті залишилася лише 256-бітною - чи не буде пропускна здатність пам'яті обмежувати загальну продуктивність і що з цим можна робити? Схоже, що перспективна HBM-пам'ять другого покоління все ще є занадто дорогою у виробництві, тому довелося шукати інші варіанти. Ще з моменту появи GDDR5-пам'яті у 2009 році інженери компанії Nvidia досліджували можливості використання нових типів пам'яті. В результаті розробки прийшли до впровадження нового стандарту пам'яті GDDR5X - найскладнішого і просунутого на сьогоднішній момент стандарту, що дає швидкість передачі 10 Gbps.

Nvidia наводить цікавий приклад того, як це швидко. Між переданими бітами проходить всього 100 пікосекунд - за такий час промінь світла пройде відстань лише в один дюйм (близько 2,5 см). І при використанні GDDR5X-пам'яті ланцюга прийому-передачі даних повинні менш ніж за половину цього часу вибрати значення переданого біта, до того, як буде надіслано наступний - це просто щоб ви розуміли, до чого дійшли сучасні технології.

Щоб досягти такої швидкості роботи, була потрібна розробка нової архітектури системи введення-виведення даних, що зажадала кілька років спільної розробки з виробниками чіпів пам'яті. Крім збільшеної швидкості передачі даних, виросла і енергоефективність - чіпи пам'яті стандарту GDDR5X використовують знижену напругу в 1,35 В і вироблені за новими технологіями, що дає те ж споживання енергії на 43% більшій частоті.

Інженерам компанії довелося переробляти лінії передачі даних між ядром GPU та чіпами пам'яті, більше уваги звертати на запобігання втраті та деградації сигналу на всьому шляху від пам'яті до GPU і назад. Так, на наведеній вище ілюстрації показаний захоплений сигнал у вигляді великого симетричного «очі», що говорить про хорошу оптимізацію всього ланцюга та відносну легкість захоплення даних із сигналу. Причому описані вище зміни призвели не тільки до можливості застосування GDDR5X на 10 ГГц, але також і повинні допомогти отримати високу ПСП на майбутніх продуктах, що використовують більш звичну пам'ять GDDR5.

Добре, що більш ніж 40% приросту в ПСП від застосування нової пам'яті ми отримали. Але чи не замало цього? Для подальшого збільшення ефективності використання смуги пропускання пам'яті Nvidia продовжили поліпшувати впроваджене ще в попередніх архітектурах просунуте стиснення даних. Підсистема пам'яті в GeForce GTX 1080 використовує покращені та кілька нових технік зі стиснення даних без втрат, призначені для зниження вимог до ПСП – вже четверте покоління внутрішньочипового стиску.

Алгоритми стиснення даних у пам'яті приносять кілька позитивних моментів. Стиснення знижує кількість даних, що записуються в пам'ять, те ж саме стосується даних, що пересилаються з відеопам'яті в кеш-пам'ять другого рівня, що покращує ефективність використання L2-кешу, так як стислий тайл (блок з декількох пікселів фреймбуфера) має менший розмір, ніж стиснутий. Також зменшується кількість даних, що пересилаються між різними точками, на кшталт текстурного модуля TMU та фреймбуфера.

Конвеєр стиснення даних у GPU використовує кілька алгоритмів, які визначаються залежно від «стисливості» даних – для них підбирається найкращий з наявних алгоритмів. Одним із найважливіших є алгоритм дельта-кодування даних про колір пікселів (delta color compression). Цей спосіб стиснення кодує дані у вигляді різниці між послідовними значеннями замість даних. GPU обчислює різницю в колірних значеннях між пікселями в блоці (тайлі) і зберігає блок як якийсь усереднений колір для всього блоку плюс дані про різницю у значеннях для кожного пікселя. Для графічних даних такий метод зазвичай добре підходить, оскільки колір у межах невеликих тайлів для всіх пікселів часто відрізняється не надто сильно.

Графічний процесор GP104 у складі GeForce GTX 1080 підтримує більшу кількість алгоритмів стиснення, порівняно з попередніми чіпами архітектури Maxwell. Так, алгоритм стиснення 2:1 став більш ефективним, а на додаток до нього з'явилися два нових алгоритми: режим стиснення 4:1, що підходить для випадків, коли різниця у значенні кольору пікселів блоку дуже невелика, і режим 8:1, що поєднує алгоритм постійного стиснення із співвідношенням 4:1 блоків розміром 2×2 пікселя з двократним стисненням дельти між блоками. Коли стиснення зовсім неможливе, воно не використовується.

Втім, насправді останнє буває дуже нечасто. У цьому можна переконатися за прикладами скріншотів з гри Project CARS, які привела Nvidia, щоб проілюструвати підвищений ступінь стиснення Pascal. На ілюстраціях пурпурним зафарбовані ті тайли кадрового буфера, які зміг стиснути графічний процесор, а не ті, що піддаються стиску без втрат, залишилися з оригінальним кольором (зверху - Maxwell, знизу - Pascal).

Як бачите, нові алгоритми стиснення у GP104 дійсно працюють набагато краще, ніж у Maxwell. Хоча стара архітектура також змогла стиснути більшість тайлів у сцені, велика кількість трав та дерев по краях, а також деталі машини не піддаються застарілим алгоритмам стиснення. Але при включенні в роботу нових технік в Pascal, несжатим залишилося дуже невелика кількість ділянок зображення - покращена ефективність.

В результаті поліпшень в стисненні даних, GeForce GTX 1080 здатний значно знизити кількість даних, що пересилаються в кожному кадрі. Якщо говорити про цифри, то покращене стиснення заощаджує додатково близько 20% ефективної смуги пропускання пам'яті. На додаток до більш ніж 40% підвищеної ПСП у GeForce GTX 1080 щодо GTX 980 від використання GDDR5X-пам'яті, все разом це дає близько 70% приросту в ефективному ПСП, порівняно з моделлю минулого покоління.

Підтримка асинхронних обчислень Async Compute

Більшість сучасних ігор використовують складні обчислення на додаток до графічних. Наприклад, обчислення при розрахунку поведінки фізичних тіл цілком можна проводити не до або після графічних обчислень, а одночасно з ними, тому що вони не пов'язані один з одним і не залежать один від одного в межах кадру. Також у приклад можна навести постобробку вже відрендерених кадрів та обробку аудіоданих, які також можна виконувати паралельно з рендерингом.

Ще одним яскравим прикладом використання функціональності служить техніка асинхронного спотворення часу (Asynchronous Time Warp), що використовується в системах віртуальної реальності для того, щоб змінити кадр, що видається відповідно до руху голови гравця прямо перед самим його висновком, перериваючи рендеринг наступного. Подібне асинхронне завантаження потужностей GPU дозволяє підвищити ефективність використання його виконавчих блоків.

Подібні навантаження створюють два нові сценарії використання GPU. Перший з них включає завантаження, що накладаються, так як багато типів завдань не використовують можливості графічних процесорів повністю, і частина ресурсів простоює. У таких випадках можна просто запустити на одному GPU два різні завдання, що розділяють його виконавчі блоки для отримання більш ефективного використання - наприклад PhysX-ефекти, що виконуються спільно з 3D-рендерингом кадру.

Для покращення роботи цього сценарію, в архітектурі Pascal з'явилося динамічне балансування завантаження (dynamic load balancing). У попередній архітектурі Maxwell перевантаження навантаження були виконані у вигляді статичного розподілу ресурсів GPU на графічні та обчислювальні. Такий підхід ефективний за умови, що баланс між двома навантаженнями приблизно відповідає поділу ресурсів та завдання виконуються однаково за часом. Якщо ж неграфічні обчислення виконуються довше графічних, і обидві очікують завершення спільної роботи, то частина GPU, що залишився, буде простоювати, що викличе зниження загальної продуктивності і зведе всю вигоду нанівець. Апаратне динамічне балансування завантаження ж дозволяє використовувати ресурси GPU, що звільнилися, відразу ж як вони стануть доступними - для розуміння наведемо ілюстрацію.

Існують і завдання, критичні до часу виконання, і це другий сценарій асинхронних обчислень. Наприклад, виконання алгоритму асинхронного спотворення часу в VR має завершитись до розгортки (scan out) або кадр буде відкинуто. У такому випадку, GPU повинен підтримувати дуже швидке переривання завдання та перемикання на інше, щоб зняти менш критичне завдання з виконання на GPU, звільнивши його ресурси для критично важливих завдань – це називається preemption.

Одна команда рендерингу від ігрового двигуна може містити сотні викликів функцій малювання, кожен виклик draw call, у свою чергу, містить сотні трикутників, що обробляються, кожен з яких містить сотні пікселів, які потрібно розрахувати і відмалювати. У традиційному підході на GPU використовується переривання задач тільки на високому рівні, і графічний конвеєр змушений чекати завершення всієї цієї роботи перед перемиканням завдання, що в результаті призводить до великих затримок.

Щоб виправити це, в архітектурі Pascal вперше було введено можливість переривання завдання на піксельному рівні – Pixel Level Preemption. Виконавчі блоки графічного процесора Pascal можуть постійно відслідковувати прогрес виконання завдань рендерингу, і коли переривання буде запитане, вони можуть зупинити виконання, зберігши контекст для подальшого завершення, швидко переключившись на інше завдання.

Переривання та перемикання на рівні потоку для обчислювальних операцій працює аналогічно до переривання на піксельному рівні для графічних обчислень. Обчислювальні навантаження складаються з декількох сіток, кожна з яких містить безліч потоків. Коли отриманий запит на переривання, що виконуються на мультипроцесорі потоки закінчують виконання. Інші блоки зберігають власний стан, щоб продовжити з того ж моменту надалі, і GPU переключається на інше завдання. Весь процес перемикання завдань займає менш ніж 100 мікросекунд після того, як потоки завершують роботу.

Для ігрових навантажень, поєднання переривань на піксельному рівні для графічних і переривання на рівні потоків для обчислювальних задач дає графічним процесорам архітектури Pascal можливість швидкого перемикання між завданнями з мінімальними втратами часу. А для обчислювальних завдань на CUDA також можливе переривання з мінімальною гранулярністю - на рівні інструкцій. У такому режимі всі потоки зупиняють виконання відразу, негайно перемикаючись на інше завдання. Цей підхід вимагає збереження більшої кількості інформації про стан усіх регістрів кожного потоку, але в деяких випадках неграфічних обчислень він цілком виправданий.

Використання швидкого переривання та перемикання завдань у графічних та обчислювальних задачах було додано до архітектури Pascal для того, щоб графічні та неграфічні завдання могли перериватися на рівні окремих інструкцій, а не цілих потоків, як було в Maxwell і Kepler. Ці технології здатні покращити асинхронне виконання різних навантажень на графічний процесор та покращити чуйність при одночасному виконанні кількох завдань. На заході Nvidia демонстрували роботу асинхронних обчислень на прикладі обчислення фізичних ефектів. Якщо без асинхронних обчислень продуктивність була лише на рівні 77-79 FPS, з включенням цих можливостей частота кадрів зросла до 93-94 FPS.

Ми вже наводили в приклад одну з можливостей застосування цієї функціональності в іграх як асинхронного спотворення часу в VR. На ілюстрації показано роботу цієї технології з традиційним перериванням (preemption) і з швидким. У першому випадку процес асинхронного спотворення часу намагаються виконати якомога пізніше, але до початку оновлення зображення на дисплеї. Але робота алгоритму повинна бути віддана на виконання в GPU декількома мілісекундами раніше, тому що без швидкого переривання немає можливості точно виконати роботу в потрібний момент і GPU простоює деякий час.

У разі точного переривання на рівні пікселів і потоків (на ілюстрації справа), така можливість дає велику точність у визначенні моменту переривання, асинхронне спотворення часу може бути запущене значно пізніше з впевненістю в завершенні роботи до початку оновлення інформації на дисплеї. А який простоює якийсь час у першому випадку GPU можна завантажити якоюсь додатковою графічною роботою.

Технологія мультипроеціювання Simultaneous Multi-Projection

У новому графічному процесорі GP104 з'явилася підтримка нової технології мультипроеціювання (Simultaneous Multi-Projection - SMP), що дозволяє GPU малювати дані на сучасних системахвиведення зображення ефективніше. SMP дозволяє відеочіпу одночасно виводити дані в кілька проекцій, для чого потрібно було ввести новий апаратний блок GPU до складу двигуна PolyMorph в кінці геометричного конвеєра перед блоком растеризації. Цей блок відповідає за роботу з кількома проекціями єдиного потоку геометрії.

Двигун мультипроеціювання обробляє геометричні дані одночасно для 16 заздалегідь налаштованих проекцій, що об'єднують точку проекції (камери), ці проекції можна незалежно обертати або нахиляти. Оскільки кожен геометричний примітив може з'явитися одночасно в декількох проекціях, двигун SMP забезпечує таку функціональність, дозволяючи додатком дати інструкції відеочіпу для реплікації геометрії до 32 разів (16 проекцій при двох центрах проектування) без додаткової обробки.

Весь процес обробки апаратно прискорений, і оскільки мультипроектування працює після геометричного двигуна, йому не потрібно повторювати кілька разів усі стадії обробки геометрії. Зекономлені ресурси важливі в умовах обмеження швидкості рендерингу продуктивністю обробки геометрії, на кшталт тесселяції, коли та сама геометрична робота виконується кілька разів для кожної проекції. Відповідно, в піковому випадку, мультипроектування може скоротити необхідність обробки геометрії до 32 разів.

Але навіщо це все потрібно? Є кілька хороших прикладів, де технологія мультипроеціювання може бути корисною. Наприклад, багатомоніторна система з трьох дисплеїв, встановлених під кутом один до одного, досить близько до користувача (surround-конфігурація). У типовій ситуації сцена відмальовується в одній проекції, що призводить до геометричних спотворень та невірного відмальовування геометрії. Правильним шляхом є три різні проекції для кожного з моніторів, відповідно до кута, під яким вони розташовані.

За допомогою відеокарти на чіпі з Pascal архітектурою це можна зробити за один прохід геометрії, вказавши три різні проекції, кожна для свого монітора. І користувач, таким чином, зможе змінювати кут, під яким розташовані монітори один до одного не тільки фізично, а й віртуально – повертаючи проекції для бічних моніторів, щоб отримати коректну перспективу в 3D-сцені за помітно ширшого вугілля огляду (FOV). Правда, тут є обмеження - для такої підтримки програма повинна вміти малювати сцену з широким FOV та використовувати спеціальні виклики SMP API для його встановлення. Тобто у кожній грі так не зробиш, потрібна спеціальна підтримка.

У будь-якому разі, часи однієї проекції на єдиний плоский монітор пройшли, тепер багато багатомоніторних конфігурацій та вигнутих дисплеїв, на яких також можна використовувати цю технологію. Не кажучи вже про системи віртуальної реальності, які використовують спеціальні лінзи між екранами та очима користувача, що потребує нових технік проектування 3D-зображення у 2D-картинку. Багато таких технологій і технік ще на початку розробки, головне, що старі GPU не можуть ефективно використовувати більш ніж одну плоску проекцію. Вони вимагають при цьому кілька проходів рендерингу, багаторазову обробку однієї і тієї ж геометрії тощо.

У чіпах архітектури Maxwell була обмежена підтримка Multi-Resolution, що допомагає збільшити ефективність, але SMP Pascal може набагато більше. Maxwell міг повертати проекцію на 90 градусів для кубічних карт (cube mapping) або різних дозволів на проекцію, але це було корисно лише в обмеженому колі додатків, на зразок VXGI.

З інших можливостей застосування SMP відзначимо малювання з різною роздільною здатністю та однопрохідний стереорендеринг. Наприклад, малювання з різною роздільною здатністю (Multi-Res Shading) можна використовувати в іграх для оптимізації продуктивності. При її застосуванні використовується вища роздільна здатність у центрі кадру, а на периферії вона знижується для отримання вищої швидкості рендерингу.

Однопрохідний стереорендеринг використовується в VR, він вже доданий до пакету VRWorks і використовує можливість мультипроеціювання для зниження обсягу геометричної роботи, необхідного при VR-рендерингу. У разі використання цієї можливості, графічний процесор GeForce GTX 1080 обробляє геометрію сцени лише один раз, генеруючи одразу дві проекції для кожного ока, що вдвічі знижує геометричне навантаження на GPU, а також знижує втрати від роботи драйвера та ОС.

Ще більш просунутим методом підвищення ефективності VR-рендерінг є Lens Matched Shading, коли за допомогою декількох проекцій імітуються геометричні спотворення, потрібні при VR-рендерінг. Цей метод використовує мультипроектування для рендерингу 3D-сцени на поверхню, яка наближено схожа на скориговану лінзою при відображенні для виведення на VR-шолом, що дозволяє не малювати багато зайвих пікселів на периферії, які будуть відкинуті. Найпростіше зрозуміти суть методу по ілюстрації – перед кожним оком використовується по чотири злегка розгорнутих проекції (на Pascal можна використовувати і по 16 проекцій на кожне око – для більш точної імітації вигнутої лінзи) замість однієї:

Такий підхід здатний пристойно заощаджувати у продуктивності. Так, типове зображення для Oculus Rift на кожне око становить 1,1 мегапіксель. Але через різницю в проекціях, щоб його відрендерити, використовується вихідне зображення в 2,1 мегапікселі - на 86% більше за необхідне! Застосування мультипроектування, впровадженого в архітектуру Pascal, дозволяє знизити роздільну здатність зображення до 1,4 мегапікселів, отримавши півторакратну економію в швидкості піксельної обробки, а також економить пропускну здатність пам'яті.

А разом із дворазовою економією за швидкістю обробки геометрії через однопрохідний стереорендеринг, графічний процесор відеокарти GeForce GTX 1080 здатний забезпечити значне збільшення продуктивності VR-рендерингу, дуже вимогливого і до швидкості обробки геометрії, і тим більше – до піксельної обробки.

Поліпшення в блоках виведення та обробки відеоданих

Крім продуктивності та нової функціональності, пов'язаної з 3D-рендерингом, необхідно підтримувати на хорошому рівні та можливості виведення зображення, а також декодування та кодування відеоданих. І перший графічний процесор архітектури Pascal не розчарував - він підтримує всі сучасні стандарти в цьому сенсі, включаючи апаратне декодування формату HEVC, необхідне перегляду 4K-відеороликів на ПК. Також майбутні власники відеокарт GeForce GTX 1080 зможуть незабаром насолодитися програванням потокового 4K-відео з Netflix та інших провайдерів на своїх системах.

З точки зору виведення зображення на дисплеї GeForce GTX 1080 має підтримку HDMI 2.0b з HDCP 2.2, а також DisplayPort. Поки що сертифікована версія DP 1.2, але GPU є готовим до сертифікації для нових версій стандарту: DP 1.3 Ready і DP 1.4 Ready. Останнє дозволяє виводити зображення на 4K-екрани при частоті оновлення 120 Гц, а на 5K- та 8K-дисплеї – при 60 Гц при використанні пари кабелів DisplayPort 1.3. Якщо для GTX 980 максимальна роздільна здатність була 5120×3200 при 60 Гц, то для нової моделі GTX 1080 вона виросла до 7680×4320 при тих же 60 Гц. Референсна GeForce GTX 1080 має три виходи DisplayPort, один HDMI 2.0b та один цифровий Dual-Link DVI.

Нова модель відеокарти Nvidia отримала і покращений блок декодування та кодування відеоданих. Так, чіп GP104 відповідає високим стандартам PlayReady 3.0 (SL3000) для відтворення потокового відео, що дозволяє бути впевненим у тому, що програвання високоякісного контенту від відомих постачальників, як Netflix, буде максимально якісним і енергоефективним. Подробиці про підтримку різних форматів відео при кодуванні та декодуванні наведені в таблиці, новинка явно відрізняється від попередніх рішень на краще:

Але ще цікавішою новинкою можна назвати підтримку так званих дисплеїв підвищеного динамічного діапазону (High Dynamic Range – HDR), які ось-ось мають набути широкого поширення на ринку. ТБ продаються вже в 2016 році (і всього за рік планується продати чотири мільйони HDR-телевізорів), а монітори - в наступному. HDR - це найбільший прорив у дисплейних технологіях за довгі роки, цей формат забезпечує вдвічі більше відтінків кольорів (75% видимого спектру, на відміну від 33% для RGB), яскравіші дисплеї (1000 ніт) з більшою контрастністю (10000:1) та насиченими квітами.

Поява можливості відтворення контенту з більшою різницею в яскравості і більш багатими і насиченими кольорами наблизить зображення на екрані до реальності, чорний колір стане глибшим, яскраве світло буде зліпити, як у реальному світі. Відповідно, користувачі побачать більше деталей у яскравих та темних ділянках зображень у порівнянні зі стандартними моніторами та телевізорами.

Для підтримки HDR-дисплеїв, GeForce GTX 1080 має все необхідне – можливість виведення 12-бітного кольору, підтримку стандартів BT.2020 та SMPTE 2084, а також виведення зображення відповідно до стандарту HDMI 2.0b 10/12-біт для HDR у 4K- дозволі, що було і Maxwell. На додаток до цього, в Pascal з'явилася підтримка декодування HEVC-формату в 4K-роздільна здатність при 60 Гц і 10- або 12-бітному кольорі, який використовується для HDR-відео, а також кодування цього ж формату з такими ж параметрами, але тільки в 10-біт для запису HDR-відео або потокової передачі. Також новинка готова до стандартизації DisplayPort 1.4 для передачі HDR-даних з цього роз'єму.

До речі, кодування HDR-відео може знадобитися в майбутньому, щоб передавати такі дані з домашнього ПК на ігрову консоль SHIELD, яка вміє відтворювати 10-бітний HEVC. Тобто користувач зможе транслювати гру з ПК у HDR-форматі. Стоп, а де взяти ігри із такою підтримкою? Компанія Nvidia постійно працює з ігровими розробниками для впровадження такої підтримки, передаючи їм все необхідне (підтримку в драйвері, приклади коду і т.п) для коректного рендерингу HDR-зображення, сумісного з існуючими дисплеями.

На момент випуску відеокарти, GeForce GTX 1080, підтримкою HDR-виводу мають такі ігри, як Obduction, The Witness, Lawbreakers, Rise of the Tomb Raider, Paragon, The Talos Principle і Shadow Warrior 2. Але вже в найближчому майбутньому очікується поповнення цього списку .

Зміни у багаточиповому рендерингу SLI

Відбулися й деякі зміни, пов'язані з фірмовою технологією багаточіпового рендерингу SLI, хоча на це ніхто не очікував. SLI використовується ентузіастами ПК-ігор для того, щоб підвищити продуктивність або до екстремальних значень, встановивши найпотужніші одночіпові відеокарти в тандем, або для того, щоб отримати дуже високу частоту кадрів, обмежившись парою рішень середнього рівня, які іноді обходяться дешевше ніж одне топове ( вирішення спірне, але так роблять). За наявності 4K-моніторів у гравців майже не залишається інших варіантів, крім установки пари відеокарт, тому що навіть топові моделі часто не можуть забезпечити комфортну гру за максимальних налаштувань за таких умов.

Одним з важливих компонентів Nvidia SLI є містки, що з'єднують відеокарти в загальну відеопідсистему та служать для організації цифрового каналу передачі даних між ними. На відеокартах GeForce традиційно встановлювалися подвійні роз'єм SLI, які служили для з'єднання між двома або чотирма відеокартами в 3-Way і 4-Way SLI конфігураціях. Кожна з відеокарт мала з'єднуватися з кожною, так як всі GPU відправляли відрендеровані ними кадри в головний графічний процесор, тому і були необхідні по два інтерфейси на кожній із плат.

Починаючи з моделі GeForce GTX 1080 для всіх відеокарт Nvidia, заснованих на архітектурі Pascal, два інтерфейси SLI пов'язані разом для збільшення продуктивності передачі даних між відеокартами, і такий новий двоканальний режим SLI дозволяє підвищити продуктивність та комфорт при виведенні візуальної інформації на дисплеї високої роздільної здатності або багатомоніторні системи.

Для такого режиму знадобилися і нові містки, що отримали назву SLI HB. Вони об'єднують пару відеокарт GeForce GTX 1080 відразу по двох каналах SLI, хоча нові відеокарти також сумісні і зі старими містками. Для дозволів 1920×1080 та 2560×1440 пікселів при частоті оновлення 60 Гц можна використовувати стандартні містки, але у більш вимогливих режимах (4K, 5K та мультимоніторні системи) кращі результати по плавності зміни кадрів забезпечать тільки нові містки, хоча й старі будуть працювати, але дещо гірше.

Також, при використанні містків SLI HB, інтерфейс передачі даних GeForce GTX 1080 працює на швидкості 650 МГц у порівнянні з 400 МГц у звичайних містків SLI на старих GPU. Причому для деяких із жорстких старих містків також доступна більш висока частота передачі даних із відеочіпами архітектури Pascal. Зі зростанням швидкості передачі даних між GPU за подвоєним інтерфейсом SLI з підвищеною частотою роботи, забезпечується і більш плавне виведення кадрів на екран, порівняно з попередніми рішеннями:

Потрібно також відзначити, що підтримка багаточипового рендерингу в DirectX 12 дещо відрізняється від того, що було раніше. В останній версії графічного API компанія Microsoft зробила багато змін, пов'язаних з роботою таких відеосистем. Для розробників програмного забезпечення в DX12 доступні два варіанти використання декількох GPU: режими Multi Display Adapter (MDA) та Linked Display Adapter (LDA).

Причому режим LDA має дві форми: Implicit LDA (який Nvidia використовує для SLI) і Explicit LDA (коли розробник гри бере на себе завдання управління багаточіповим рендерингом. Режими MDA та Explicit LDA якраз і були впроваджені в DirectX 12 для того, щоб дати ігровим розробникам більше свободи та можливостей при використанні багаточіпових відеосистем.Різниця між режимами добре видно по наступній таблиці:

У режимі LDA пам'ять кожного GPU може бути пов'язана з пам'яттю іншого і відображатися у вигляді великого загального обсягу, природно, при всіх обмеженнях за продуктивністю, коли дані дістаються з «чужої» пам'яті. У режимі MDA пам'ять кожного GPU працює окремо, і різні GPU не можуть отримати прямий доступ до даних із пам'яті іншого графічного процесора. Режим LDA розроблений для багаточіпових систем аналогічної продуктивності, а режим MDA має менше обмежень, і в ньому можуть працювати дискретні та інтегровані GPU або дискретні рішення з чіпами різних виробників. Але цей режим також вимагає від розробників більше уваги та роботи при програмуванні спільної роботи, щоб GPU змогли обмінюватися інформацією один з одним.

За умовчанням, SLI-система на основі плат GeForce GTX 1080 підтримує лише два GPU, а три- і чотиричіпові конфігурації офіційно не рекомендуються до використання, тому що в сучасних іграх стає все складніше забезпечувати приріст продуктивності від додавання третього та четвертого графічного процесора. Наприклад, багато ігор упираються в можливості центрального процесорасистеми при роботі багаточіпових відеосистем, також у нових іграх все частіше використовуються темпоральні (тимчасові) техніки, що використовують дані з попередніх кадрів, у яких ефективна робота відразу кількох GPU просто неможлива.

Втім, робота систем в інших (не SLI) багаточіпових системах залишається можливою, як режими MDA або LDA Explicit в DirectX 12 або двочіпова SLI система з виділеним третім GPU для фізичних ефектів PhysX. А як же рекорди у бенчмарках, невже у Nvidia відмовляються від них зовсім? Ні, звичайно, але оскільки подібні системи затребувані у світі чи не одиницями користувачів, то для таких ультраентузіастів вигадали спеціальний ключ Enthusiast Key, який можна завантажити на сайті Nvidia і розблокувати цю можливість. Для цього потрібно спочатку отримати унікальний ідентифікатор GPU, запустивши спеціальний додаток, потім запросити Enthusiast Key на веб-сайті і, завантаживши його, встановити ключ до системи, розблокувавши цим 3-Way і 4-Way конфігурації SLI.

Технологія синхронізації Fast Sync

Деякі зміни відбулися у технологіях синхронізації під час виведення інформації на дисплей. Забігаючи вперед, у G-Sync не з'явилося нічого нового, як не підтримується технологія адаптивної синхронізації Adaptive Sync. Натомість у Nvidia вирішили покращити плавність виведення та синхронізацію для ігор, які показують дуже високу продуктивність, коли частота кадрів помітно перевищує частоту оновлення монітора. Це особливо важливо для ігор, що вимагають мінімальних затримок та швидкого відгуку і за якими проходять мультиплеєрні битви та змагання.

Fast Sync - це нова альтернатива вертикальній синхронізації, яка не має візуальних артефактів у вигляді розривів зображення на зображенні і не прив'язана до фіксованої частоти оновлення, що підвищує затримки. У чому проблема вертикальної синхронізації у таких іграх, як Counter-Strike: Global Offensive? Ця гра на потужних сучасних GPU працює з кількома сотнями кадрів на секунду, і гравець має вибір: включати вертикальну синхронізацію чи ні.

У розрахованих на багато користувачів іграх користувачі найчастіше женуться за мінімальними затримками і VSync відключають, отримуючи добре видимі розриви на зображенні, вкрай неприємні і при високій частоті кадрів. Якщо ж увімкнути вертикальну синхронізацію, то гравець отримає значне зростання затримок між його діями та зображенням на екрані, коли графічний конвеєр сповільнюється до частоти оновлення монітора.

Так працює традиційний конвеєр. Але в Nvidia вирішили розділити процес рендерингу та виведення зображення на екран за допомогою технології Fast Sync. Це дозволяє продовжувати максимально ефективну роботу для частини GPU, яка займається рендерингом кадрів на повній швидкості, зберігаючи ці кадри в спеціальному тимчасовому буфері Last Rendered Buffer.

Такий метод дозволяє змінювати спосіб виведення на екран і брати краще від режимів VSync On та VSync Off, отримавши низькі затримки, але без артефактів зображення. З Fast Sync немає управління потоком кадрів, ігровий двигун працює в режимі відключеної синхронізації і йому не говорять почекати з відображенням чергового, тому і затримки майже такі ж низькі, як у режиму VSync Off. Але оскільки Fast Sync самостійно вибирає буфер для виведення на екран і виводить кадр цілком, то немає розривів картинки.

При роботі Fast Sync використовується три різні буфери, перші два з яких працюють аналогічно подвійній буферизації в класичному конвеєрі. Первинний буфер (Front Buffer – FB) – це буфер, інформація з якого виводиться на дисплей, повністю відмальований кадр. Вторинний буфер (Back Buffer - BB) - це буфер, який надходить інформація при рендеринге.

При використанні вертикальної синхронізації в умовах високої частоти кадрів гра чекає на досягнення моменту оновлення інформації на дисплеї (refresh interval), щоб поміняти місцями первинний буфер з вторинним для виведення зображення цільного кадру на екран. Це уповільнює процес, а додавання додаткових буферів як із традиційної потрійний буферизації лише додасть затримку.

Із застосуванням Fast Sync додається третій буфер Last Rendered Buffer (LRB), який використовується для зберігання всіх кадрів, щойно відрендерованих у вторинному буфері. Назва буфера говорить сама за себе, у ньому міститься копія останнього повністю відмальованого кадру. І коли настане момент оновлення первинного буфера, цей LRB буфер копіюється в первинний повністю, а не частинами, як з вторинного при відключеній вертикальній синхронізації. Оскільки копіювання інформації з буферів неефективне, всі вони просто змінюються місцями (або перейменовуються, як зручніше зрозуміти), а нова логіка зміни буферів місцями, що з'явилася в GP104, управляє цим процесом.

На практиці включення нового методу синхронізації Fast Sync забезпечує все ж таки трохи більшу затримку, в порівнянні з зовсім відключеною вертикальною синхронізацією - в середньому на 8 мс більше, зате виводить кадри на монітор повністю, без неприємних артефактів на екрані, що розривають зображення. Новий метод можна увімкнути з графічних налаштувань панелі керування Nvidia у секції керування вертикальною синхронізацією. Втім, значенням за замовчуванням залишається керування програмою, та й включати Fast Sync у всіх 3D-додатках просто не потрібно, краще вибрати цей метод безпосередньо для ігор з високим FPS.

Технології віртуальної реальності Nvidia VRWorks

Ми вже не раз торкалися гарячої теми віртуальної реальності у статті, але мова в основному йшла про підвищення частоти кадрів та забезпечення низьких затримок, дуже важливих для VR. Все це дуже важливо і прогрес дійсно є, але поки що VR-ігри виглядають далеко не настільки вражаюче, як найкращі із «звичайних» сучасних 3D-ігор. Так виходить не тільки тому, що VR-додатками провідні ігрові розробники поки що не особливо займаються, а й через більшу вимогливість VR до частоти кадрів, що не дає використовувати багато звичних технік у таких іграх через високу вимогливість.

Для того, щоб зменшити різницю як між VR-іграми і звичайними, в Nvidia вирішили випустити цілий пакет відповідних технологій VRWorks, до якого увійшла велика кількість API, бібліотек, движків і технологій, які дозволяють значно покращити як якість, так і продуктивність VR- додатків. Як це стосується анонсу першого ігрового рішення на Pascal? Дуже просто - в нього впровадили деякі технології, що допомагають збільшити продуктивність та покращити якість, і ми про них уже писали.

І хоча справа стосується далеко не лише графіки, спочатку трохи розповімо саме про неї. У набір технологій VRWorks Graphics входять вже згадані раніше технології, на зразок Lens Matched Shading, що використовують можливість мультипроектування, що з'явилася саме в GeForce GTX 1080. Новинка дозволяє отримати приріст продуктивності в 1,5-2 рази по відношенню до рішень, що не мають такої підтримки. Також ми згадували й інші технології, на кшталт MultiRes Shading, призначеного для рендерингу з різною роздільною здатністю в центрі кадру та на його периферії.

Але куди несподіваніше був анонс технології VRWorks Audio, призначеної для якісного розрахунку звукових даних у 3D-сценах, особливо важливого в системах віртуальної реальності. У стандартних двигунах позиціонування джерел звуку в віртуальному середовищірозраховується досить коректно, якщо ворог стріляє праворуч, то й звук голосніше лунає з цього боку аудіосистеми, і такий розрахунок не дуже вибагливий до обчислювальної потужності.

Але насправді звуки йдуть не тільки до гравця, але у всіх напрямках і відбиваються від різних матеріалів, аналогічно тому, як відбиваються промені світла. І насправді ми чуємо ці відображення, хоч і не так виразно, як прямі звукові хвилі. Ці непрямі відображення звуку зазвичай імітуються спеціальними ефектами реверберації, але це дуже примітивний підхід до завдання.

У пакеті VRWorks Audio використовується прорахунок звукових хвиль аналогічно до трасування променів при рендерингу, коли шлях променів світла відстежується до декількох відображень від об'єктів у віртуальній сцені. VRWorks Audio також імітує поширення звукових хвиль у навколишньому середовищі, коли відстежуються прямі та відбиті хвилі, залежно від кута їх падіння та властивостей відбивають матеріалів. У своїй роботі VRWorks Audio використовує відомий за графічним завданням високопродуктивний двигун Nvidia OptiX, призначений для трасування променів. OptiX може використовуватися для різноманітних завдань, таких як розрахунок непрямого освітлення та підготовка карт освітлення, а тепер і для трасування звукових хвиль у VRWorks Audio.

Nvidia вбудувала точний розрахунок звукових хвиль у свою демонстраційну програму VR Funhouse, у ній використовується кілька тисяч променів та прораховується до 12 відбитків від об'єктів. А для того, щоб на зрозумілому прикладі засвоїти переваги технології, пропонуємо вам переглянути відеоролик про роботу технології російською мовою:

Важливо, що підхід Nvidia відрізняється від традиційних звукових двигунів, у тому числі і апаратно прискореного за допомогою спеціального блоку GPU методу від головного конкурента. Всі ці методи забезпечують лише точне позиціонування джерел звуку, але не розраховують відображення звукових хвиль від об'єктів у 3D-сцені, хоч і можуть імітувати це за допомогою ефекту реверберації. І все ж таки використання технології трасування променів може бути куди реалістичніше, оскільки тільки такий підхід забезпечить точну імітацію різних звуків, з урахуванням розмірів, форми та матеріалів об'єктів у сцені. Складно сказати, чи потрібна така точність обчислень для типового гравця, але можна сказати точно: у VR вона може додати користувачам тієї самої реалістичності, якої поки що не вистачає у звичайних іграх.

Ну а нам залишилося розповісти лише про технологію VR SLI, що працює і в OpenGL і DirectX. Її принцип дуже простий: двопроцесорна відеосистема в VR-додатку буде працювати так, що кожному оку виділяється окремий GPU, на відміну від AFR-рендерінгу, звичного для SLI-конфігурацій. Це значно підвищує загальну продуктивність, таку важливу для систем віртуальної реальності. Теоретично можна використовувати і більшу кількість GPU, але їхня кількість має бути парною.

Такий підхід був потрібний тому, що AFR погано підходить для VR, тому що з його допомогою перший GPU малюватиме парний кадр для обох очей, а другий - непарний, що нітрохи не знижує затримки, критично важливі для систем віртуальної реальності. Хоча частота кадрів буде досить високою. Так що за допомогою VR SLI робота над кожним кадром поділяється на два GPU – один працює над частиною кадру для лівого ока, другий – для правого, а потім ці половинки кадру поєднуються в цілий.

Подібний поділ роботи між парою графічних процесорів приносить майже дворазове зростання продуктивності, що дозволяє підняти частоту кадрів та знизити затримки порівняно із системами на основі однієї відеокарти. Правда, використання VR SLI вимагає спеціальної підтримки з боку програми, щоб використовувати цей метод масштабування. Але технологія VR SLI вже вбудована в такі демонстраційні VR-програми як The Lab від Valve та Trials on Tatooine від ILMxLAB, і це тільки початок - у Nvidia обіцяють швидку появу інших програм, а також впровадження технології в ігрові двигуни Unreal Engine 4, Unity та MaxPlay.

Платформа створення ігрових скріншотів Ansel

Одним із найцікавіших анонсів, пов'язаних із програмним забезпеченням, став випуск технології захоплення якісних скріншотів в ігрових додатках, названої на ім'я одного відомого фотографа – Ansel. Ігри вже давно стали не просто іграми, а й місцем застосування пустотливих рук для різних творчих особистостей. Хтось змінює скрипти до ігор, хтось випускає якісні набори текстур до ігор, а хтось робить гарні скріншоти.

Компанія Nvidia вирішила допомогти останнім, представивши нову платформу для створення (саме створення, тому що це не такий вже простий процес) якісних знімківіз ігор. Вони вважають, що Ansel допоможе створити новий вид сучасного мистецтва. Адже вже є чимало художників, які проводять більшу частину життя за ПК, створюючи гарні скріншоти з ігор, і вони досі не мали зручного інструменту для цього.

Ansel дозволяє не просто захоплювати зображення у грі, а міняти його так, як потрібно творцю. За допомогою цієї технології можна рухати камеру по сцені, повертати та нахиляти її у будь-якому напрямку для того, щоб отримати необхідну композицію кадру. Наприклад, у таких іграх, як шутери від першої особи, можна тільки рухати гравця, більше нічого міняти особливо не вийде, тому всі скріншоти виходять досить одноманітними. З вільною ж камерою в Ansel можна вийти далеко за межі ігрової камери, обравши такий ракурс, який потрібен для вдалої картинки, або захопити повноцінну 360-градусну стереокартину з потрібної точки, та у високому дозволі для подальшого перегляду в VR-шоломі.

Ansel працює досить просто – за допомогою спеціальної бібліотеки від Nvidia ця платформа впроваджується у код гри. Для цього її розробнику потрібно лише додати невеликий шматок коду в свій проект, щоб дозволити відеодрайверу Nvidia перехоплювати дані буферів і шейдерів. Роботи там зовсім небагато, впровадження Ansel у гру вимагає менше ніж одного дня для впровадження. Так, включення цієї можливості в гру The Witness зайняло близько 40 рядків коду, а The Witcher 3 - близько 150 рядків коду.

Ansel з'явиться із відкритим пакетом для розробки – SDK. Головне, що користувач отримує разом з ним стандартний набір налаштувань, що дозволяють йому змінювати положення і кут камери, додавати ефекти і т. п. Платформа Ansel працює так: вона ставить гру на паузу, включає вільну камеру і дозволяє змінювати кадр до потрібного вигляду, записуючи результат у вигляді звичайного скріншота, 360-градусного знімка, стереопари або просто панорами величезної роздільної здатності.

Єдине зауваження: не всі ігри матимуть підтримку всіх можливостей платформи створення ігрових скріншотів Ansel. Деякі з ігрових розробників з тих чи інших причин не бажають включати повністю вільну камеру у своїх іграх – наприклад, через можливість використання цієї функціональності читерами. Або вони хочуть обмежити зміну кута огляду з тієї ж причини - щоб ніхто не отримав несправедливої ​​переваги. Ну, або щоб користувачі не побачили убогі спрайти на задньому плані. Все це цілком нормальні бажання творців ігор.

Однією з найцікавіших можливостей Ansel є створення скріншотів величезного дозволу. Неважливо, що гра підтримує роздільну здатність до 4K, наприклад, а монітор у користувача і зовсім Full HD. За допомогою платформи зняття скріншотів можна захопити більш якісне зображення, обмежене швидше обсягом і продуктивністю накопичувача. Платформа з легкістю захоплює скріншоти з роздільною здатністю до 4,5 гігапікселів, зі зшивкою їх із 3600 шматочків!

Зрозуміло, що на таких картинах можна розглянути всі деталі, аж до тексту на газетах, що валяються вдалині, якщо такий рівень деталізації в принципі передбачений у грі - Ansel вміє керувати і рівнем деталізації, виставляючи максимальний рівень, щоб отримати Краща якістьзображення. Адже ще можна включити суперсемплінг. Все це дозволяє створювати зображення з ігор, які можна сміливо друкувати на великих банерах та бути спокійним за їхню якість.

Цікаво, що зшивання великих зображень використовується спеціальний апаратно прискорений код на основі CUDA. Адже жодна відеокарта не зможе відрендерити багатогігапіксельне зображення цілком, але вона може зробити це за шматочками, які потрібно просто об'єднати згодом, враховуючи можливу різницю у освітленні, кольорі та інше.

Після зшивання таких панорам для всього кадру використовують спеціальну постобробку, також прискорену на GPU. А для захоплення зображень у підвищеному динамічному діапазоні можна використовувати спеціальний формат зображень – EXR, відкритий стандарт від Industrial Light and Magic, значення кольоровості у кожному каналі якого записуються у 16-бітному форматі з плаваючою комою (FP16).

Цей формат дозволяє змінювати яскравість і динамічний діапазон зображення постобробкою, наводячи його до потрібного для кожного конкретного дисплея аналогічно тому, як це робиться з форматами RAW з фотокамер. Та і для подальшого застосування фільтрів постобробки в програмах обробки зображень цей формат дуже корисний, так як містить набагато більше даних, ніж звичні формати для зображень.

Але платформа Ansel і сама містить безліч фільтрів для постобробки, що особливо важливо тому, що вона має доступ не тільки до підсумкової картинки, але і до всіх буферів, що використовуються грою при рендерингу, що можна використовувати для дуже цікавих ефектів, як глибина різкості. Для цього Ansel є спеціальний API для постобробки, і будь-який з ефектів можна включити в гру з підтримкою цієї платформи.

До постфільтрів Ansel входять такі фільтри як: color curves, color space, transformation, desaturation, brightness/contrast, film grain, bloom, lens flare, anamorphic glare, distortion, heathaze, fisheye, color aberration, tone mapping, lens dirt, lightsha , vignette, gamma correction, convolution, sharpening, edge detection, blur, sepia, denoise, FXAA та інші.

Що ж до появи підтримки Ansel в іграх, то тут доведеться трохи почекати, поки розробники її впровадять і протестують. Але Nvidia обіцяє швидку появу такої підтримки в таких відомих іграх, як The Division, The Witness, Lawbreakers, The Witcher 3, Paragon, Fortnite, Obduction, No Man's Sky, Unreal Tournament та інших.

Новий технологічний процес 16 нм FinFET і оптимізації архітектури дозволили відеокарті GeForce GTX 1080, заснованій на графічному процесорі GP104, досягти високої тактової частоти в 1,6-1,7 ГГц навіть у референсному вигляді, а роботу на максимально можливих частотах в іграх. технології GPU Boost Разом із збільшеною кількістю виконавчих блоків, ці покращення зробили новинку не просто найвищою продуктивною одночіповою відеокартою за весь час, а й найбільш енергоефективним рішенням на ринку.

Модель GeForce GTX 1080 стала першою відеокартою, що несе на собі новий тип графічної пам'яті GDDR5X - нового покоління високошвидкісних чіпів, що дозволило досягти високої частоти передачі даних. У разі модифікації GeForce GTX 1080 цей тип пам'яті працює на ефективній частоті в 10 ГГц. У поєднанні з покращеними алгоритмами стиснення інформації у фреймбуфері, це призвело до зростання ефективної пропускної спроможності пам'яті для цього графічного процесора в 1,7 рази порівняно з прямим попередником в особі GeForce GTX 980.

Компанія Nvidia розсудливо вирішила не випускати радикально нову архітектуру на абсолютно новому для себе техпроцес, щоб не зіткнутися з зайвими проблемами при розробці та виробництві. Натомість вони серйозно покращили і так непогану і дуже ефективну архітектуру Maxwell, додавши деякі можливості. В результаті, з виробництвом нових GPU все добре, і у випадку моделі GeForce GTX 1080 інженери досягли дуже високого частотного потенціалу - у розігнаних варіантах від партнерів частота GPU очікується до 2 ГГц! Така вражаюча частота стала реальною завдяки досконалому техпроцесу і копіткої роботі інженерів Nvidia при розробці графічного процесора Pascal.

І хоча Pascal став прямим послідовником справи Maxwell, і ці графічні архітектури в основі своїй не надто відрізняються одна від одної, компанія Nvidia впровадила безліч змін і покращень, у тому числі у можливості виведення зображення на дисплеї, движок кодування та декодування відеоданих, покращили асинхронне. виконання різних типів обчислень на GPU, внесли зміни до багаточипового рендерингу та впровадили новий метод синхронізації Fast Sync.

Не можна не виділити технологію мультипроектування Simultaneous Multi-Projection, яка допомагає підвищити продуктивність у системах віртуальної реальності, отримати коректніше відображення сцен на багатомоніторних системах, та впровадити нові техніки оптимізації продуктивності. Але найбільший приріст у швидкості отримають VR-додатки, коли ними підтримуватиметься технологія мультипроеціювання, що допомагає вдвічі заощадити ресурси GPU при обробці геометричних даних та в півтора рази – при попіксельних обчисленнях.

Серед чисто програмних змін особливо виділяється платформа для створення скріншотів в іграх під назвою Ansel - спробувати її у справі буде цікаво не тільки багато грає, але й цікавим якісною 3D-графікою. Новинка дозволяє просунути мистецтво створення та ретуші скріншотів на новий рівень. Ну а такі свої пакети для розробників ігор, як GameWorks та VRWorks, Nvidia просто продовжує покращувати крок за кроком – так, в останньому з'явилася цікава можливість якісного обчислення звуку, що враховує численні відображення звукових хвиль з використанням апаратного трасування променів.

Загалом у вигляді відеокарти Nvidia GeForce GTX 1080 на ринок вийшов справжній лідер, який має для цього всі необхідні якості: високу продуктивність та широку функціональність, а також підтримку нових можливостей та алгоритмів. Перші покупці цієї відеокарти зможуть оцінити багато зі згаданих переваг відразу, а інші можливості рішення розкриються трохи пізніше, коли з'явиться широка підтримка з боку. програмного забезпечення. Головне, що GeForce GTX 1080 вийшла дуже швидкою та ефективною, а частина проблемних місць (ті ж асинхронні обчислення), як ми дуже сподіваємося, інженерам Nvidia вдалося виправити.

Графічний прискорювач GeForce GTX 1070

ПараметрЗначення
Кодове ім'я чіпаGP104
Технологія виробництва16 нм FinFET
Кількість транзисторів7,2 млрд.
Площа ядра314 мм²
АрхітектураУніфікована, з масивом загальних процесорівдля потокової обробки численних видів даних: вершин, пікселів та ін.
Апаратна підтримка DirectXDirectX 12, з підтримкою рівня можливостей Feature Level 12_1
Шина пам'яті256-бітна: вісім незалежних 32-бітних контролерів пам'яті з підтримкою GDDR5 та GDDR5X пам'яті
Частота графічного процесора1506 (1683) МГц
Обчислювальні блоки15 активних (з 20 у чіпі) потокових мультипроцесорів, що включають 1920 (з 2560) скалярних ALU для розрахунків із плаваючою комою в рамках стандарту IEEE 754-2008;
Блоки текстурування120 активних (із 160 у чіпі) блоків текстурної адресації та фільтрації з підтримкою FP16- та FP32-компонент у текстурах та підтримкою трилінійної та анізотропної фільтрації для всіх текстурних форматів
Блоки растрових операцій (ROP)8 широких блоків ROP (64 пікселя) з підтримкою різних режимів згладжування, у тому числі програмованих і при FP16 або FP32 форматі буфера кадру. Блоки складаються з масиву конфігурованих ALU і відповідають за генерацію та порівняння глибини, мультисемплінг та блендинг
Підтримка моніторівІнтегрована підтримка до чотирьох моніторів, підключених за інтерфейсами Dual Link DVI, HDMI 2.0b та DisplayPort 1.2 (1.3/1.4 Ready)

Специфікації референсної відеокарти GeForce GTX 1070
ПараметрЗначення
Частота ядра1506 (1683) МГц
Кількість універсальних процесорів1920
Кількість текстурних блоків120
Кількість блоків блендінгу64
Ефективна частота пам'яті8000 (4×2000) МГц
Тип пам'ятіGDDR5
Шина пам'яті256-біт
Обсяг пам'яті8 ГБ
Пропускна спроможність пам'яті256 ГБ/с
Обчислювальна продуктивність (FP32)близько 6,5 терафлопс
Теоретична максимальна швидкість забарвлення96 гігапікселів/с
Теоретична швидкість вибірки текстур181 гігатекселів/с
ШинаPCI Express 3.0
Роз'ємиОдин роз'єм Dual Link DVI, один HDMI та три DisplayPort
Енергоспоживаннядо 150 Вт
Додаткове харчуванняОдин 8-контактний роз'єм
Число слотів, що займають у системному корпусі2
Рекомендована ціна$379-449 (США), 34 990 (Росія)

Відеокарта GeForce GTX 1070 також отримала логічне найменування, аналогічне такому ж рішенню з попередньої серій GeForce. Воно відрізняється від свого прямого попередника GeForce GTX 970 лише зміненою цифрою покоління. Новинка стає в поточній лінійці компанії на крок нижче за нинішнє топове рішення GeForce GTX 1080, що стало тимчасовим флагманом нової серії до випуску рішень на GPU ще більшої потужності.

Рекомендовані ціни на нову топову відеоплату Nvidia становлять $379 та $449 для звичайних версій партнерів Nvidia та спеціального видання Founders Edition відповідно. У порівнянні з топовою моделлю, це дуже хороша ціна з урахуванням того, що GTX 1070 поступається їй близько 25% у гіршому випадку. І на момент анонсу та виходу GTX 1070 стає найкращим за продуктивністю рішенням у своєму класі. Як і GeForce GTX 1080, модель GTX 1070 не має прямих конкурентів від AMD, і порівнювати її можна хіба що з Radeon R9 390X та Fury.

У графічного процесора GP104 у модифікації GeForce GTX 1070 вирішили залишити повну 256-бітну шину пам'яті, хоча застосували не новий тип пам'яті GDDR5X, а дуже швидку GDDR5, яка працює на високій ефективній частоті 8 ГГц. Об'єм встановленої на відеокарту пам'яті з такою шиною може дорівнювати 4 або 8 ГБ, і щоб забезпечити максимальну продуктивність нового рішення в умовах високих налаштувань і дозволах рендерингу, модель відеокарти GeForce GTX 1070 була також оснащена 8 ГБ відеопам'яті, як і її старша сестра. Цього обсягу вистачить для запуску будь-яких 3D-додатків із максимальними налаштуваннями якості на кілька років.

Спеціальне видання GeForce GTX 1070 Founders Edition

При анонсі GeForce GTX 1080 на початку травня було оголошено спеціальне видання відеокарти під назвою Founders Edition, що має більш високу ціну порівняно зі звичайними відеокартами партнерів компанії. Те саме стосується і новинки. У цьому матеріалі ми розповімо про спеціальне видання відеокарти GeForce GTX 1070 під назвою Founders Edition. Як і у випадку старшої моделі, Nvidia вирішила випустити такий варіант референсної відеокарти виробника за вищою ціною. Вони стверджують, що багато гравців та ентузіастів, які купують дорогі відеокарти топового рівня, хочуть продукт з відповідним «преміальним» виглядом і відчуттям від нього.

Відповідно, саме для таких користувачів на ринок буде випущена відеокарта GeForce GTX 1070 Founders Edition, яка спроектована і виконана інженерами Nvidia з преміальних матеріалів та компонентів, на кшталт алюмінієвої кришки GeForce GTX 1070 Founders Edition, а також низькопрофільної задньої пластини, що прикриває оборот. досить популярною серед ентузіастів.

Як ви можете бачити по фотографіях плати, GeForce GTX 1070 Founders Edition успадкувала той самий індустріальний дизайн, властивий референсному варіанту GeForce GTX 1080 Founders Edition. В обох моделях застосовується радіальний вентилятор, що викидає нагріте повітря назовні, що дуже корисно як у маленьких корпусах, так і багаточіпових SLI-конфігураціях з обмеженим фізичним простором. Видування нагрітого повітря назовні замість його циркуляції всередині корпусу дозволяє знизити температурне навантаження, підвищити результати розгону та продовжити час життя компонентам системи.

Під кришкою референсної системи охолодження GeForce GTX 1070 ховається алюмінієвий радіатор спеціальної форми з трьома вбудованими мідними тепловими трубками, що відводять тепло від самого графічного процесора. Тепло, відведене тепловими трубками, розсіюється за допомогою алюмінієвого радіатора. Ну і низькопрофільна металева пластина на звороті плати також призначена для забезпечення кращих температурних характеристик. Вона також має секцію для кращого руху повітря між декількома відеокартами в SLI-конфігураціях.

Що стосується системи живлення плати, GeForce GTX 1070 Founders Edition має чотирифазну систему живлення, оптимізовану для стабільного постачання енергією. Компанія Nvidia запевняє, що використання спеціальних компонентів у GTX 1070 Founders Edition дозволило підвищити ефективність електропостачання, стабільність та надійність у порівнянні з GeForce GTX 970, забезпечивши найкращі показники при розгоні. У своїх випробуваннях компанії графічні процесори плат GeForce GTX 1070 просто перевищували значення в 1,9 ГГц, що близько до результатів старшої моделі GTX 1080.

Відеокарта Nvidia GeForce GTX 1070 буде доступна у роздрібних магазинах починаючи з 10 червня. Ціни на GeForce GTX 1070 Founders Edition і рішення партнерів відрізняються, і в цьому полягає найголовніше питання до цього спеціального видання. Якщо партнери Nvidia будуть продавати свої відеокарти GeForce GTX 1070 за ціною, починаючи від $379 (на ринку США), Founders Edition референсного дизайну Nvidia буде коштувати вже $449. Чи багато знайдеться ентузіастів, які готові переплачувати за, скажімо прямо, сумнівні переваги референсного варіанту? Час покаже, але ми вважаємо, що референсна плата цікава швидше як варіант, доступний до покупки на самому початку продажів, а пізніше зміст його придбання (та ще за велику ціну!) вже зводиться до нуля.

Залишається додати, що друкована плата референсної GeForce GTX 1070 схожа з такою у старшої відеокарти і вони відрізняються від пристрою попередніх плат компанії. Значення типового енергоспоживання для новинки становить 150 Вт, що менше значення для GTX 1080 майже на 20% і близько до споживання енергії відеокартою попереднього покоління GeForce GTX 970. , один HDMI та три DisplayPort. Причому з'явилася підтримка нових версій HDMI та DisplayPort, про яку ми написали вище в огляді моделі GTX 1080.

Архітектурні зміни

Відеокарта моделі GeForce GTX 1070 заснована на чіпі GP104, первісток нового покоління графічної архітектури Nvidia – Pascal. Ця архітектура взяла в основу рішення, відпрацьовані ще в Maxwell, але в ній є і деякі функціональні відмінності, про які ми докладно писали вище – у частині, присвяченій топовій відеокарті GeForce GTX 1080.

Головною зміною нової архітектури став технологічний процес, за яким будуть виконані нові графічні процесори. Застосування техпроцесу 16 нм FinFET при виробництві GP104 дозволило значно підвищити складність чіпа при збереженні порівняно невисокої площі та собівартості, і перший чіп архітектури Pascal має помітно більшу кількість виконавчих блоків, у тому числі що забезпечують нову функціональність, порівняно з чіпами Maxwell схожого позиціонування.

Відеочіп GP104 по своєму пристрої схожий на аналогічні рішення архітектури Maxwell, і докладні дані про пристрій сучасних GPU ви можете знайти в наших оглядах попередніх рішень компанії Nvidia. Як і попередні графічні процесори, чіпи нової архітектури будуть мати різну конфігурацію обчислювальних кластерів Graphics Processing Cluster (GPC), потокових мультипроцесорів Streaming Multiprocessor (SM) і контролерів пам'яті, і в GeForce GTX 1070 вже відбулися деякі зміни - частина чіпа була заблокована виділено сірим):

Хоча до складу графічного процесора GP104 входить чотири кластери GPC і 20 мультипроцесорів SM, у версії GeForce GTX 1070 він отримав урізану модифікацію з апаратно відключеним одним кластером GPC. Так як кожен кластер GPC має виділений двигун растеризації і включає п'ять мультипроцесорів SM, а кожен мультипроцесор складається з 128 CUDA-ядер і восьми текстурних блоків TMU, то в цій версії GP104 активні 1920 CUDA-ядер і 120 блоків TMU з 2560 потокових процесів та 160 текстурних блоків, наявних фізично.

Графічний процесор, на якому заснована відеокарта GeForce GTX 1070, містить вісім 32-бітних контролерів пам'яті, що дають підсумкову 256-бітну шину пам'яті - так само, як у випадку старшої моделі GTX 1080. Підсистема пам'яті не була урізана для того, щоб забезпечити досить високу пропускну здатність пам'яті з умовою застосування GDDR5-пам'яті в GeForce GTX 1070. До кожного з контролерів пам'яті прив'язано по вісім блоків ROP та 256 КБ кеш-пам'яті другого рівня, тому чіп GP104 і в цій модифікації також містить 64 блоків ROP та 2048 КБ кеш- рівня.

Завдяки архітектурним оптимізаціям та новому техпроцесу, графічний процесор GP104 став найенергоефективнішим графічним процесором на даний момент. Інженери компанії Nvidia змогли підвищити тактову частоту більше, ніж вони розраховували при переході на новий техпроцес, для чого їм довелося добре попрацювати, ретельно перевіривши та оптимізувавши всі вузькі місця попередніх рішень, що не дозволяють працювати на вищій частоті. Відповідно, GeForce GTX 1070 також працює на дуже високій частоті, більш ніж на 40% вище за референсне значення для GeForce GTX 970.

Так як модель GeForce GTX 1070 є, по суті, просто трохи менш продуктивною GTX 1080 з GDDR5-пам'яттю, то вона підтримує абсолютно всі технології, описані нами в попередньому розділі. Щоб отримати більше деталей про архітектуру Pascal, так само як і підтримувані їй технології, на кшталт покращених блоків виведення та обробки відеоданих, підтримки асинхронних обчислень Async Compute, технології мультипроеціювання Simultaneous Multi-Projection, змінах у багаточиповому рендерингу SLI та новому типі синхронізації Fast Sync. з розділом GTX 1080.

Високопродуктивна GDDR5-пам'ять та її ефективне використання

Ми вище писали про зміни в підсистемі пам'яті у графічного процесора GP104, на якому засновані моделі GeForce GTX 1080 і GTX 1070 - контролери пам'яті, що є у складі цього GPU, підтримують як новий тип відеопам'яті GDDR5X, про який детально написано в GTX 108 і стару добру GDDR5-пам'ять, відому нам вже кілька років.

Щоб не надто багато втратити в пропускній здатності пам'яті в молодшій моделі GTX 1070 у порівнянні зі старшою GTX 1080, в ній залишили активними всі вісім 32-бітних контролерів пам'яті, отримавши повноцінний 256-розрядний інтерфейс відеопам'яті. Крім цього, відеокарту оснастили найвищою швидкісною GDDR5-пам'яттю, яка була доступна на ринку - з ефективною частотою роботи в 8 ГГц. Все це забезпечило ПСП в 256 ГБ/с, на відміну від 320 ГБ/с у старшого рішення - приблизно на стільки ж було урізано і обчислювальні можливості, так що баланс був дотриманий.

Не забуваймо, що хоча пікова теоретична пропускна здатність важлива для продуктивності графічних процесорів, слід звертати увагу і на ефективність її використання. У процесі рендерингу безліч різних вузьких місць може обмежувати загальну продуктивність, не даючи використовувати всю наявну ПСП. Щоб мінімізувати кількість таких вузьких місць, у графічних процесорах застосовується спеціальне стиснення інформації без втрат, що підвищує ефективність операцій читання та запису даних.

В архітектурі Pascal було впроваджено вже четверте покоління дельта-стиснення інформації буферів, що дозволяє GPU ефективніше використовувати наявні можливості шини відеопам'яті. Підсистема пам'яті в GeForce GTX 1070 та GTX 1080 використовує покращені старі та кілька нових технік зі стиснення даних без втрат, призначені для зниження вимог до ПСП. Це знижує кількість даних, що записуються в пам'ять, покращує ефективність використання L2-кешу і зменшує кількість даних, що пересилаються між різними точками GPU, на зразок TMU і фреймбуфера.

GPU Boost 3.0 та особливості розгону

Більшість партнерів компанії Nvidia вже анонсували фабрично розігнані рішення на основі GeForce GTX 1080 і GTX 1070. А багато виробників відеокарт створюють і спеціальні утиліти для розгону, що дозволяють використовувати нову функціональність технології GPU Boost 3.0. Одним з прикладів таких утиліт є EVGA Precision XOC, яка включає автоматичний сканер для визначення кривої співвідношення напруги і частоти - в цьому режимі для кожного зі значень напруги за допомогою запуску тесту стабільності знаходиться стабільна частота, при якій GPU забезпечує зростання продуктивності. Втім, цю криву можна міняти і вручну.

Технологію GPU Boost ми добре знаємо за попередніми відеокартами компанії Nvidia. У своїх графічних процесорах вони застосовують цю апаратну особливість, призначену для збільшення робочої тактової частоти GPU в режимах, коли він ще не досяг меж за енергоспоживанням і тепловиділенням. У графічних процесорах Pascal цей алгоритм зазнав кілька змін, основним у тому числі стала більш тонка установка турбо-частот, залежно від напруги.

Якщо раніше різниця між базовою частотою та турбо-частотою була фіксованою, то у GPU Boost 3.0 з'явилася можливість встановлення зсувів турбо-частот для кожної напруги окремо. Тепер турбочастота може встановлюватися для кожного з індивідуальних значень напруги, що дозволяє повністю вичавлювати всі можливості розгону з GPU. Ми докладно писали про цю можливість у огляді GeForce GTX 1080, і для цього можна використовувати утиліти EVGA Precision XOC та MSI Afterburner.

Так як у методиці розгону з виходом відеокарт із підтримкою GPU Boost 3.0 змінилися деякі деталі, то Nvidia довелося зробити додаткові пояснення в інструкції з розгону новинок. Існують різні методики розгону з різними змінними характеристиками, що впливають підсумковий результат. Для кожної конкретної системи може краще підійти певний метод, але основа завжди приблизно однакова.

Багато оверклокерів для перевірки стабільності системи використовують бенчмарк Unigine Heaven 4.0, який відмінно завантажує графічний процесор роботою, має гнучкі налаштування і може бути запущений у віконному режимі разом з вікном утиліти для розгону та моніторингу поруч, на зразок EVGA Precision або MSI Afterbur. Втім, такої перевірки достатньо лише для початкових прикидок, а для міцного підтвердження стабільності розгону, його необхідно перевірити в декількох ігрових додатках, тому що різні ігри передбачають навантаження на різні функціональні блоки GPU: математичні, текстурні, геометричні. Бенчмарк Heaven 4.0 також зручний для завдання розгону тому, що в ньому є режим роботи, в якому зручно змінювати налаштування розгону і є бенчмарк для оцінки приросту швидкості.

Nvidia радить при розгоні нових відеокарт GeForce GTX 1080 та GTX 1070 запускати вікна Heaven 4.0 та EVGA Precision XOC спільно. Спочатку бажано відразу підвищити швидкість обертання вентилятора. І для серйозного розгону можна відразу виставляти значення швидкості на 100%, що зробить роботу відеокарти дуже гучною, але максимально охолодить GPU та інші компоненти відеокарти, знизивши температуру на мінімально можливий рівень, запобігши тротлінгу (зниження частот через зростання температури GPU вище певного значення ).

Далі потрібно встановити цільове значення живлення (Power Target) також на максимум. Це налаштування дозволить забезпечити графічний процесор максимально можливою кількістю енергії, підвищивши рівень енергоспоживання та цільову температуру GPU (GPU Temp Target). В деяких цілях, друге значення можна відокремити від зміни Power Target, і тоді ці налаштування можна буде налаштовувати індивідуально - для досягнення меншого нагрівання відео, наприклад.

Наступним кроком йде збільшення значення приросту частоти відеочіпа (GPU Clock Offset) – воно означає, наскільки більшою буде турбо-частота під час роботи. Це значення підвищує частоту всім значень напруги і призводить до більшої продуктивності. Як завжди, при розгоні потрібно перевіряти стабільність при підвищенні частоти GPU невеликими кроками - від 10 МГц до 50 МГц на крок до того, як буде відзначено зависання, помилка драйвера або програми або навіть візуальні артефакти. При досягненні такого ліміту слід знизити значення частоти на крок униз і перевірити стабільність і продуктивність при розгоні.

Крім частоти GPU, можна також збільшити і частоту відеопам'яті (Memory Clock Offset), що особливо важливо у випадку GeForce GTX 1070, оснащеної GDDR5-пам'яттю, яка зазвичай непогано розганяється. Процес у разі частоти роботи пам'яті точно повторює те, що робиться при знаходженні стабільної частоти GPU, єдина різниця в тому, що кроки можна робити більше - додавати відразу по 50-100 МГц до базової частоти.

Крім описаних вище кроків, можна збільшити і межу напруги (Overvoltage), адже більш висока частота графічного процесора часто досягається при підвищеній напрузі, коли частини GPU, що працюють нестабільно, отримують додаткове живлення. Щоправда, потенційним мінусом підвищення даного значення є можливість пошкодження відеочіпа та прискореного виходу його з ладу, тому потрібно використовувати підвищення напруги з особливою обережністю.

Любителі розгону використовують дещо різні методики, змінюючи параметри в різному порядку. Наприклад, деякі оверклокери поділяють досліди з знаходження стабільної частоти GPU та пам'яті, щоб вони не заважали один одному, а потім тестують комбінований розгін та відеочіпа та мікросхем пам'яті, але це вже – несуттєві деталі індивідуального підходу.

Судячи з думок у форумах і коментарях до статей, деяким користувачам не припав до смаку новий алгоритм роботи GPU Boost 3.0, коли частота GPU спочатку задирається дуже високо, часто вище турбо-частоти, але потім, під впливом зростання температури GPU або зростання енергоспоживання вище встановленого межі, вона може опуститися до значно менших значень. Це просто специфіка роботи оновленого алгоритму, потрібно звикнути до нової поведінки частоти GPU, що динамічно змінюється, але жодних негативних наслідків воно не несе.

Відеокарта GeForce GTX 1070 стала другою після GTX 1080 моделлю у новій лінійці компанії Nvidia, заснованої на графічних процесорах сімейства Pascal. Новий технологічний процес 16 нм FinFET та оптимізації архітектури дозволили представленій відеокарті досягти високої тактової частоти, у чому їй допомагає і нове покоління технології GPU Boost. Навіть незважаючи на урізану кількість функціональних блоків у вигляді потокових процесорів та текстурних модулів, їхня кількість залишилася достатньою для того, щоб GTX 1070 стала найвигіднішим та енергоефективним рішенням.

Установка на молодшу з кількох випущених моделей відеокарт Nvidia на чіпі GP104 пам'яті стандарту GDDR5, на відміну від нового типу GDDR5X, яким відрізняється GTX 1080, не заважає їй досягти високих показників продуктивності. По-перше, у Nvidia вирішили не урізати шину пам'яті моделі GeForce GTX 1070, а по-друге, на неї поставили найшвидшу GDDR5-пам'ять з ефективною частотою 8 ГГц, що лише трохи нижче 10 ГГц у застосовуваної старшої моделі GDDR5X. Враховуючи ще й покращені алгоритми дельта-стиснення, ефективна пропускна здатність пам'яті графічного процесора стала вищою за цей же параметр у аналогічної моделі попереднього покоління GeForce GTX 970.

GeForce GTX 1070 хороша тим, що пропонує дуже високу продуктивність та підтримку нових можливостей та алгоритмів за значно меншою ціною, порівняно зі старшою моделлю, анонсованою трохи раніше. Якщо придбання GTX 1080 за 55 000 собі зможуть дозволити одиниці ентузіастів, то викласти 35 000 за лише на чверть менш продуктивне рішення рівно з тими ж можливостями зможе вже куди більший коло потенційних покупців. Саме поєднання порівняно низької ціни та високої продуктивності зробило GeForce GTX 1070, мабуть, найвигіднішим придбанням на момент її випуску.

Графічний прискорювач GeForce GTX 1060

ПараметрЗначення
Кодове ім'я чіпаGP106
Технологія виробництва16 нм FinFET
Кількість транзисторів4,4 млрд.
Площа ядра200 мм²
АрхітектураУніфікована з масивом загальних процесорів для потокової обробки численних видів даних: вершин, пікселів та ін.
Апаратна підтримка DirectXDirectX 12, з підтримкою рівня можливостей Feature Level 12_1
Шина пам'яті192-бітна: шість незалежних 32-бітних контролерів пам'яті з підтримкою GDDR5 пам'яті
Частота графічного процесора1506 (1708) МГц
Обчислювальні блоки10 потокових мультипроцесорів, що включають 1280 скалярних ALU для розрахунків із плаваючою комою в рамках стандарту IEEE 754-2008;
Блоки текстурування80 блоків текстурної адресації та фільтрації з підтримкою FP16- та FP32-компонент у текстурах та підтримкою трилінійної та анізотропної фільтрації для всіх текстурних форматів
Блоки растрових операцій (ROP)6 широких блоків ROP (48 пікселів) з підтримкою різних режимів згладжування, у тому числі програмованих і при FP16 або FP32 форматі буфера кадру. Блоки складаються з масиву конфігурованих ALU і відповідають за генерацію та порівняння глибини, мультисемплінг та блендинг
Підтримка моніторівІнтегрована підтримка до чотирьох моніторів, підключених за інтерфейсами Dual Link DVI, HDMI 2.0b та DisplayPort 1.2 (1.3/1.4 Ready)

Специфікації референсної відеокарти GeForce GTX 1060
ПараметрЗначення
Частота ядра1506 (1708) МГц
Кількість універсальних процесорів1280
Кількість текстурних блоків80
Кількість блоків блендінгу48
Ефективна частота пам'яті8000 (4×2000) МГц
Тип пам'ятіGDDR5
Шина пам'яті192-біт
Обсяг пам'яті6 ГБ
Пропускна спроможність пам'яті192 ГБ/сек
Обчислювальна продуктивність (FP32)близько 4 терафлопс
Теоретична максимальна швидкість забарвлення72 гігапікселі/с
Теоретична швидкість вибірки текстур121 гігатекселів/с
ШинаPCI Express 3.0
Роз'ємиОдин роз'єм Dual Link DVI, один HDMI та три DisplayPort
Типове енергоспоживання120 Вт
Додаткове харчуванняОдин 6-контактний роз'єм
Число слотів, що займають у системному корпусі2
Рекомендована ціна$249 ($299) у США та 18 990 у Росії

Відеокарта GeForce GTX 1060 також отримала найменування, схоже з таким же рішенням із попередньої серій GeForce, що відрізняється від імені свого прямого попередника GeForce GTX 960 лише зміненою першою цифрою покоління. Новинка стала в поточній лінійці компанії на крок нижче рішення GeForce GTX 1070, що вийшло раніше, що є середнім за швидкістю в новій серії.

Рекомендовані ціни на нову відеоплату компанії Nvidia становлять $249 та $299 для звичайних версій партнерів компанії та для спеціального видання Founder's Edition відповідно. У порівнянні з двома старшими моделями це дуже вигідна цінаТак як нова модель GTX 1060 хоч і поступається топовим платам, але далеко не настільки, наскільки вона їх дешевша. На момент анонсу новинка абсолютно точно стала найкращим за продуктивністю рішенням у своєму класі та однією з найбільш вигідних пропозицій у цьому ціновому діапазоні.

Дана модель відеокарти сімейства Pascal компанії Nvidia вийшла для протидії новим рішенням конкуруючої компанії AMD, яка трохи раніше випустила на ринок Radeon RX 480. Порівнювати новинку Nvidia з цією відеокартою можна, хоча і не зовсім безпосередньо, так як вони все ж таки досить відчутно відрізняються за ціною . GeForce GTX 1060 дорожче ($249-299 проти $199-229), але і явно швидше за конкурента.

Графічний процесор GP106 має 192-бітну шину пам'яті, тому обсяг встановленої на відеокарту пам'яті з такою шиною може дорівнювати 3 або 6 ГБ. Найменшого значення в сучасних умовах відверто недостатньо, і багато ігрових проектів навіть у Full HD-роздільна здатністьбудуть упиратися в брак відеопам'яті, що серйозно позначиться на плавності рендерингу. Щоб забезпечити максимальну продуктивність нового рішення в умовах високих налаштувань, модель відеокарти GeForce GTX 1060 була оснащена 6 ГБ відеопам'яті, що цілком вистачить для запуску будь-яких 3D-додатків з будь-якими налаштуваннями якості. Більше того, на сьогодні різниці між 6 та 8 ГБ просто немає, а трохи грошей таке рішення заощадить.

Значення типового енергоспоживання для новинки становить 120 Вт, що менше значення для GTX 1070 на 20% і дорівнює споживанню енергії відеокартою попереднього покоління GeForce GTX 960, що має значно меншу продуктивність і можливості. Референсна плата має звичний набір роз'ємів для приєднання пристроїв виведення зображення: один Dual-Link DVI, один HDMI та три DisplayPort. Причому з'явилася підтримка нових версій HDMI та DisplayPort, про яку писали в огляді моделі GTX 1080.

Довжина референсної плати GeForce GTX 1060 дорівнює 9,8 дюйма (25 см), а з відмінностей від старших варіантів окремо відзначимо те, що GeForce GTX 1060 не підтримує конфігурацію багаточипового рендерингу SLI, і не має спеціального роз'єму для цього. Так як плата споживає менше енергії, ніж старші моделі, то для додаткового харчуванняна плату встановили один 6-контактний роз'єм PCI-E зовнішнього живлення.

Відеокарти GeForce GTX 1060 з'явилися на ринку з дня анонсу у вигляді продукції партнерів компанії: Asus, EVGA, Gainward, Gigabyte, Innovision 3D, MSI, Palit, Zotac. В обмеженій кількості буде випущено і спеціальне видання GeForce GTX 1060 Founder's Edition, вироблене самою компанією Nvidia, яке продаватиметься за ціною $299 виключно на сайті компанії Nvidia і офіційно не представлено в Росії. Founder's Edition відрізняється тим, що вона виготовлена ​​з високоякісних матеріалів та компонентів, включаючи алюмінієвий корпус, та використовує ефективну систему охолодження, а також ланцюги живлення з низьким опором та регуляторами напруги спеціального дизайну.

Архітектурні зміни

Відеокарта GeForce GTX 1060 заснована на абсолютно новому графічному процесорі моделі GP106, який функціонально нічим не відрізняється від первістка архітектури Pascal у вигляді чіпа GP104, на якому засновані описані вище моделі GeForce GTX 1080 і GTX 1070. Ця архітектура взяла в основу рішення, Maxwell, але в ній є деякі функціональні відмінності, про які ми докладно написали раніше.

Відеочіп GP106 по своєму пристрої схожий на топовий чіп Pascal і аналогічні рішення архітектури Maxwell, і докладні дані про пристрій сучасних GPU ви можете знайти в наших оглядах попередніх рішень компанії Nvidia. Як і попередні графічні процесори, чіпи нової архітектури мають різну конфігурацію обчислювальних кластерів Graphics Processing Cluster (GPC), потокових мультипроцесорів Streaming Multiprocessor (SM) та контролерів пам'яті:

Графічний процесор GP106 має у своєму складі два кластери GPC, що складаються з 10 потокових мультипроцесорів (Streaming Multiprocessor - SM), тобто рівно половину від наявного в GP104. Як і в старшому GPU, кожен з мультипроцесорів містить по 128 обчислювальних ядер, по 8 текстурних блоків TMU, по 256 КБ регістрової пам'яті, по 96 КБ загальної пам'яті та по 48 КБ кеш-пам'яті першого рівня. В результаті, GeForce GTX 1060 містить загалом 1280 обчислювальних ядер та 80 текстурних модулів - удвічі менше, ніж у GTX 1080.

А ось підсистема пам'яті GeForce GTX 1060 не була урізана вдвічі щодо топового рішення, вона містить шість 32-розрядних контролерів пам'яті, що дають підсумкову 192-розрядну шину пам'яті. При ефективній частоті GDDR5-відеопам'яті GeForce GTX 1060, що дорівнює 8 ГГц, пропускна здатність досягає 192 ГБ/с, що для вирішення такого цінового сегмента дуже непогано, особливо з урахуванням високої ефективності її використання в Pascal. До кожного з контролерів пам'яті прив'язані вісім блоків ROP та 256 КБ кеш-пам'яті другого рівня, тому загалом повна версія графічного процесора GP106 містить 48 блоків ROP та 1536 КБ L2-кешу.

Для зниження вимог до пропускної спроможності пам'яті та більш ефективного використання наявної в архітектурі Pascal було додатково покращено внутрішньочіпове стиснення інформації без втрат, яке здатне стискати дані в буферах, отримуючи приріст ефективності та продуктивності. Зокрема, у чіпах нового сімейства були додані нові методи дельта-стиснення зі співвідношенням 4:1 та 8:1, що забезпечують додаткові 20% ефективності ПСП порівняно з попередніми рішеннями сімейства Maxwell.

Базова частота нового GPU дорівнює 1506 МГц - нижче цієї позначки частота має опускатися у принципі. Типова турбо-частота (Boost Clock) набагато вища і дорівнює 1708 МГц - це середнє значення реальної частоти, на якій працює графічний чіп GeForce GTX 1060 великому наборіігор та 3D-додатків. Реальна Boost-частота залежить від гри та умов, у яких відбувається тестування.

Як і інші рішення сімейства Pascal, модель GeForce GTX 1060 не просто працює на високій тактовій частоті, забезпечуючи високу продуктивність, але має й пристойний запас якомога розгону. Перші досліди свідчать про можливість досягнення частот близько 2 ГГц. Не дивно, що партнери компанії готують навіть фабрично розігнані варіанти відеокарти моделі GTX 1060.

Отже, головною зміною нової архітектури став технологічний процес 16 нм FinFET, застосування якого при виробництві GP106 дозволило значно підвищити складність чіпа при збереженні порівняно невисокої площі 200 мм², тому даний чіп архітектури Pascal має помітно більшу кількість виконавчих блоків у порівнянні з чіпом Maxwell. , Виробленим із застосуванням техпроцесу 28 нм.

Якщо GM206 (GTX 960) з площею 227 мм² мав під 3 млрд. транзисторів і 1024 ALU, 64 TMU, 32 ROP і 128-бітну шину, то новий GPU вмістив у 200 мм² вже 4,4 млрд. транзисторів, 12 80 TMU та 48 ROP з 192-бітною шиною. Та ще за майже півтора разу вищої частоті: 1506 (1708) проти 1126 (1178) МГц. І це за однакового енергоспоживання в 120 Вт! У результаті, графічний процесор GP106 став одним із найенергоефективніших графічних процесорів, разом з GP104.

Нові технології Nvidia

Однією з найцікавіших технологій компанії, що підтримується GeForce GTX 1060 та іншими рішеннями сімейства Pascal, є технологія Nvidia Simultaneous Multi-Projection. Ми вже писали про цю технологію в огляді GeForce GTX 1080, вона дозволяє використовувати кілька нових технік для оптимізації рендерингу. Зокрема – одночасно проектувати VR-зображення одразу для двох очей, у рази підвищуючи ефективність використання GPU в умовах віртуальної реальності.

Для підтримки SMP у всіх графічних процесорах сімейства Pascal є спеціальний двигун, який знаходиться в PolyMorph Engine наприкінці геометричного конвеєра перед блоком растеризації. З його допомогою GPU може одночасно проектувати геометричний примітив на кілька проекцій з однієї точки, при цьому ці проекції можуть бути стерео (тобто підтримується до 16 або 32 проекцій одночасно). Ця можливість дозволяє графічним процесорам Pascal точно відтворювати викривлену поверхню для VR-рендерінгу, а також коректно виводити зображення на багатомоніторні системи.

Важливо, що технологія Simultaneous Multi-Projection вже зараз інтегрується в популярні ігрові движки (Unreal Engine і Unity) та ігри, і на сьогоднішній день про підтримку технології заявлено більш ніж 30 ігор, що знаходяться в розробці, включаючи такі відомі проекти, як Unreal Tournament , Poolnation VR, Everest VR, Obduction, Adr1ft та Raw Data. Цікаво, що хоча Unreal Tournament не є VR-грою, але в ній SMP використовується для досягнення якіснішої картинки та підвищення продуктивності.

Ще однією довгоочікуваною технологією став потужний інструмент створення скріншотів в іграх Nvidia Ansel. Цей інструмент дозволяє створювати незвичайні та дуже якісні скріншоти з ігор, з раніше недоступними можливостями, зберігаючи їх у дуже високій якості та доповнюючи різними ефектами, та ділитися своїми творами. Ansel дозволяє буквально побудувати скріншот так, як цього хоче художник, дозволяючи встановити камеру з будь-якими параметрами в будь-яку точку сцени, накласти на зображення потужні післяфільтри або навіть зробити 360-градусний знімок для перегляду в шоломі віртуальної реальності.

Nvidia стандартизувала інтеграцію інтерфейсу Ansel в ігри, і зробити це дуже просто - достатньо додати в код кілька рядків. Чекати появи цієї можливості в іграх вже не потрібно, оцінити здібності Ansel прямо зараз можна у грі Mirror's Edge: Catalyst, а трохи пізніше вона стане доступною і у Witcher 3: Wild Hunt. Крім цього, у розробці знаходяться безліч ігрових проектів з підтримкою Ansel, включаючи такі ігри, як Fortnite, Paragon та Unreal Tournament, Obduction, The Witness, Lawbreakers, Tom Clancy's The Division, No Man's Sky та інші.

Також новий графічний процесор GeForce GTX 1060 підтримує пакет інструментів Nvidia VRWorks, що допомагає розробникам створювати вражаючі проекти для віртуальної реальності Цей пакет включає безліч утиліт та інструментів для розробників, у тому числі VRWorks Audio, що дозволяє виконувати дуже точний розрахунок відображень звукових хвиль від об'єктів сцени за допомогою трасування променів на GPU. Також пакет включає інтеграцію у VR та фізичних ефектів PhysX, щоб забезпечити фізично коректну поведінку об'єктів у сцені.

Однією з найяскравіших віртуальних ігор, що отримала перевагу від VRWorks, стала VR Funhouse – гра у віртуальній реальності самої Nvidia, яка безкоштовно доступна у сервісі Valve Steam. Ця гра заснована на двигуні Unreal Engine 4 (Epic Games), і вона працює на відеокартах GeForce GTX 1080, 1070 та 1060 у зв'язці з VR-шоломами HTC Vive. Мало того, вихідний код цієї гри буде публічно доступний, що дозволить іншим розробникам використовувати готові ідеї та код вже у своїх VR-атракціонах. Повірте нам на слово, це одна з найбільш вражаючих демонстрацій можливостей віртуальної реальності.

У тому числі завдяки технологіям SMP і VRWorks, використання графічного процесора GeForce GTX 1060 у VR-додатках забезпечує цілком достатню для початкового рівня віртуальної реальності продуктивність, і аналізований GPU відповідає мінімальному необхідному апаратному рівню в тому числі для SteamVR, стаючи одним з найбільш вдалих. використання у системах з офіційною підтримкою VR.

Так як модель GeForce GTX 1060 заснована на чіпі GP106, який по можливості нічим не поступається графічному процесору GP104, що став основою для старших модифікацій, вона підтримує абсолютно всі технології, описані нами вище.

Відеокарта GeForce GTX 1060 стала третьою моделлю у новій лінійці компанії Nvidia, заснованої на графічних процесорах сімейства Pascal. Новий технологічний процес 16 нм FinFET та оптимізації архітектури дозволили всім новим відеокартам досягти високої тактової частоти та розмістити у GPU більшу кількість функціональних блоків у вигляді потокових процесорів, текстурних модулів та інших, у порівнянні з відеочіпами попереднього покоління. Саме тому модель GTX 1060 стала найвигіднішим і енергоефективним рішенням і у своєму класі, і взагалі.

Особливо важливо те, що GeForce GTX 1060 пропонує досить високу продуктивність та підтримку нових можливостей та алгоритмів за значно меншою ціною, порівняно зі старшими рішеннями на GP104. Графічний чіп GP106, що використовується в новій моделі, забезпечує найкращу в класі продуктивність та енергоефективність. Модель GeForce GTX 1060 спеціально спроектована і відмінно підійде для всіх сучасних ігор при високих і максимальних графічних налаштуваннях з роздільною здатністю 1920x1080 і навіть з увімкненим повноекранним згладжуванням різними методами (FXAA, MFAA або MSAA).

А для бажаючих отримати ще більш високу продуктивність за наявності дисплеїв з надвисокою роздільною здатністю, у Nvidia є топові моделі відеокарт GeForce GTX 1070 та GTX 1080, які також дуже хороші за продуктивністю та енергоефективністю. І все ж таки поєднання низької ціни і достатньої продуктивності дуже вигідно відрізняє GeForce GTX 1060 на тлі старших рішень. У порівнянні з конкуруючою Radeon RX 480, рішення Nvidia дещо швидше при меншій складності та площі GPU, і має значно кращу енергоефективність. Щоправда, вона продається дещо дорожче, тому кожна відеокарта має власну нішу.

Огляд відеокарти NVIDIA GeForce GTX 780 GeForce Experience та ShadowPlay

GeForce Experience

Як комп'ютерні ентузіасти, ми цінуємо поєднання різних налаштувань, що впливають на продуктивність та якість ігор. Найпростіше витратити купу грошей на нову відеокарту та виставити все графічні налаштуванняна максимум. Але коли який-небудь параметр виявляється занадто важким для карти і його доводиться знижувати або відключати, залишається неприємне почуття та усвідомлення того, що гра могла працювати набагато краще.

Однак виставити оптимальні налаштування не так просто. Одні параметри дають більш якісні візуальні ефекти, ніж інші, при цьому рівень впливу на продуктивність може сильно змінюватися. Програма GeForce Experience є спробою NVIDIA спростити вибір ігрових налаштувань шляхом порівняння вашого CPU, GPU та дозволу з базою даних конфігурацій. Друга частина утиліти допомагає визначити, чи потрібні поновлення драйверам.

Ймовірно, ентузіасти й надалі вибиратимуть налаштування самостійно та негативно сприймуть додаткову програму. Однак більшість геймерів, які бажають встановити гру і відразу приступити до геймплею без перевірки драйверів та перебору різних налаштувань, безумовно, порадіють такій можливості. У будь-якому випадку GeForce Experience від NVIDIA допомагає людям максимально насолодитися грою, і тому є корисною утилітою для ігор на ПК.

GeForce Experience визначила усі дев'ять ігор, встановлених на нашій тестовій системі. Природно, вони не зберегли стандартні налаштування, оскільки ми застосували певні налаштування на користь тестування. Але все ж таки цікаво, як GeForce Experience змінила б обрані нами опції.

Для Tomb Raider утиліта GeForce Experience захотіла відключити технологію TressFX, навіть незважаючи на те, що NVIDIA GeForce GTX 780при включеній функції у середньому показала 40 кадрів за секунду. Чомусь програма не змогла визначити конфігурацію Far Cry 3хоча запропоновані їй налаштування виявилися досить високими. З невідомих причин для Skyrim утиліта захотіла відключити FXAA.

Приємно отримати набір скріншотів для кожної гри з описом впливу певного налаштування на якість зображення. З дев'яти переглянутих нами прикладів GeForce Experience наблизилась до оптимальних, на наш погляд, налаштувань. Однак утиліта також відрізняється упередженістю, заохочуючи характерним для NVIDIA функцій, таким як PhysX (яку програма виставила на високий рівень у Borderlands 2) та перешкоджаючи включенню функцій від AMD (у тому числі TressFX Tomb Raider). Відключення FXAA у Skyrim взагалі не має сенсу, оскільки гра в середньому видає 100 FPS. Цілком можливо, що ентузіасти захочуть встановити GeForce Experience після того, як почнуться постачання системи NVIDIA Shield, оскільки функція Game Streaming, схоже, буде реалізована через програму NVIDIA.

ShadowPlay: завжди активний відеореєстратор для ігор

Любителі WoW часто записують свої рейди, проте для цього потрібна досить потужна система, Fraps та багато дискового простору.

Нещодавно NVIDIA оголосила про нової функції ShadowPlay, який може значно спростити процес запису.

При активації ShadowPlay використовує вбудований у GPU Kepler фіксований декодер NVEnc, який автоматично записує останні 20 хвилин геймплею. Або ви можете вручну розпочинати та зупиняти роботу ShadowPlay. Таким чином, технологія замінює програмні рішення на кшталт Fraps, які дають більш високе навантаження на центральний процесор.

Довідка: NVEnc працює тільки з кодуванням H.264 на роздільній здатності до 4096x4096 пікселів. ShadowPlay поки що не доступна на ринку, але NVIDIA заявляє, що до моменту появи цього літа програма зможе записувати відео в 1080p з частотою кадрів до 30 FPS. Ми б хотіли бачити більш високу роздільну здатність, оскільки раніше заявлялося, що енкодер потенційно здатний підтримувати його на апаратному рівні.

Огляд відеокарти NVIDIA GeForce GTX 780 GPU Boost 2.0 та можливі проблеми з розгоном

GPU Boost 2.0

В огляді GeForce GTX Titanу нас не вдалося провести всебічне тестування технології NVIDIA GPU Boost другого покоління, але тепер вона дісталася NVIDIA GeForce GTX 780. Ось невеликий опис цієї технології:

GPU Boost – це механізм NVIDIA, що змінює продуктивність відеокарт залежно від типу завдання, що обробляється. Як ви, ймовірно, знаєте, ігри мають різні вимоги до ресурсів GPU. Історично склалося так, що частота має бути налаштована з урахуванням найгіршого сценарію. Але при обробці "легких" завдань GPU працював даремно. GPU Boost відстежує різні параметри та підвищує або знижує частоти залежно від потреб програми та поточної ситуації.

Перша реалізація GPU Boost працювала в умовах певного порога потужності (170 Вт у разі GeForce GTX 680). Проте інженери компанії з'ясували, що можуть безпечно перевищити цей рівень, якщо температура графічного процесора досить низька. Таким чином, продуктивність можна оптимізувати ще сильніше.

На практиці GPU Boost 2.0 відрізняється лише тим, що тепер NVIDIA прискорює частоту, спираючись не на показник граничного енергоспоживання, а на певну температуру, яка становить 80 градусів Цельсія. Це означає, що тепер будуть використовуватися більш високі значення частоти та напруги до нагрівання чіпа до 80 градусів. Не забувайте, що температура в основному залежить від профілю та налаштувань вентилятора: чим вища його швидкість, тим нижча температура і, отже, вище значення GPU Boost (і рівень шуму, на жаль, теж). Технологія, як і раніше, робить оцінку ситуації раз на 100 мс, тому NVIDIA є ще над чим попрацювати в майбутніх версіях.

Налаштування, що залежать від температури, ще більше ускладнюють процес тестування порівняно з першою версією GPU Boost. Все, що збільшує або знижує температуру GK110, змінює частоту чіпа. Отже, досягти стабільних результатів між прогонами досить складно. У лабораторних умовах можна сподіватися лише на стійку температуру довкілля.

Крім написаного вище, варто відзначити, що ви можете підвищити граничне значення температури. Наприклад, якщо ви хочете, щоб NVIDIA GeForce GTX 780знижувала частоту та напругу на рівні 85 або 90 градусів Цельсія, це можна налаштувати у параметрах.

Бажаєте, щоб GK110 знаходився якнайдалі від обраної вами межі температури? Крива вентилятора NVIDIA GeForce GTX 780повністю регулюється, дозволяючи вам налаштувати робочий цикл згідно з температурними значеннями.

Можливі проблеми з розгоном

Під час нашого знайомства з GeForce GTX Titanпредставники компанії показали нам внутрішню утиліту, здатну прочитувати стан різних датчиків: так вона спрощує процес діагностики нестандартної поведінки картки. Якщо при розгоні температура GK110 підніметься надто високо, навіть при тротлінгу ця інформація буде записана в журналі.

Зараз цю функцію компанія реалізує через додаток Precision X, який запускає попереджувальний алгоритм "reasons", якщо при розгоні відбулися дії, що заважають ефективному продовженню. Це чудова функція, адже вам більше не потрібно будувати здогади про можливі "вузькі місця". Також є показник OV max limit, який дасть знати, якщо ви досягли абсолютного піку напруги GPU. І тут є ризик спалити карту. Ви можете розглядати це як пропозиція знизити параметри розгону.

Огляд відеокарти NVIDIA GeForce GTX 780 Тестовий стенд та бенчмарки


Конфігурація тестового стенду
Процесор Intel Core i7-3770K ( Ivy Bridge) 3,5 ГГц @ 4,0 ГГц (40 * 100 МГц), LGA 1155, 8 Мбайт загального кешу L3, Hyper-Threading вкл., Power-savings вкл.
Системна плата Gigabyte Z77X-UD5H (LGA 1155), чіпсет Z77 Express, BIOS F15q
Оперативна пам'ять G.Skill 16 Гбайт (4 x 4 Гбайт) DDR3-1600, F3-12800CL9Q2-32GBZL @ 9-9-9-24 на 1,5 В
Накопичувач Crucial m4 SSD 256 Гбайт SATA 6 Гбіт/с
Відеокарти Nvidia GeForce GTX 780 3 Гбайт

AMD Radeon HD 7990 6 Гбайт

AMD Radeon HD 7970 GHz Edition 3 Гбайт

Nvidia GeForce GTX 580 1.5 Гбайт

Nvidia GeForce GTX 680 2 Гбайт

Nvidia GeForce GTX Titan 6 Гбайт

Nvidia GeForce GTX 690 4 Гбайт

Блок живлення Cooler Master UCP-1000 W
Системне ПЗ та драйвери
ОС Windows 8 Professional 64-bit
DirectX DirectX 11
Граф. драйвери AMD Catalyst 13.5 (Beta 2)
Nvidia GeForce Release 320.00
Nvidia GeForce Release 320.18 (for GeForce GTX 780)

Отримуємо правильне значення частоти зміни кадрів

Наглядові читачі зауважать, що показники на наступних сторінках скромніші, ніж у огляді AMD Radeon HD 7990, і є причина. Раніше ми представляли синтетичну та реальну частоту кадрів, а потім показували коливання часу між кадрами разом із пропущеними та короткими кадрами. Справа в тому, що такий метод не відображає реальні відчуття від роботи відеокарти, і з нашого боку несправедливо засуджуватиме AMD, спираючись на синтетичні показники затримки часу між кадрами.

Ось чому поряд із коливаннями частоти кадрів ми тепер наводимо більш практичні показники частоти кадрів у динаміці. Результати виходять не такими завищеними, але в той же час вони дуже промовисті в іграх, де AMD спостерігаються труднощі.

Тести та налаштування
Battlefield 3 Якість графіки - Ultra, v-sync вимк., 2560x1440, DirectX 11, Going Hunting, 90-секунд, FCAT
Far Cry 3 Якість графіки - Ultra, DirectX 11, v-sync вимк., 2560x1440, пробіжка за власним маршрутом, 50-секунд, FCAT
Borderlands 2 Якість графіки - найвища, PhysX низк., 16x анізотропна фільтрація, 2560x1440, пробіжка за власним маршрутом, FCAT
Hitman: Absolution Якість графіки - Ultra, MSAA вимк., 2560x1440, вбудований бенчмарк, FCAT
The Elder Scrolls V: Skyrim Якість графіки - Ultra, FXAA Enabled, 2560x1440, пробіжка за власним маршрутом, 25-секунд, FCAT
3DMark Fire Strike Benchmark
BioShock Infinite Якість графіки - Ultra, DirectX 11, дифузорна глибина поля, 2560x1440, вбудований бенчмарк, FCAT
Crysis 3 Якість графіки - дуже висока, MSAA: Low (2x), текстри високої роздільної здатності, 2560x1440, пробіжка за власним маршрутом, 60-секунд, FCAT
Tomb Raider Якість графіки - Ultimate, FXAA вкл., 16x анізотропна фільтрація, TressFX Hair, 2560x1440, пробіжка за власним маршрутом, 45-секунд, FCAT
LuxMark 2.0 64-bit Binary, Version 2.0, Sala Scene
SiSoftware Sandra 2013 Professional Sandra Tech Support (Engineer) 2013.SP1, Cryptography, Financial Analysis Performance


ЗМІСТ
2022 wisemotors.ru. Як це працює. Залізо. Майнінг. Криптовалюта.