Знакомимся с графическим процессором GP104. Видеокарты Новые технологии Nvidia

Согласно недавно опубликованным неофициальным данным, семейство графических процессоров на базе архитектуры Pascal может стать одним из наиболее полных модельных рядов компании NVIDIA в последние годы. Буквально за несколько месяцев фирма представила четыре GPU на основе Pascal и при этом не собирается останавливаться на достигнутом. По словам главы компании, далеко не все микросхемы Pascal, не говоря уже о реальных продуктах, были представлены. Судя по всему, в ближайшее время нас ждут новые анонсы.

NVIDIA Pascal: восемь продуктов за четыре месяца

Начиная с апреля этого года NVIDIA представила четыре микросхемы на основе Pascal: GP100 c 16 Гбайт памяти HBM2, GP102 c поддержкой GDDR5X, GP104 и GP106. При этом компания анонсировала восемь продуктов на основе указанных GPU (если не считать за отдельные продукты разного рода специальные редакции указанных ниже, а также специализированные устройства типа DGX-1): GeForce GTX 1080/1070 (GP104), GeForce GTX 1060 (GP106), TITAN X (GP102 + 12 Гбайт GDDR5X), Quadro P5000 (GP104GL + 16 Гбайт GDDR5X), Quadro P6000 (GP102GL + 24 Гбайт GDDR5X), Tesla P100 SXM и Tesla P100 PCIe (обе на базе GP100 + 16 Гбайт HBM2).

Хотя четыре GPU и восемь продуктов за четыре месяца это весьма выдающееся достижение, заметно, что компания не представила ни одного нового решения для ноутбуков, а также ни одной новой графической карты дешевле $250. По словам главы NVIDIA, компания готовит новые GPU на базе Pascal, они уже существуют в кремнии, но на рынок выйдут лишь через некоторое время.

NVIDIA: Все Pascal готовы, но не все представлены

«Мы спроектировали, верифицировали и начали производство всех GPU на базе архитектуры Pascal », — сказал Дженсен Хуанг (Jen-Hsun Huang), исполнительный директор NVIDIA, в ходе телеконференции с инвесторами и финансовыми аналитиками. «Однако мы пока не представили все эти графические процессоры».

Новые конфигурации

Впрочем, интерес для любителей игр и энтузиастов производительности представляют не столько GP107, GP108 и внутреннее строение GP102, сколько тот факт, что каждая микросхема Pascal будет существовать по меньшей мере в двух базовых конфигурациях (с точки зрения идентификатора PCIe ID, который использует драйвер NVIDIA). Это открывает возможности для создания массы новых продуктов на базе микросхем GP100, GP102, GP104 и GP106.

Так, GP104 существует в конфигурации GP104-A и GP104-B, а также в виде версий с включённым ускорением для профессиональных приложений — GP104GL-A и GP104GL-B. Мы не знаем, чему именно соответствуют литеры «A» и «B», но можем предположить, что «A» обозначает микросхему в максимальной конфигурации. Таким образом, GP104-A может соответствовать GeForce GTX 1080, а GP104-B — GeForce GTX 1070.

Принимая во внимание, что микросхемы GP102 и GP106 также существуют в двух конфигурациях (во всяком случае, об этом говорят база данных AIDA64 и драйверы NVIDIA), но при этом на их базе имеется лишь по одному продукту (GeForce GTX 1060 и TITAN X), мы вполне можем ожидать появления новых решений на их основе. Будут ли эти карты быстрее или медленнее имеющихся — покажет время. Во всяком случае, GP102 может масштабироваться как «вверх» (до 3840 потоковых процессоров), так и «вниз». При этом, разумеется, нельзя исключать гипотетической возможности появления третьей версии GP102-С, в случае, если она понадобится NVIDIA.

Так или иначе, очевидно, что NVIDIA планирует расширять семейство графических карт на базе Pascal. Хотя ближайшие планы явно должны включать в себя мобильные и массовые GPU, очень вероятно, что в будущем нас ждут новые решения для высокопроизводительных игровых ПК.

2016 год уже на исходе, но его вклад в игроиндустрию останется с нами надолго. Во-первых, видеокарты из красного лагеря получили неожиданно удачное обновление в среднем ценовом диапазоне, ну а во-вторых NVIDIA в очередной раз доказала, что не зря занимает 70% рынка. Maxwell’ы были хороши, GTX 970 по праву считалась одной из лучших карточек за свои деньги, но Pascal - совсем другое дело.

Новое поколение железа в лице GTX 1080 и 1070 буквально похоронило результаты прошлогодних систем и рынок флагманского б/у железа, а «младшие» линейки в лице GTX 1060 и 1050 закрепили успех в более доступных сегментах. Владельцы GTX980Ti и прочих Titan’ов рыдают крокодильими слезами: их убер-пушки за много тысяч рублей разом потеряли 50% стоимости и 100% понтов. Сама NVIDIA заявляет, что 1080 быстрее, чем прошлогодний TitanX, 1070 легко «наваляет» 980Ti, а сравнительно бюджетная 1060 сделает больно владельцам всех остальных карточек.

Так ли это, откуда растут ноги высокой производительности и что с этим всем делать в преддверии праздников и внезапных финансовых радостей, а также чем именно себя порадовать, можно узнать в этой длинной и немного занудной статье.

Компанию Nvidia можно любить или… не любить, но отрицать то, что именно она в данный момент является лидером в области видеокартостроения станет только попаданец из альтернативной вселенной. Так как Vega от AMD ещё не анонсирована, флагманские RX’ы на Polaris’е мы так и не увидели, а R9 Fury с её 4 Гб экспериментальной памяти откровенно не может считаться перспективной карточкой (VR и 4K, всё же, захотят чуть больше, чем у неё есть) - имеем что имеем. Пока 1080 Ti и условные RX 490, RX Fury и RX 580 являются лишь слухами да ожиданиями, у нас с вами есть время разобраться в текущей линейке NVIDIA и посмотреть, чего достигла компания за последние годы.

Бардак и история происхождения Pascal’я

NVIDIA регулярно даёт поводы «не любить себя». История с GTX 970 и её «3.5 Гб памяти», «NVIDIA, Fuck you!» от Линуса Торвальдса, полная порнография в линейках десктопной графики, отказ от работы с бесплатной и куда более распространённой системой FreeSync в пользу своей проприетарщины… В общем, поводов хватает. Один из самых раздражающих лично меня - это то, что было с прошлыми двумя поколениями видеокарт. Если брать грубую характеристику, то «современные» графические процессоры пошли со времён поддержки DX10. А если искать «дедушку» 10-й серии сегодня, то начало современной архитектуры будет в районе 400-й серии видеоускорителей и архитектуры Fermi. Именно в нём окончательно сформировалась идея «блочной» конструкции из т.н. «ядер CUDA» в терминологии NVIDIA.

Fermi

Если видеокарты 8000-й, 9000-й и 200-й серий были первыми шагами в освоение самого понятия, «современной архитектуры» с универсальными шейдерными процессорами (как у AMD, да), то 400-я серия уже была максимально похожа на то, что мы видим в какой-нибудь 1070. Да, у Fermi остался небольшой Legacy-костыль от прошлых поколений: шейдерный блок работал на удвоенной частоте ядра, отвечавшего за расчёт геометрии, но общая картинка у какой-нибудь GTX 480 не сильно отличается от какой-нибудь 780-й, мультипроцессоры SM объединены в кластеры, кластеры общаются через общий кеш с контроллерами памяти, а результаты работы выводит общий для кластера блок растеризации:


Блок-схема процессора GF100, использовавшегося в GTX 480.

В 500-й серии был всё тот же Fermi, чуть улучшенный «внутри» и с меньшим количеством брака, так что топовые решения получили 512 CUDA-ядер вместо 480 у предыдущего поколения. Визуально же блок-схемы вообще кажутся близнецами:


GF110 - сердце GTX 580.

Кое-где поднарастили частоты, чуть изменили дизайн самого чипа, никакой революции не было. Всё те же 40 нм техпроцесс и 1.5 ГБ видеопамяти на 384-битной шине.

Kepler

С приходом архитектуры Kepler изменилось многое. Можно сказать, что именно это поколение дало видеокартам NVIDIA тот вектор развития, который привёл к возникновению текущих моделей. Изменилась не только архитектура GPU, но и сама кухня разработки нового железа внутри NVIDIA. Если Fermi был направлен на поиск решения, которое обеспечит высокую производительность, то Kepler сделал ставку на энергоэффективность, разумное использование ресурсов, высокие частоты и простоту оптимизации игрового движка под возможности высокопроизводительной архитектуры.

В дизайне GPU были произведены серьёзные изменения: за основу взяли не «флагманский» GF100 / GF110, а «бюджетный» GF104 / GF114, использовавшейся в одной из самых популярных карточек того времени - GTX 460.


Общая архитектура процессора стала проще за счёт использования всего двух больших блоков с четырьмя унифицированными модулями шейдерных мультипроцессоров. Выглядела разводка новых флагманов примерно так:


GK104, установленный в GTX 680.

Как вы видите, каждый из вычислительных блоков существенно прибавил в весе относительно прошлой архитектуры, и был назван SMX. Сравните строение блока с тем, что изображено выше, в разделе Fermi.


Мультипроцессор SMX графического процессора GK104

Шестисотая серия не имела видеокарт на полноценном процессоре, содержащем шесть блоков вычислительных модулей, флагманом была GTX 680 с установленным GK104, а круче неё - только «двухголовая» 690-я, на которой было разведено просто два процессора со всей необходимой обвязкой и памятью. Спустя год флагман GTX 680 с незначительными изменениями превратился в GTX 770, а венцом эволюции архитектуры Kepler стали видеокарты на базе кристалла GK110: GTX Titan и Titan Z, 780Ti и обычная 780. Внутри - всё те же 28 нанометров, единственное качественное улучшение (которое НЕ досталось консьюмерским видеокартам на базе GK110) - производительность с операциями двойной точности.

Maxwell

Первой видеокартой на архитектуре Maxwell стала… NVIDIA GTX 750Ti. Чуть позже появились её обрезки в лице GTX 750 и 745 (поставлялась только как встроенное решение), и на момент появления младшие карточки реально встряхнули рынок недорогих видеоускорителей. Новая архитектура обкатывалась на чипе GK107: крохотном кусочке будущих флагманов с огромными радиаторами и пугающей ценой. Выглядел он примерно так:


Да, всего один вычислительный блок, но насколько сложнее он устроен, нежели у предшественника, сравните сами:


Вместо крупного блока SMX, который использовался как базовый «строительный кирпичик» в создании GPU используются новые, более компактные блоки SMM. Базовые вычислительные блоки Kepler’а были хороши, но страдали от плохой загрузки мощностей - банальный голод инструкций: раскидать инструкции по большому количеству исполнительных элементов система не могла. Примерно те же проблемы были у Pentium 4: мощность простаивала, а ошибка в предсказании ветвлений стоила очень дорого. В Maxwell’е каждый вычислительный модуль разделили на четыре части, выделив каждой из них собственный буфер инструкций и планировщик варпов - однотипных операций над группой потоков. В результате эффективность выросла, а сами графические процессоры стали гибче, чем их предшественники, а самое главное - ценой малой крови и достаточно простого кристалла отработали новую архитектуру. История развивается по спирали, хе-хе.

Больше всего от нововведений выиграли мобильные решения: площадь кристалла выросла на четверть, а количество исполнительных блоков мультипроцессоров - почти вдвое. Как назло, именно 700-я и 800-я серии устроили основной бардак в классификации. Внутри одной только 700-й встречались видеокарты на архитектурах Kepler, Maxwell и даже Fermi! Именно поэтому десктопные Maxwell’ы, чтобы отстраниться от мешанины в предыдущих поколениях, получили общую серию 900, от которой впоследствии отпочковались мобильные карточки GTX 9xx M.

Pascal - логическое развитие архитектуры Maxwell

То, что было заложено в Kepler’е и продолжено в поколении Maxwell осталось и в Pascal’ях: первые потребительские видеокарты выпущены на базе не самого крупного чипа GP104, который состоит из четырёх кластеров обработки графики. Полноразмерный, шестикластерный GP100 достался дорогущему полупрофессиональному GPU под маркой TITAN X. Впрочем, даже «обрезанная» 1080 зажигает так, что прошлым поколениям становится дурно.

Улучшение производительности

Основа основ

Maxwell стал фундаментом новой архитектуры, диаграмма сравнимых процессоров (GM104 и GP104) выглядит почти одинаково, основное отличие - количество упакованных в кластеры мультипроцессоров. В Kepler’е (700-е поколение) было два больших мультипроцессора SMX, которые разделили на 4 части каждый в Maxwell’е, снабдив необходимой обвязкой (сменив название на SMM). В Pascal’е к имеющимся восьми в блоке добавили ещё два, так что их стало 10, а аббревиатуру в очередной раз перебили: теперь единичные мультипроцессоры вновь называются SM.


В остальном - полное визуальное сходство. Правда, внутри изменений стало ещё больше.

Двигатель прогресса

Изменений внутри блока мультипроцессоров неприлично много. Дабы не вдаваться в совсем уж занудные подробности того, что переделали, как оптимизировали и как было раньше, опишу изменения совсем коротко, а то некоторые и так уже зевают.

Перво-наперво Pascal’ям поправили ту часть, которая отвечает за геометрическую составляющую картинки. Это необходимо для мультимониторных конфигураций и работы с VR-шлемами: при должной поддержке со стороны игрового движка (а усилиями NVIDIA эта поддержка быстро появится) видеокарта может один раз посчитать геометрию и получить несколько проекций геометрии для каждого из экранов. Это существенно снижает нагрузку в VR не только в области работы с треугольниками (тут прирост просто двукратный), но и в работе с пиксельной составляющей.

Условная 980Ti будет считать геометрию дважды (для каждого глаза), а затем заполнять текстурами и выполнять пост-обработку для каждого из изображений, обработав в сумме порядка 4.2 миллиона точек, из которых реально использоваться будет около 70%, остальное будет отрезано или попадёт в область, которая попросту не отображается для каждого из глаз.

1080 обработает геометрию единожды, а пиксели, которые не попадут в итоговое изображение просто не будут рассчитываться.


С пиксельной составляющей всё, на самом деле, ещё круче. Так как наращивание пропускной способности памяти можно вести только по двум фронтам (увеличение частоты и пропускной способности за такт), и оба способа стоят денег, а «голод» GPU по части памяти всё явственней выражен с годами из-за роста разрешения и развития VR остаётся улучшать «бесплатные» методы увеличения пропускной способности. Если нельзя расширить шину и поднять частоту - надо сжать данные. В предыдущих поколениях аппаратное сжатие уже было внедрено, но в Pascal его вывели на новый уровень. Опять же, обойдёмся без скучной математики, и возьмём готовый пример от NVIDIA. Слева - Maxwell, справа - Pascal, залиты розовым цветом те точки, чья цветовая составляющая подвергалась сжатию без потерь качества.


Вместо передачи конкретных тайлов 8х8 точек, в памяти находится «средний» цвет + матрица отклонений от него, такие данные занимает от ½ до ⅛ объёма исходных. В реальных задачах нагрузка на подсистему памяти снизилась от 10 до 30%, в зависимости от количества градиентов и равномерности заливок в сложных сценах на экране.


Этого инженерам показалось мало, и для флагманской видеокарты (GTX 1080) использована память с повышенной пропускной способностью: GDDR5X передаёт вдвое больше бит данных (не инструкций) за такт, и выдаёт в пике более 10 Гбит/с. Передача данных с такой сумасшедшей скоростью потребовала полностью новой топологии разводки памяти на плате, а в сумме эффективность работы с памятью выросла на 60-70% по сравнению со флагманами прошлого поколения.

Уменьшение задержек и простоя мощностей

Видеокарты давно занимаются не только обработкой графики, но и сопутствующими вычислениями. Физика часто привязана к кадрам анимации и замечательно параллелится, а значит намного эффективнее считается на GPU. Но самым большим генератором проблем за последнее время стала VR-индустрия. Многие игровые движки, методологии разработки и куча других технологий, используемых для работы с графикой просто не были рассчитаны на VR, случай перемещения камеры или изменения положения головы пользователя в процессе отрисовки кадра просто не обрабатывался. Если оставить всё как есть, то рассинхронизация видеопотока и ваших движений будет вызывать приступы морской болезни и попросту мешать погружению в игровой мир, а значит «неправильные» кадры просто приходится выбрасывать после отрисовки и начинать работу сначала. А это - новые задержки в выводе картинки на дисплей. Положительным образом на производительности это не сказывается.

В Pascal’е учли эту проблему и внедрили динамическую балансировку нагрузки и возможность асинхронных прерываний: теперь исполнительные блоки могут либо прервать текущую задачу (сохранив результаты работы в кеш) для обработки более срочных задач, либо попросту сбросить недорисованный кадр и заняться новым, значительно снижая задержки в формировании изображения. Основной бенефициар здесь, само собой, VR и игры, но и с расчётами общего назначения данная технология может помочь: симуляция столкновения частиц получила прирост производительности в 10-20%.

Boost 3.0

Автоматический разгон видеокарты NVIDIA получили достаточно давно, ещё в 700-м поколении на базе архитектуры Kepler. В Maxwell’е разгон улучшили, но он всё равно был мягко говоря так себе: да, видеокарта работала чуть быстрее, пока это позволял теплопакет, зашитые с завода дополнительные 20-30 мегагерц по ядру и 50-100 по памяти давали прирост, но небольшой. Работало это примерно так:


Даже если по температуре GPU был запас, производительность не росла. С приходом Pascal инженеры перетряхнули и это пыльное болото. Boost 3.0 работает по трём фронтам: анализ температуры, повышение тактовой частоты и повышение напряжения на кристалле. Теперь из GPU выжимаются все соки: стандартные драйвера NVIDIA этого не делают, а вот софт вендоров позволяет в один клик построить профилирующую кривую, которая будет учитывать качество конкретно вашего экземпляра видеокарты.

Одной из первых на этом поприще стала компания EVGA, её утилита Precision XOC имеет сертифицированный NVIDIA сканер, который последовательно перебирает весь диапазон температур, частот и напряжений, добиваясь максимальной производительности на всех режимах.

Добавьте сюда новый техпроцесс, высокоскоростную память, всяческие оптимизации и снижение теплопакета чипов, и результат будет просто неприличный. C 1500 «базовых» МГц у GTX 1060 можно выжать больше 2000 МГц, если попадётся хороший экземпляр, а вендор не облажается с охлаждением.

Улучшение качества картинки и восприятия игрового мира

Производительность увеличили по всем фронтам, но есть ряд моментов, в которых качественных изменений не было несколько лет: в качестве выводимой картинки. И речь идёт не о графических эффектах, их обеспечивают разработчики игр, а о том, что именно мы видем на мониторе и то, как выглядит игра для конечного потребителя.

Быстрая вертикальная синхронизация

Самая главная фишка Pascal’я - тройной буфер для вывода кадров, обеспечивающий одновременно сверхнизкие задержки в отрисовке и обеспечение вертикальной синхронизации. В одном буфере хранится выводимое изображение, в другом - последний отрисованный кадр, в третьем - рисуется текущий. Прощайте, горизонтальные полосы и разрывы кадров, здравствуй, высокая производительность. Задержек, которые устраивает классический V-Sync здесь нет (так как никто не сдерживает производительность видеокарты и она всегда рисует с максимально возможной частотой кадра), а на монитор отправляются только полностью сформированные кадры. Я думаю, что после нового года напишу отдельный большой пост про V-Sync, G-Sync, Free-Sync и вот этот новый алгоритм быстрой синхронизации от Nvidia, слишком уж много подробностей.

Нормальные скриншоты

Нет, те скрины, что есть сейчас - это просто позор. Почти все игры используют кучу технологий, чтобы картинка в движении поражала и захватывала дух, и скриншоты стали реальным кошмаром: вместо потрясающе реалистичной картинки, складывающейся из анимации, специальных эффектов, эксплуатирующих особенности человеческого зрения, вы видите какое-то угловатое непойми что со странными цветами и абсолютно безжизненной картинкой.

Новая технология NVIDIA Ansel решает проблему со скринами. Да, её имплементация требует интеграцию специального кода от разработчиков игр, но реальных манипуляций там минимум, а вот профит громадный. Ansel умеет ставить игру на паузу, передаёт управление камерой в ваши руки, а дальше - простор для творчества. Можно просто сделать кадр без GUI и полюбившемся вам ракурсе.


Можно отрисовать имеющуюся сцену в ультра-высоком разрешении, снимать 360-градусные панорамы, сшивать их в плоскость или оставлять в трёхмерном виде для просмотра в VR-шлеме. Сделать фотографию с 16 битами на канал, сохранить её в своеобразном RAW-файле, а дальше играть с экпозицией, балансом белого и прочими настройками так, что скриншоты вновь станут привлекательными. Ждём тонны крутого контента от фанатов игр через год-другой.

Обработка звука на видеокарте

Новые библиотеки NVIDIA Gameworks добавляют множество фич, доступных разработчикам. В основном они нацелены на VR и ускорение различных вычислений, а также повышение качества картинки, но одна из фич наиболее интересна и достойна упоминания. VRWorks Audio выводит работу со звуком на принципиально новый уровень, считая звук не по банальным усреднённым формулам, зависящим от расстояния и толщины препятствия, но выполняет полную трассировку звукового сигнала, со всеми отражениями от окружения, реверберацией и поглощением звука в различных материалах. У NVIDIA есть хороший видео-пример на тему того, как работает эта технология:


Смотреть лучше в наушниках

Чисто теоретически, ничто не мешает запускать такую симуляцию на Maxwell’е, но оптимизации по части асинхронного выполнения инструкций и новая система прерываний, заложенные в Pascal’ях, позволяет проводить расчёты, не сильно влияя на кадровую частоту.

Паскаль в сумме

Изменений, на самом деле, ещё больше, и многие из них настолько глубоко в архитектуре, что по каждому из них можно написать огромную статью. Ключевые новшества - улучшенный дизайн самих чипов, оптимизация на самом низком уровне в части геометрии и асинхронной работы с полной обработкой прерываний, множество фич, заточенных на работу с высокими разрешениями и VR, и, разумеется, безумные частоты, которые не снились прошлым поколениям видеокарт. Два года назад 780 Ti едва перешагнула рубеж в 1 ГГц, сегодня 1080 в ряде случаев работает на двух: и здесь заслуга не только в уменьшенном с 28 нм до 16 или 14 нм техпроцессе: многие вещи оптимизированы на самом низком уровне, начиная с дизайна транзисторов, заканчивая их топологией и обвязкой внутри самого чипа.

Для каждого отдельного случая

Линейка видеокарт NVIDIA 10-й серии получилась по-настоящему сбалансированной, и достаточно плотно покрывает все игровые юз-кейсы, от варианта «в стратегии и диаблу играть» до «хочу топ-игры в 4k». Игровые тесты выбраны по одной простой методике: охватить как можно больший диапазон испытаний как можно меньшим набором тестов. BF1 - отличный пример хорошей оптимизации и позволяет сравнить в одинаковых условиях производительность DX11 против DX12. DOOM выбран по той же причине, только позволяет сравнить OpenGL и Vulkan. Третий «Ведьмак» здесь выступает в роли так-себе-оптимизированной-игрушки, в которой максимальные настройки графики дают прикрутить любому флагману просто в силу говнокода. Он использует классический DX11, который проверен временем и отлично отработан в драйверах и знаком игроделам. Overwatch отдувается за все «турнирные» игры, в которых хорошо оптимизирован код, по факту интересен тем, насколько высок средний FPS в не сильно тяжёлой с графической точки зрения игре, заточенной на работу в «среднем» конфиге, доступном по всему миру.

Сразу дам некоторые общие комментарии: Vulkan очень прожорлив в плане видеопамяти, для него эта характеристика - один из главных показателей, и вы увидите отражение этому тезису в бенчмарках. DX12 на карточках AMD ведёт себя значительно лучше, чем у NVIDIA, если «зелёные» в среднем показывают просадку по FPS на новых API, то «красные», наоборот, прирост.

Младший дивизион

GTX 1050

Младшая NVIDIA (без букв Ti) не так интересна, как её заряженная сестрица с буквами Ti. Её удел - игровое решение для MOBA-игр, стратегий, турнирных шутеров и прочих игр, где детализация и качество картинки мало кого интересует, а стабильная частота кадров за минимальные деньги - то, что доктор прописал.


На всех картинках отсутствует частота ядра, потому что она индивидуальна для каждого экземпляра: 1050 без доп. питания может не гнаться, а её сестра с 6-pin разъёмом легко возьмёт условных 1.9 ГГц. По части питания и длины изображены наиболее популярные варианты, всегда можно найти видеокарту с другой схемой или другим охлаждением, которое не впишется в указанные «нормативы».

DOOM 2016 (1080p, ULTRA): OpenGL - 68 FPS, Vulkan - 55 FPS;
The Witcher 3: Wild Hunt (1080p, MAX, HairWorks Off): DX11 - 38 FPS;
Battlefield 1 (1080p, ULTRA): DX11 - 49 FPS, DX12 - 40 FPS;
Overwatch (1080p, ULTRA): DX11 - 93 FPS;

В GTX 1050 установлен графический процессор GP107, доставшийся ей от старшей карты с небольшой обрезкой функциональных блоков. 2 ГБ видеопамяти не дадут разгуляться, но для киберспортивных дисциплин и игры в какие-нибудь танки она отлично подойдёт, благо цена на младшую карточку начинается с 9.5 тысяч рублей. Дополнительное питание не требуется, видеокарте достаточно 75 Ватт, поступающих с материнской платы по слоту PCI-Express. Правда, в этом ценовом сегменте есть ещё и AMD Radeon RX460, который с теми же 2 ГБ памяти стоит дешевле, а по качеству работы почти не уступает, а за примерно те же деньги можно получить RX460, но в версии на 4 ГБ. Не то что бы они ему сильно помогали, но какой-никакой запас на будущее. Выбор вендора не так важен, можно брать то, что есть в наличии и не оттягивает карман лишней тысячей рублей, которую лучше потратить на заветные буквы Ti.

GTX 1050 Ti

Около 10 тысяч за обычную 1050 - неплохо, но за заряженную (или полноценную, называйте как хотите) версию просят не многим больше (в среднем, на 1-1.5 тысячи больше), а вот её начинка куда интереснее. К слову, вся серия 1050 выпускается не из обрезки / отбраковки «больших» чипов, которые не годятся для 1060, а как полностью самостоятельный продукт. У неё меньше техпроцесс (14 нм), другой завод (кристаллы выращивает фабрика Samsung), и есть крайне интересные экземпляры с доп. питанием: тепловой пакет и базовое потребление у неё всё те же 75 Вт, а вот разгонный потенциал и возможность выйти за рамки дозволенного - совсем другие.


Если вы продолжаете играть на разрешении FullHD (1920x1080), не планируете апгрейда, а ваше остальное железо в пределах 3-5 летней давности - отличный способ поднять производительность в игрушках малой кровью. Ориентироваться стоит на решения ASUS и MSI с дополнительным 6-пиновым питанием, неплохи варианты от Gigabyte, но цена уже не так радует.

DOOM 2016 (1080p, ULTRA): OpenGL - 83 FPS, Vulkan - 78 FPS;
The Witcher 3: Wild Hunt (1080p, MAX, HairWorks Off): DX11 - 44 FPS;
Battlefield 1 (1080p, ULTRA): DX11 - 58 FPS, DX12 - 50 FPS;
Overwatch (1080p, ULTRA): DX11 - 104 FPS.

Средний дивизион

Видеокарты 60-й линейки давно считались оптимальным выбором для тех, кто не хочет тратить много денег, и вместе с тем играть на высоких настройках графики во всё, что выйдет в ближайшие пару лет. Началось это ещё со времён GTX 260, у которой было две версии (попроще, 192 потоковых процессора, и пожирнее, 216 «камней»), продолжалось в 400, 500, и 700-м поколениях, и вот NVIDIA вновь попала в практически идеальное сочетание цены и качества. Вновь доступны две версии «середнячка»: GTX 1060 на 3 и 6 ГБ видеопамяти отличаются не только объёмом доступной оперативки, но и производительностью.

GTX 1060 3GB

Королева киберспорта. Умеренная цена, потрясающая производительность для FullHD (а в киберспорте редко используют разрешение выше: там результаты важнее красивостей), разумный объём памяти (3 ГБ, на минуточку, стояло два года назад во флагмане GTX 780 Ti, который стоил неприличных денег). В плане производительности младшая 1060 легко наваливает прошлогодней GTX 970 с приснопамятным 3.5 ГБ памяти, и легко таскает за уши позапрошлогодний суперфлагман 780 Ti.


DOOM 2016 (1080p, ULTRA): OpenGL - 117 FPS, Vulkan - 87 FPS;
The Witcher 3: Wild Hunt (1080p, MAX, HairWorks Off): DX11 - 70 FPS;
Battlefield 1 (1080p, ULTRA): DX11 - 92 FPS, DX12 - 85 FPS;
Overwatch (1080p, ULTRA): DX11 - 93 FPS.

Тут безусловный фаворит по соотношению цены и выхлопа - версия от MSI. Неплохие частоты, бесшумная система охлаждения и вменяемые габариты. За неё просят-то всего ничего, в районе 15 тысяч рублей.

GTX 1060 6GB

Шестигигабайтная версия - бюджетный билет в VR и высокие разрешения. Она не будет голодать по памяти, чуть быстрее во всех тестах и уверенно будет выигрывать у GTX 980 там, где прошлогодней видеокарте станет мало 4 ГБ видеопамяти.


DOOM 2016 (1080p, ULTRA): OpenGL - 117 FPS, Vulkan - 121 FPS;
The Witcher 3: Wild Hunt (1080p, MAX, HairWorks Off): DX11 - 73 FPS;
Battlefield 1 (1080p, ULTRA): DX11 - 94 FPS, DX12 - 90 FPS;
Overwatch (1080p, ULTRA): DX11 - 166 FPS.

Хочется ещё раз отметить поведение видеокарт при использовании API Vulkan. 1050 с 2 ГБ памяти - просадка по FPS. 1050 Ti с 4 ГБ - почти вровень. 1060 3 ГБ - просадка. 1060 6 Гб - рост результатов. Тенденция, думаю, понятна: для Vulkan надо 4+ ГБ видеопамяти.

Беда в том, что обе 1060 - видеокарты не маленькие. Вроде, и теплопакет разумный, и плата там реально небольшая, но многие вендоры решили просто унифицировать систему охлаждения между 1080, 1070 и 1060. У кого-то видеокарты в высоту 2 слота, но длиной 28+ сантиметров, кто-то сделал их короче, но толще (2.5 слота). Выбирайте внимательней.

К сожалению, дополнительные 3 ГБ видеопамяти и разблокированный вычислительный блок обойдутся вам в ~ 5-6 тысяч рублей сверху к цене 3-гиговой версии. В данном случае самые интересные варианты по цене и качеству у Palit. ASUS выпустил монструозные 28-сантиметровые системы охлаждения, которые лепит и на 1080, и на 1070, и на 1060, и такая видеокарта мало куда поместится, версии без заводского разгона стоят почти столько же, а выхлоп меньше, а за сравнительно компактные MSI просят больше, чем у конкурентов при примерно том же уровне качества и заводского разгона.

Высшая лига

Играть на все деньги в 2016 году сложновато. Да, 1080 - безумно крута, но перфекционисты и железячники знают, что NVIDIA СКРЫВАЕТ существование супер-флагмана 1080 Ti, который должен быть неимоверно крут. Первые спецификации уже просачиваются в сеть, и понятно, что зелёные ждут шага от красно-белых: какой-нибудь убер-пушки, которую моментально можно будет поставить на место новым королём 3D-графики, великой и могучей GTX 1080 Ti. Ну а пока имеем что имеем.

GTX 1070

Прошлогодние приключения мегапопулярной GTX 970 и её не-совсем-честных-4-гигабайт-памяти активно разбирались и обсасывались по всему интернету. Это не помешало ей стать самой популярной игровой видеокартой в мире. В преддверии смены года на календаре она удерживает первое место в Steam Hardware & Software Survey . Оно и понятно: сочетание цены и производительности было просто идеальным. И если вы пропустили прошлогодний апгрейд, а 1060 кажется вам недостаточно крутой - GTX 1070 ваш выбор.

Разрешения 2560х1440 и 3840х2160 видеокарта переваривает на ура. Система разгона Boost 3.0 постарается подкидывать дров тогда, когда возрастает нагрузка на GPU (то есть в самых тяжёлых сценах, когда FPS проседает под натиском спецэффектов), разгоняя процессор видеокарты до умопомрачительных 2100+ Мгц. Память легко получает 15-18% эффективной частоты сверх заводских показателей. Монструозная штука.


Внимание, все тесты проведены в 2.5k (2560x1440):

DOOM 2016 (1440p, ULTRA): OpenGL - 91 FPS, Vulkan - 78 FPS;
The Witcher 3: Wild Hunt (1440p, MAX, HairWorks Off): DX11 - 73 FPS;
Battlefield 1 (1440p, ULTRA): DX11 - 91 FPS, DX12 - 83 FPS;
Overwatch (1440p, ULTRA): DX11 - 142 FPS.

Понятное дело, вытянуть ультра-настройки в 4k и никогда не проседать ниже 60 кадров в секунду не под силу ни этой карточке, ни 1080, но играть на условных «высоких» настройках, отключив или немного снизив самые прожорливые фичи можно в полном разрешении, а в плане реальной производительности видеокарта легко задаёт жару даже прошлогодней 980 Ti, которая стоила почти вдвое дороже. Самый интересный вариант у Gigabyte: они ухитрились запихать полноценную 1070 в корпус ITX-стандарта. Спасибо скромному теплопакету и энергоэффективному дизайну. Цены на карточки стартуют с 29-30 тысяч рублей за вкусные варианты.

GTX 1080

Да, флагман не имеет букв Ti. Да, он использует не самый крупный GPU, доступный NVIDIA. Да, здесь нет крутейшей памяти HBM 2, а видеокарта не выглядит, как «Звезда смерти» или, в крайне случае, имперский крейсер класса «Звёздный разрушитель». И да, это самая крутая игровая видеокарта, которая сейчас есть. Одна одна берёт и запускает DOOM в разрешении 5k3k с 60 кадрами в секунду на ультра-настройках. Ей подвластны все новые игрушки, и ближайшие год-два она не будет испытывать проблем: пока новые технологии, заложенные в Pascal станут распространены, пока игровые движки научатся эффективно загружать имеющиеся ресурсы… Да, через пару лет мы будем говорить: «Вот, посмотрите на GTX 1260, пару лет назад для игры с такими настройками вам нужен был флагман», а пока - лучшая из лучших видеокарт доступна перед новым годом по весьма разумной цене.


Внимание, все тесты проведены в 4k (3840x2160):

DOOM 2016 (2160p, ULTRA): OpenGL - 54 FPS, Vulkan - 78 FPS;
The Witcher 3: Wild Hunt (2160p, MAX, HairWorks Off): DX11 - 55 FPS;
Battlefield 1 (2160p, ULTRA): DX11 - 65 FPS, DX12 - 59 FPS;
Overwatch (2160p, ULTRA): DX11 - 93 FPS.

Останется только решить: оно вам надо, или можно сэкономить и взять 1070. Играть на «ультре» или «высоких» настройках особой разницы нет, благо современные движки отлично рисуют картинку в высоком разрешении даже на средних настройках: в конце концов, у нас с вами не мыльные консоли, которые не могут обеспечить достаточно производительности для честного 4k и стабильных 60 кадров в секунду.

Если отбросить самые недорогие варианты, то лучшее сочетание цены и качества снова будет у Palit в варианте GameRock (около 43-45 тысяч рублей): да, система охлаждения «толстая», 2.5 слота, но видеокарта короче конкурентов, а пару из 1080 ставят редко. SLI потихоньку умирает, и даже живительная инъекция высокоскоростных мостов его не особо выручает. Вариант ASUS ROG неплох, если у вас установлено множество доп. девайсов и перекрывать лишние слоты расширения вам не хочется: их видеокарта в толщину ровно 2 слота, но требует 29 сантиметров свободного пространства от задней стенки до корзины с жёсткими дисками. Интересно, осилят ли Gigabyte выпуск и этого монстра в ITX-формате?

Итоги

Новые видеокарты NVIDIA просто похоронили рынок Б/У железа. На нём выживает только GTX 970, которую можно урвать за 10-12 тысяч рублей. Потенциальным покупателям подержанных 7970 и R9 280 часто некуда её поставить и попросту не прокормить, а многие варианты со вторичного рынка попросту бесперспективны, и как дешёвый апгрейд на пару лет вперёд никуда не годятся: памяти мало, новые технологии не поддерживаются. Прелесть нового поколения видеокарт именно в том, что даже неоптимизированные под них игрушки идут значительно бодрее, чем на ветеранах GPU-чартов прошлых лет, а что будет через год, когда движки игр научатся использовать всю силу новых технологий - и представить сложно.

GTX 1050 и 1050Ti

Увы, рекомендовать покупку самого недорогого Pascal’я я не могу. RX 460 обычно продаётся на тысячу-другую дешевле, и если у вас бюджет ограничен настолько, что вы берёте видеокарту «на последние» то Radeon объективно является более интересным вложением денег. С другой стороны, 1050 немного быстрее, и если цены в вашем городе на эти две видеокарты почти не отличаются - берите её.

1050Ti, в свою очередь, отличный вариант для тех, кому сюжет и геймплей важнее наворотов и реалистичных волос в носу. У неё нет бутылочного горлышка в виде 2 ГБ видеопамяти, она не «стухнет» через год. Можете доложить денег на неё - сделайте это. Ведьмак на высоких настройках, GTA V, DOOM, BF 1 - без проблем. Да, придётся отказаться от ряда улучшений, типа сверхдлинных теней, сложной тесселяции или «дорогого» просчёта самозатенения моделей ограниченной трассировкой лучей, но в пылу битвы вы забудете про эти красивости после 10 минут игры, а стабильные 50-60 кадров в секунду дадут куда больший эффект погружения, чем нервные скачки от 25 до 40, но с настройками на «максимум».

Если у вас стоит какая-нибудь Radeon 7850, GTX 760 или младше, видеокарты с 2 ГБ видеопамяти и меньше - можете смело менять.

GTX 1060

Младшая 1060 порадует тех, кому кадровая частота от 100 FPS важнее, чем графические навороты. Вместе с тем, она позволит комфортно играть во все вышедшие игрушки в FullHD разрешении с выоскими или максимальными настройками и стабильными 60 кадрами в секунду, да и по цене сильно отличается от всего, что идёт после неё. Старшая 1060 с 6 гигабайтами памяти - бескомпромиссное решение для FullHD с запасом производительности на год-другой, знакомства с VR и вполне приемлемый кандидат для игры в высоких разрешениях на средних настройках.

Менять вашу GTX 970 на GTX 1060 смысла нет, потерпит ещё годик. А вот надоевшие 960, 770, 780, R9 280X и более древние агрегаты можно смело обновлять до 1060.

Топ-сегмент: GTX 1070 и 1080

1070 вряд ли станет такой же популярной, как GTX 970 (всё же, у большинства пользователей цикл обновления железа - раз в два года), но по соотношению цены и качества, безусловно, достойное продолжение 70-й линейки. Она просто перемалывает игры на мэйнстримовом разерешнии 1080р, легко справляется с 2560х1440, выдерживает мытарства неоптимизированных 21 к 9, и вполне способна отображать 4k, пусть и не на максимальных настройках.


Да, SLI бывает и таким.

Говорим «давай, до свиданья» всяким 780 Ti, R9 390X и прочим прошлогодним 980-м, особенно если хотим играть в высоком разрешении. И, да, это лучший вариант для любителей собрать адскую коробчонку в формате Mini-ITX и пугать гостей 4k-играми на 60-70 дюймовом телевизоре, которые запускаются на компьютере размером с кофеварку.
gtx 1050 история видеокарт Добавить метки

Мы переходим к еще одной особенности GeForce GTX 1080, которая сделала эту модель первой в своем роде - поддержке памяти GDDR5X. В этом качестве GTX 1080 какое-то время будет единственным продуктом на рынке, поскольку уже известно, что GeForce GTX 1070 будет укомплектован стандартными чипами GDDR5. В сочетании с новыми алгоритмами компрессии цвета (об этом также чуть позже) высокая ПСП (пропускная способность памяти) позволит GP104 более эффективно распоряжаться имеющимися вычислительными ресурсами, чем это могли себе позволить продукты на базе чипов GM104 и GM200.

JEDEC выпустила финальные спецификации нового стандарта лишь в январе текущего года, а единственным производителем GDDR5X на данный момент является компания Micron. На 3DNews не было отдельного материала, посвященного этой технологии, поэтому мы кратко опишем те нововведения, которые приносит GDDR5X, в данном обзоре.

Протокол GDDR5X имеет много общего с GDDR5 (хотя электрически и физически те и другие чипы различаются) - в отличие от памяти HBM, которая представляет собой принципиально другой тип, что делает делает практически неосуществимым сосуществование с интерфейсом GDDR5(X) в одном GPU. По этой причине GDDR5X называется именно так, а не, к примеру, GDDR6.

Одно из ключевых различий между GDDR5X и GDDR5 состоит в возможности передачи четырех бит данных на одном цикле сигнала (QDR - Quad Data Rate) в противоположность двум битам (DDR - Double Data Rate), как это было во всех предшествующих модификациях памяти DDR SDRAM. Физические же частоты ядер памяти и интерфейса передачи данных располагаются приблизительно в том же диапазоне, что у чипов GDDR5.

А чтобы насытить данными возросшую пропускную способность чипов, в GDDR5X применяется увеличенная с 8n до 16n предвыборка данных (prefetch). При 32-битном интерфейсе отдельного чипа это означает, что контроллер за один цикл доступа к памяти выбирает уже не 32, а 64 байта данных. В итоге результирующая пропускная способность интерфейса достигает 10-14 Гбит/с на контакт при частоте CK (command clock) 1250-1750 МГц - именно эту частоту показывают утилиты для мониторинга и разгона видеокарт - такие, как GPU-Z. По крайней мере, сейчас в стандарт заложены такие показатели, но в будущем Micron планирует достигнуть чисел вплоть до 16 Гбит/с.

Следующее преимущество GDDR5X состоит в увеличенном объеме чипа - с 8 до 16 Гбит. GeForce GTX 1080 комплектуется восемью чипами по 8 Гбит, но в дальнейшем производители графических карт смогут удвоить объем RAM по мере появления более емких микросхем. Как и GDDR5, GDDR5X допускает использование двух чипов на одном 32-битном контроллере в так называемом clamshell mode, что в результате дает возможность адресовать 32 Гбайт памяти на 256-битной шине GP104. Кроме того, стандарт GDDR5X помимо равных степени двойки описывает объемы чипа в 6 и 12 Гбит, что позволит варьировать общий объем набортной памяти видеокарт более «дробно» - например, оснастить карту с 384-битной шиной RAM чипами на суммарные 9 Гбайт.

Вопреки ожиданиям, которые сопровождали первую информацию о GDDR5X, появившуюся в открытом доступе, энергопотребление нового типа памяти сравнимо с таковым у GDDR5 либо лишь немного превышает последнее. Чтобы компенсировать возросшую мощность на высоких значениях пропускной способности, создатели стандарта снизили питающее напряжение ядер с 1,5 В, стандартных для GDDR5, до 1,35 В. Кроме того, стандарт в качестве обязательной меры вводит управление частотой чипов в зависимости от показателей температурного датчика. Пока неизвестно, насколько новая память в действительности зависима от качества теплоотвода, но не исключено, что мы теперь чаще будем видеть на видеокартах системы охлаждения, обслуживающие не только GPU, но и чипы RAM, в то время как производители карт на базе GDDR5 в массе своей пренебрегают этой возможностью.

Может возникнуть впечатление, что переход с GDDR5 на GDDR5X был несложной задачей для NVIDIA в силу родства данных технологий. К тому же, GeForce GTX 1080 комплектуется памятью с наименьшей пропускной способностью, определенной стандартом - 10 Гбит/с на контакт. Однако практическая реализация нового интерфейса сопряжена с рядом инженерных трудностей. Передача данных на столь высоких частотах потребовала тщательной разработки топологии шины данных на плате с целью минимизировать наводки и затухание сигнала в проводниках.

Результирующая пропускная способность 256-битной шины в GeForce GTX 1080 составляет 320 Гбайт/с, что несущественно меньше скорости 336 Гбайт/с, которой характеризуется GeForce GTX 980 Ti (TITAN X) с его 384-битной шиной GDDR5 при 7 Гбит/с на контакт.

Теперь PolyMorph Engine может создавать одновременно вплоть до 16 проекций (viewport’ов), размещенных произвольным образом, и сфокусированных на одной или двух точках, сдвинутых по горизонтальной оси относительно друг друга. Данные преобразования выполняются исключительно в «железе», и не вызывают снижения производительности как такового.

У этой технологии есть два вполне предсказуемых применения. Первое - это шлемы VR. За счет двух центров проекции Pascal может создавать стерео-изображение за один проход (впрочем, речь идет только о геометрии - GPU по-прежнему придется совершить вдвое больше работы, чтобы выполнить растеризацию текстур в двух кадрах).

Кроме того, SMP позволяет на уровне геометрии выполнять компенсацию искажения картинки, которую вносят линзы шлема. Для этого изображения для каждого глаза формируется четырьмя отдельными проекциями, которые затем склеиваются в плоскость с применением фильтра пост-обработки. Таким образом не только достигается геометрическая точность итогового изображения, но и снимается необходимость в обработке 1/3 пикселов, которые в противном случае все равно были бы потеряны при финальной коррекции стандартной плоской проекции под кривизну линз.

Единственная оптимизация для VR, которой обладал Maxwell, состояла в том, что периферические зоны изображения, которые компрессируются наиболее сильно для вывода через линзы, могли рендериться с пониженным разрешением, что давало экономию пропускной способности лишь на 10-15%.

Следующая область, в которой востребована функция SMP, - это мультимониторные конфигурации. Без SMP изображение на нескольких состыкованных дисплеях представляет собой плоскость с точки зрения GPU, и выглядит геометрически корректно при условии, что экраны перед зрителем выстроены в линию, но стыковка под углом уже не выглядит корректно - как если бы вы просто согнули в нескольких местах большую фотографию. Не говоря уже о том, что в любом случае зритель видит именно плоское изображение, а не окно в виртуальный мир: если повернуть голову к боковому экрану, объекты в нем останутся растянутыми, так как виртуальная камера по-прежнему смотрит в центральную точку.

С помощью SMP драйвер видеокарты может получить информацию о физическом расположении нескольких экранов с тем, чтобы проецировать изображение для каждого из них через собственный viewport, что в конечном счете функционально приближает мультимониторную сборку к полноценному «окну».

Вкратце, задача тройной буферизации в том, чтобы отделить процесс рендеринга новых кадров в конвейере GPU от сканирования изображения из кадрового буфера за счет того, что видеокарта может создавать новые кадры со сколь угодно высокой частотой, записывая их в два сменяющихся кадровых буфера. При этом содержимое самого последнего кадра с частотой, кратной частоте обновления экрана, копируется в третий буфер, откуда монитор может его забрать без разрывов картинки. Таким образом, кадр, который попадает на экран, в момент начала сканирования всегда содержит последнюю информацию, которую произвел GPU.

Тройная буферизация наиболее полезна для мониторов с частотой обновления экрана 50-60 Гц. При частотах 120-144 Гц, как мы уже писали в статье, посвященной G-Sync, включение вертикальной синхронизации уже, в принципе, увеличивает латентность несущественно, но Fast Sync уберет ее до минимума.

Если вы задаетесь вопросом, как Fast Sync соотносится с G-Sync (и ее аналогом Free Sync от AMD - но это чисто теоретический вопрос, т.к. NVIDIA поддерживает только свой вариант), то G-Sync снижает латентность в ситуации, когда GPU не успевает произвести новый кадр к моменту начала сканирования, а Fast Sync - напротив, снижает латентность, когда частота обновления кадров в конвейере рендеринга выше частоты обновления экрана. К тому же, эти технологии могут работать совместно.

GeForce GTX 1080 Founder’s Edition: конструкция

Этим пышным именем теперь называется референсная версия GeForce GTX 1080. Начиная с GeForce GTX 690 NVIDIA уделяет большое внимание тому, в какой форме их новые продукты выходят на рынок. Референсные образцы современных видеокарт под маркой GeForce далеки от своих невзрачных предшественников, оснащавшихся сравнительно неэффективными и шумными системами охлаждения.

GeForce GTX 1080 Founder’s Edition вобрал в себя лучшие черты дизайна видеокарт Kepler и Maxwell: алюминиевый кожух турбины, крыльчатка кулера, изготовленная из малошумного материала, и массивная алюминиевая рама, придающая жесткость конструкции и снимающая тепло с микросхем RAM.


В составе GTX 1080 присутствуют одновременно два компонента, которые периодически то появляются, то пропадают из референсных видеокарт NVIDIA - радиатор GPU с испарительной камерой и задняя пластина. Последняя частично демонтируется без отвертки, дабы обеспечить приток воздуха кулеру соседней видеокарты в режиме SLI.

Помимо своей представительской функции, референсный образец видеокарты нужен для того, чтобы конечные производители видеокарт могли закупать его - в данном случае у NVIDIA - и удовлетворять спрос, пока не будут готовы устройства оригинального дизайна на том же GPU. Но в этот раз NVIDIA планирует сохранять референсную версию в продаже на протяжении всего срока жизни модели и распространять, среди прочего, через свой официальный сайт. Так мотивирована на $100 более высокая цена GTX 1080 FE по сравнению с рекомендованными для всех остальных $599. В конце концов, Founder’s Edition не выглядит и не является дешевым продуктом.

В то же время, видеокарта имеет референсные частоты, ниже которых, как обычно, не опустится ни один производитель карт оригинального дизайна. Не идет речи и о каком-либо отборе GPU для GTX 1080 FE по разгонному потенциалу. Стало быть, во всей массе реализаций GeForce GTX 1080 могут оказаться и более дорогие. Но какое-то время Founder’s Edition будет преобладающей и даже единственной версией флагманского Pascal, что автоматически повышает его розничные цены на $100 сверх «рекомендации» NVIDIA.

На прошлой неделе Дженсен Хуанг (Jen-Hsun Huang) вышел на сцену и официально представил видеокарты Nvidia GeForce GTX 1070 и GTX 1080 . Помимо презентации самих ускорителей и их разгонного потенциала, демонстрировались новые технологии, примененные в архитектуре Pascal . Именно им и посвящен этот материал. Конечно, будут рассмотрены не все новшества. О некоторых новых и/или обновленных технологиях будет рассказано в обзоре GTX 1080, который появится уже в совсем скором времени.

Pascal и GPU GP 104

Первое и самое важное изменение в Pascal – уход от 28-нм техпроцесса, который использовался в потребительских видеокартах с момента выхода GeForce GTX 600-серии, с марта 2012 года. Архитектура Pascal основывается на новом 16-нм FinFET техпроцессе производства TSMC, и с переходом на более тонкую литографию приходят впечатляющие улучшения в области энергопотребления и масштабирования производительности.

Но прежде всего более тонкий техпроцесс, зачастую, позволяет нарастить частоту. В «стоке» видеокарта работает более чем при 1700 МГц. Также, судя по многочисленным обзорам, GTX 1080 способен разгоняться до 2100+ МГц, а это референс, еще и серьезно ограниченный по питанию.

Стоит отметить, что не только уменьшение техпроцесса позволило так поднять частоту. По словам Иона Альбена (Jonah Alben) – старшего вице-президента подразделения GPU Engeneering, после перехода на 16-нм FinFET техпроцесс новые графические процессоры могли работать на частоте около 1325 МГц, и команда Nvidia долгое время работала над наращиванием частот. Итогом работы стала GTX 1080, которая функционирует при 1733 МГц.

Как же удалось добиться такого уровня улучшения тактовой частоты и производительности относительно архитектуры Maxwell? Pascal сочетает в себе несколько интересных нововведений, позволяющих существенно увеличить эффективность.

Оптимизации позволили не только увеличить тактовую частоту, но и эффективность CUDA-ядер GPU GP104 относительно предшественника – GM204. Доказательство тому – прирост производительности в 70% (относительно GTX 980) и это еще на не до конца доведенных до ума драйверах.

Одно из изменений можно рассмотреть на блок-схеме, которая представлена выше. Теперь в одном кластере GPC заместь четырех SM-s (simultaneous multiprocessor) блоков их пять.

PolyMorph Engine 4.0

Существенное дополнение в самом кристалле GPU лишь одно – добавление нового модуля к PolyMorph Engine. Добавился синхронный блок мультипроекцирования. Новый блок находится в самом конце тракта обработки кадра и создает несколько схем проекции из одного потока геометрии.

Если не вдаваться в подробности, а там все очень сложно, то новый блок берет обработку геометрии на себя, не всю, но существенную часть. Таким образом нагрузка на другие блоки графического процессора уменьшается. Помимо этого, PolyMorph помогает формировать картинку под корректными углами на мультимониторных конфигурациях, но об этом позже.

Параметр Значение
Кодовое имя чипа GP104
Технология производства 16 нм FinFET
Количество транзисторов 7,2 млрд.
Площадь ядра 314 мм²
Архитектура
Аппаратная поддержка DirectX
Шина памяти
1607 (1733) МГц
Вычислительные блоки 20 потоковых мультипроцессоров, включающих 2560 скалярных ALU для расчетов с плавающей запятой в рамках стандарта IEEE 754-2008;
Блоки текстурирования 160 блоков текстурной адресации и фильтрации с поддержкой FP16- и FP32-компонент в текстурах и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
Поддержка мониторов
Спецификации референсной видеокарты GeForce GTX 1080
Параметр Значение
Частота ядра 1607 (1733) МГц
2560
Количество текстурных блоков 160
Количество блоков блендинга 64
Эффективная частота памяти 10000 (4×2500) МГц
Тип памяти GDDR5X
Шина памяти 256-бит
Объем памяти 8 ГБ
320 ГБ/с
около 9 терафлопс
103 гигапикселей/с
257 гигатекселей/с
Шина PCI Express 3.0
Разъемы
Энергопотребление до 180 Вт
Дополнительное питание Один 8-контактный разъем
2
Рекомендуемая цена $599-699 (США), 54990 руб (Россия)

Новая модель видеокарты GeForce GTX 1080 получила логичное для первого решения новой серий GeForce наименование - она отличается от своего прямого предшественника только измененной цифрой поколения. Новинка не просто заменяет в текущей линейке компании топовые решения, но и на какое-то время стала флагманом новой серии, пока не выпустили Titan X на GPU еще большей мощности. Ниже ее в иерархии располагается также уже анонсированная модель GeForce GTX 1070, основанная на урезанной версии чипа GP104, которую мы еще рассмотрим ниже.

Рекомендованные цены на новую видеоплату Nvidia составляют $599 и $699 для обычных версий и специального издания Founders Edition (см. далее), соответственно, и это довольно неплохое предложение с учетом того, что GTX 1080 опережает не только GTX 980 Ti, но и Titan X. На сегодня новинка является лучшим по производительности решением на рынке одночиповых видеокарт без каких-либо вопросов, и при этом она стоит дешевле самых производительных видеокарт предыдущего поколения. Пока конкурента от AMD у GeForce GTX 1080 по сути нет, поэтому в Nvidia смогли установить такую цену, которая их устраивает.

Рассматриваемая видеокарта основана на чипе GP104, имеющем 256-битную шину памяти, но новый тип памяти GDDR5X работает на весьма высокой эффективной частоте в 10 ГГц, что дает высокую пиковую пропускную способность в 320 ГБ/с - что почти на уровне GTX 980 Ti с 384-битной шиной. Объем установленной на видеокарту памяти с такой шиной мог быть равен 4 или 8 ГБ, но ставить меньший объем для столь мощного решения в современных условиях было бы глупо, поэтому GTX 1080 совершенно логично получила 8 ГБ памяти, и этого объема хватит для запуска любых 3D-приложений с любыми настройками качества на несколько лет вперед.

Печатная плата GeForce GTX 1080 по понятным причинам прилично отличается от предыдущих PCB компании. Значение типичного энергопотребления для новинки составляет 180 Вт - это несколько выше, чем у GTX 980, но заметно ниже, чем у менее производительных Titan X и GTX 980 Ti. Референсная плата имеет привычный набор разъемов для присоединения устройств вывода изображения: один Dual-Link DVI, один HDMI и три DisplayPort.

Референсный дизайн Founders Edition

Еще при анонсе GeForce GTX 1080 в начале мая было объявлено специальное издание видеокарты под названием Founders Edition, имеющее более высокую цену по сравнению с обычными видеокартами партнеров компании. По сути, это издание является референсным дизайном карты и системы охлаждения, и производится оно самой компанией Nvidia. Можно по-разному относиться к таким вариантам видеокарт, но разработанный инженерами компании референсный дизайн и произведенная с применением качественных компонентов конструкция имеет своих поклонников.

А вот будут ли они отдавать на несколько тысяч рублей больше за видеокарту от самой Nvidia - это вопрос, ответ на который может дать только практика. В любом случае, поначалу в продаже появятся именно референсные видеокарты от Nvidia по повышенной цене, и выбирать особенно не из чего - так бывает при каждом анонсе, но референсная GeForce GTX 1080 отличается тем, что в таком виде ее планируется продавать на всем протяжении срока ее жизни, вплоть до выхода решений следующего поколения.

В Nvidia считают, что это издание имеет свои достоинства даже перед лучшими произведениями партнеров. Например, двухслотовый дизайн кулера позволяет с легкостью собирать на основе этой мощной видеокарты как игровые ПК сравнительно небольшого форм-фактора, так и многочиповые видеосистемы (даже несмотря на нерекомендуемый компанией режим работы в трех- и четырехчиповом режиме). GeForce GTX 1080 Founders Edition имеет некоторые преимущества в виде эффективного кулера с использованием испарительной камеры и вентилятора, выбрасывающего нагретый воздух из корпуса - это первое такое решение Nvidia, потребляющее менее 250 Вт энергии.

По сравнению с предыдущими референсными дизайнами продуктов компании, схема питания была модернизирована с четырехфазной до пятифазной. В Nvidia говорят и об улучшенных компонентах, на которых основана новинка, также были снижены электрические помехи, позволяющие улучшить стабильность напряжения и разгонный потенциал. В результате всех улучшений энергоэффективность референсной платы увеличилась на 6% по сравнению с GeForce GTX 980.

А для того, чтобы отличаться от «обычных» моделей GeForce GTX 1080 и внешне, для Founders Edition разработали необычный «рубленый» дизайн корпуса. Который, правда, наверняка привел также и к усложнению формы испарительной камеры и радиатора (см. фото), что возможно и послужило одним из поводов для доплаты в $100 за такое специальное издание. Повторимся, что в начале продаж особого выбора у покупателей не будет, но в дальнейшем можно будет выбрать как решение с собственным дизайном от одного из партнеров компании, так и в исполнении самой Nvidia.

Новое поколение графической архитектуры Pascal

Видеокарта GeForce GTX 1080 стала первым решением компании на основе чипа GP104, относящегося к новому поколению графической архитектуры Nvidia - Pascal. Хотя новая архитектура взяла в основу решения, отработанные еще в Maxwell, в ней есть и важные функциональные отличия, о которых мы напишем далее. Главным же изменением с глобальной точки зрения стал новый технологический процесс, по которому выполнен новый графический процессор.

Применение техпроцесса 16 нм FinFET при производстве графических процессоров GP104 на фабриках тайваньской компании TSMC дало возможность значительно повысить сложность чипа при сохранении сравнительно невысокой площади и себестоимости. Сравните количество транзисторов и площадь чипов GP104 и GM204 - они близки по площади (кристалл новинки даже чуть меньше физически), но чип архитектуры Pascal имеет заметно большее количество транзисторов, а соответственно и исполнительных блоков, в том числе обеспечивающих новую функциональность.

С архитектурной точки зрения, первый игровой Pascal весьма похож на аналогичные решения архитектуры Maxwell, хотя есть и некоторые отличия. Как и Maxwell, процессоры архитектуры Pascal будут иметь разную конфигурацию вычислительных кластеров Graphics Processing Cluster (GPC), потоковых мультипроцессоров Streaming Multiprocessor (SM) и контроллеров памяти. Мультипроцессор SM - это высокопараллельный мультипроцессор, который планирует и запускает варпы (warp, группы из 32 потоков команд) на CUDA-ядрах и других исполнительных блоках в мультипроцессоре. Подробные данные об устройстве всех этих блоков вы можете найти в наших обзорах предыдущих решений компании Nvidia.

Каждый из мультипроцессоров SM спарен с движком PolyMorph Engine, который обрабатывает текстурные выборки, тесселяцию, трансформацию, установку вершинных атрибутов и коррекцию перспективы. В отличие от предыдущих решений компании, PolyMorph Engine в чипе GP104 также содержит новый блок мультипроецирования Simultaneous Multi-Projection, о котором мы еще поговорим ниже. Комбинация мультипроцессора SM с одним движком Polymorph Engine традиционно для Nvidia называется TPC - Texture Processor Cluster.

Всего чип GP104 в составе GeForce GTX 1080 содержит четыре кластера GPC и 20 мультипроцессоров SM, а также восемь контроллеров памяти, объединенных с блоками ROP в количестве 64 штук. Каждый кластер GPC имеет выделенный движок растеризации и включает в себя пять мультипроцессоров SM. Каждый мультипроцессор, в свою очередь, состоит из 128 CUDA-ядер, 256 КБ регистрового файла, 96 КБ разделяемой памяти, 48 КБ кэш-памяти первого уровня и восьми текстурных блоков TMU. То есть, всего в GP104 содержится 2560 CUDA-ядер и 160 блоков TMU.

Также графический процессор, на котором основана видеокарта GeForce GTX 1080, содержит восемь 32-битных (в отличие от 64-битных, применяющихся ранее) контроллеров памяти, что дает нам итоговую 256-битную шину памяти. К каждому из контроллеров памяти привязано по восемь блоков ROP и 256 КБ кэш-памяти второго уровня. То есть, всего чип GP104 содержит 64 блоков ROP и 2048 КБ кэш-памяти второго уровня.

Благодаря архитектурным оптимизациям и новому техпроцессу, первый игровой Pascal стал самым энергоэффективным графическим процессором за все время. Причем, вклад в это есть как со стороны одного из самых совершенных технологических процессов 16 нм FinFET, так и от проведенных оптимизаций архитектуры в Pascal, по сравнению с Maxwell. В Nvidia смогли повысить тактовую частоту даже больше, чем они рассчитывали при переходе на новый техпроцесс. GP104 работает на более высокой частоте, чем работал бы гипотетический GM204, выпущенный при помощи техпроцесса 16 нм. Для этого инженерам Nvidia пришлось тщательно проверить и оптимизировать все узкие места предыдущих решений, не дающие разогнаться выше определенного порога. В результате, новая модель GeForce GTX 1080 работает более чем на 40% повышенной частоте, по сравнению с GeForce GTX 980. Но это еще не все изменения, связанные с частотой работы GPU.

Технология GPU Boost 3.0

Как мы хорошо знаем по предыдущим видеокартам компании Nvidia, в своих графических процессорах они применяют аппаратную технологию GPU Boost, предназначенную для увеличения рабочей тактовой частоты GPU в режимах, когда он еще не достиг пределов по энергопотреблению и тепловыделению. За прошедшие годы этот алгоритм претерпел множество изменений, и в видеочипе архитектуры Pascal применяется уже третье поколение этой технологии - GPU Boost 3.0, основным нововведением которого стала более тонкая установка турбо-частот, в зависимости от напряжения.

Если вы вспомните принцип работы предыдущих версий технологии, то разница между базовой частотой (гарантированное минимальное значение частоты, ниже которого GPU не опускается, как минимум в играх) и турбо-частотой была фиксированной. То есть, турбо-частота всегда была на определенное количество мегагерц выше базовой. В GPU Boost 3.0 появилась возможность установки смещений турбо-частот для каждого напряжения по отдельности. Проще всего это понять по иллюстрации:

Слева указан GPU Boost второй версии, справа - третьей, появившейся в Pascal. Фиксированная разница между базовой и турбо-частотами не давала раскрыть возможности GPU полностью, в некоторых случаях графические процессоры предыдущих поколений могли работать быстрее на установленном напряжении, но фиксированное превышение турбо-частоты не давало сделать этого. В GPU Boost 3.0 такая возможность появилась, и турбо-частота может устанавливаться для каждого из индивидуальных значений напряжения, полностью выжимая все соки из GPU.

Для того, чтобы управлять разгоном и установить кривую турбо-частоты, требуются удобные утилиты. Сама Nvidia этим не занимается, но помогает своим партнерам создать подобные утилиты для облегчений разгона (в разумных пределах, конечно). К примеру, новые функциональные возможности GPU Boost 3.0 уже раскрыты в EVGA Precision XOC, включающей специальные сканер разгона, автоматически находящий и устанавливающий нелинейную разницу между базовой частотой и турбо-частотой для разных значений напряжения при помощи запуска встроенного теста производительности и стабильности. В результате у пользователя получается кривая турбо-частоты, идеально соответствующая возможностям конкретного чипа. Которую, к тому же, можно как угодно модифицировать в ручном режиме.

Как вы видите на скриншоте утилиты, в дополнение к информации о GPU и системе, есть также настройки для разгона: Power Target (определяет типичное энергопотребление при разгоне, в процентах от стандартного), GPU Temp Target (максимально допустимая температура ядра), GPU Clock Offset (превышение над базовой частотой для всех значений напряжения), Memory Offset (превышение частоты видеопамяти над значением по умолчанию), Overvoltage (дополнительная возможность для повышения напряжения).

Утилита Precision XOC включает три режима разгона: основной Basic, линейный Linear и ручной Manual. В основном режиме можно установить единое значение превышения частоты (фиксированную турбо-частоту) над базовой, как это было для предыдущих GPU. Линейный режим позволяет установить линейное изменение частоты от минимального до максимального значений напряжения для GPU. Ну и в ручном режиме можно выставить уникальные значения частоты GPU для каждой точки напряжения на графике.

В составе утилиты есть также специальный сканер для автоматического разгона. Можно или установить собственные уровни частоты или позволить утилите Precision XOC просканировать GPU на всех напряжениях и найти максимально стабильные частоты для каждой точки на кривой напряжения и частоты полностью автоматически. В процессе сканирования Precision XOC постепенно добавляет частоту GPU и проверяет его работу на стабильность или появление артефактов, строя идеальную кривую частот и напряжений, которая будет уникальна для каждого конкретного чипа.

Этот сканер можно настроить под свои собственные требования, задав временной отрезок тестирования каждого значения напряжения, минимум и максимум проверяемой частоты, и ее шаг. Понятно, что для достижения стабильных результатов лучше будет выставить небольшой шаг и приличную продолжительность тестирования. В процессе тестирования может наблюдаться нестабильная работа видеодрайвера и системы, но если сканер не зависнет, то восстановит работу и продолжит нахождение оптимальных частот.

Новый тип видеопамяти GDDR5X и улучшенное сжатие

Итак, мощность графического процессора заметно выросла, а шина памяти осталась всего лишь 256-битной - не будет ли пропускная способность памяти ограничивать общую производительность и что с этим можно делать? Похоже, что перспективная HBM-память второго поколения все еще слишком дорога в производстве, поэтому пришлось искать другие варианты. Еще с момента появления GDDR5-памяти в 2009 году, инженеры компании Nvidia исследовали возможности использования новых типов памяти. В результате, разработки пришли к внедрению нового стандарта памяти GDDR5X - самого сложного и продвинутого на сегодняшний момент стандарта, дающего скорость передачи 10 Gbps.

Nvidia приводит интересный пример того, насколько это быстро. Между переданными битами проходит всего 100 пикосекунд - за такое время луч света пройдет расстояние всего лишь в один дюйм (около 2,5 см). И при использовании GDDR5X-памяти цепи приема-передачи данных должны менее чем за половину этого времени выбрать значение переданного бита, до того, как будет прислан следующий - это просто чтобы вы понимали, до чего дошли современные технологии.

Чтобы добиться такой скорости работы, потребовалась разработка новой архитектуры системы ввода-вывода данных, потребовавшей нескольких лет совместной разработки с производителями чипов памяти. Кроме возросшей скорости передачи данных, выросла и энергоэффективность - чипы памяти стандарта GDDR5X используют пониженное напряжение в 1,35 В и произведены по новым технологиям, что дает то же потребление энергии при на 43% большей частоте.

Инженерам компании пришлось перерабатывать линии передачи данных между ядром GPU и чипами памяти, больше внимания обращать на предотвращение потери и деградацию сигнала на всем пути от памяти к GPU и обратно. Так, на приведенной выше иллюстрации показан захваченный сигнал в виде большого симметричного «глаза», что говорит о хорошей оптимизации всей цепи и относительной легкости захвата данных из сигнала. Причем, описанные выше изменения привели не только к возможности применения GDDR5X на 10 ГГц, но также и должны помочь получить высокую ПСП на будущих продуктах, использующих более привычную GDDR5-память.

Хорошо, более чем 40% прироста в ПСП от применения новой памяти мы получили. Но не маловато ли этого? Для дальнейшего увеличения эффективности использования полосы пропускания памяти в Nvidia продолжили улучшать внедренное еще в предыдущих архитектурах продвинутое сжатие данных. Подсистема памяти в GeForce GTX 1080 использует улучшенные и несколько новых техник по сжатию данных без потерь, предназначенные для снижения требований к ПСП - уже четвертое поколение внутричипового сжатия.

Алгоритмы сжатия данных в памяти приносят сразу несколько положительных моментов. Сжатие снижает количество записываемых данных в память, то же самое касается данных, пересылаемых из видеопамяти в кэш-память второго уровня, что улучшает эффективность использования L2-кэша, так как сжатый тайл (блок из нескольких пикселей фреймбуфера) имеет меньший размер, чем несжатый. Также уменьшается количество данных, пересылаемых между разными точками, вроде текстурного модуля TMU и фреймбуфера.

Конвейер сжатия данных в GPU использует несколько алгоритмов, которые определяются в зависимости от «сжимаемости» данных - для них подбирается лучший из имеющихся алгоритмов. Одним из самых важных является алгоритм дельта-кодирования данных о цвете пикселей (delta color compression). Этот способ сжатия кодирует данные в виде разницы между последовательными значениями вместо самих данных. GPU вычисляет разницу в цветовых значениях между пикселями в блоке (тайле) и сохраняет блок как некий усредненный цвет для всего блока плюс данные о разнице в значениях для каждого пикселя. Для графических данных такой метод обычно хорошо подходит, так как цвет в пределах небольших тайлов для всех пикселей зачастую отличается не слишком сильно.

Графический процессор GP104 в составе GeForce GTX 1080 поддерживает большее количество алгоритмов сжатия по сравнению с предыдущими чипами архитектуры Maxwell. Так, алгоритм сжатия 2:1 стал более эффективным, а в дополнение к нему появились два новых алгоритма: режим сжатия 4:1, подходящий для случаев, когда разница в значении цвета пикселей блока очень невелика, и режим 8:1, сочетающий алгоритм постоянного сжатия с соотношением 4:1 блоков размером 2×2 пикселя с двукратным сжатием дельты между блоками. Когда сжатие совсем невозможно, оно не используется.

Впрочем, в реальности последнее бывает весьма нечасто. В этом можно убедиться по примерам скриншотов из игры Project CARS, которые привела Nvidia чтобы проиллюстрировать повышенную степень сжатия в Pascal. На иллюстрациях пурпурным закрашены те тайлы кадрового буфера, которые смог сжать графический процессор, а не поддающиеся сжатию без потерь остались с оригинальным цветом (сверху - Maxwell, снизу - Pascal).

Как видите, новые алгоритмы сжатия в GP104 действительно работают гораздо лучше, чем в Maxwell. Хотя старая архитектура также смогла сжать большинство тайлов в сцене, большое количество травы и деревьев по краям, а также детали машины не подвергаются устаревшим алгоритмам сжатия. Но при включении в работу новых техник в Pascal, несжатым осталось очень небольшое количество участков изображения - улучшенная эффективность налицо.

В результате улучшений в сжатии данных, GeForce GTX 1080 способен значительно снизить количество пересылаемых данных в каждом кадре. Если говорить о цифрах, то улучшенное сжатие экономит дополнительно около 20% эффективной полосы пропускания памяти. В дополнение к более чем на 40% повышенной ПСП у GeForce GTX 1080 относительно GTX 980 от использования GDDR5X-памяти, все вместе это дает около 70% прироста в эффективном ПСП, по сравнению с моделью прошлого поколения.

Поддержка асинхронных вычислений Async Compute

Большинство современных игр используют сложные вычисления в дополнение к графическим. К примеру, вычисления при расчете поведения физических тел вполне можно проводить не до или после графических вычислений, а одновременно с ними, так как они не связаны друг с другом и не зависят друг от друга в пределах одного кадра. Также в пример можно привести постобработку уже отрендеренных кадров и обработку аудиоданных, которые тоже можно исполнять параллельно с рендерингом.

Еще одним ярким примером использования функциональности служит техника асинхронного искажения времени (Asynchronous Time Warp), используемая в системах виртуальной реальности для того, чтобы изменить выдаваемый кадр в соответствии с движением головы игрока прямо перед самым его выводом, прерывая рендеринг следующего. Подобная асинхронная загрузка мощностей GPU позволяет повысить эффективность использования его исполнительных блоков.

Подобные нагрузки создают два новых сценария использования GPU. Первый из них включает накладывающиеся загрузки, так как многие типы задач не используют возможности графических процессоров полностью, и часть ресурсов простаивает. В таких случаях можно просто запустить на одном GPU две разные задачи, разделяющие его исполнительные блоки для получения более эффективного использования - например, PhysX-эффекты, выполняющиеся совместно с 3D-рендерингом кадра.

Для улучшения работы этого сценария, в архитектуре Pascal появилась динамическая балансировка загрузки (dynamic load balancing). В предыдущей архитектуре Maxwell перекрывающиеся нагрузки были выполнены в виде статического распределения ресурсов GPU на графические и вычислительные. Такой подход эффективен при условии, что баланс между двумя нагрузками примерно соответствует разделению ресурсов и задачи выполняются одинаково по времени. Если же неграфические вычисления выполняются дольше графических, и обе ожидают завершения общей работы, то часть GPU оставшееся время будет простаивать, что вызовет снижение общей производительности и сведет всю выгоду на нет. Аппаратная динамическая балансировка загрузки же позволяет использовать освободившиеся ресурсы GPU сразу же как они станут доступными - для понимания приведем иллюстрацию.

Существуют и задачи, критичные к времени исполнения, и это - второй сценарий асинхронных вычислений. Например, исполнение алгоритма асинхронного искажения времени в VR должно завершиться до развертки (scan out) или кадр будет отброшен. В таком случае, GPU должен поддерживать очень быстрое прерывание задачи и переключение на другую, чтобы снять менее критическую задачу с исполнения на GPU, освободив его ресурсы для критически важных задач - это называется preemption.

Одна команда рендеринга от игрового движка может содержать сотни вызовов функций отрисовки, каждый вызов draw call, в свою очередь, содержит сотни обрабатываемых треугольников, каждый из которых содержит сотни пикселей, которые нужно рассчитать и отрисовать. В традиционном подходе на GPU используется прерывание задач только на высоком уровне, и графический конвейер вынужден ждать завершения всей этой работы перед переключением задачи, что в результате приводит к очень большим задержкам.

Чтобы исправить это, в архитектуре Pascal впервые была введена возможность прерывания задачи на пиксельном уровне - Pixel Level Preemption. Исполнительные блоки графического процессора Pascal могут постоянно отслеживать прогресс выполнения задач рендеринга, и когда прерывание будет запрошено, они могут остановить исполнение, сохранив контекст для дальнейшего завершения, быстро переключившись на другую задачу.

Прерывание и переключение на уровне потока для вычислительных операций работает аналогично прерыванию на пиксельном уровне для графических вычислений. Вычислительные нагрузки состоят из нескольких сеток, каждая из которых содержит множество потоков. Когда получен запрос на прерывание, выполняемые на мультипроцессоре потоки заканчивают исполнение. Другие блоки сохраняют собственное состояние чтобы продолжить с того же момента в дальнейшем, и GPU переключается на другую задачу. Весь процесс переключения задач занимает менее чем 100 микросекунд после того, как выполняемые потоки завершают работу.

Для игровых нагрузок, сочетание прерываний на пиксельном уровне для графических, и прерывания на уровне потоков для вычислительных задач дает графическим процессорам архитектуры Pascal возможность быстрого переключения между задачами с минимальными потерями времени. А для вычислительных задач на CUDA, также возможно прерывание с минимальной гранулярностью - на уровне инструкций. В таком режиме все потоки останавливают выполнение сразу, немедленно переключаясь на другую задачу. Этот подход требует сохранения большего количества информации о состоянии всех регистров каждого потока, но в некоторых случаях неграфических вычислений он вполне оправдан.

Использование быстрого прерывания и переключения задач в графических и вычислительных задачах было добавлено в архитектуру Pascal для того, чтобы графические и неграфические задачи могли прерываться на уровне отдельных инструкций, а не целых потоков, как было в Maxwell и Kepler. Эти технологии способны улучшить асинхронное исполнение различных нагрузок на графический процессор и улучшить отзывчивость при одновременном выполнении нескольких задач. На мероприятии Nvidia показывали демонстрацию работы асинхронных вычислений на примере вычисления физических эффектов. Если без асинхронных вычислений производительность была на уровне 77-79 FPS, то с включением этих возможностей частота кадров выросла до 93-94 FPS.

Мы уже приводили в пример одну из возможностей применения этой функциональности в играх в виде асинхронного искажения времени в VR. На иллюстрации показана работа этой технологии с традиционным прерыванием (preemption) и с быстрым. В первом случае, процесс асинхронного искажения времени стараются выполнить как можно позднее, но до начала обновления изображения на дисплее. Но работа алгоритма должна быть отдана на исполнение в GPU несколькими миллисекундами ранее, так как без быстрого прерывания нет возможности точно выполнить работу в нужный момент, и GPU простаивает некоторое время.

В случае точного прерывания на уровне пикселей и потоков (на иллюстрации справа), такая возможность дает большую точность в определении момента прерывания, и асинхронное искажение времени может быть запущено значительно позже с уверенностью в завершении работы до начала обновления информации на дисплее. А простаивающий некоторое время в первом случае GPU можно загрузить какой-то дополнительной графической работой.

Технология мультипроецирования Simultaneous Multi-Projection

В новом графическом процессоре GP104 появилась поддержка новой технологии мультипроецирования (Simultaneous Multi-Projection - SMP), позволяющей GPU отрисовывать данные на современных системах вывода изображения более эффективно. SMP позволяет видеочипу одновременно выводить данные в несколько проекций, для чего потребовалось ввести новый аппаратный блок в GPU в состав движка PolyMorph в конце геометрического конвейера перед блоком растеризации. Этот блок отвечает за работу с несколькими проекциями для единого потока геометрии.

Движок мультипроецирования обрабатывает геометрические данные одновременно для 16 заранее сконфигурированных проекций, объединяющих точку проекции (камеры), эти проекции можно независимо вращать или наклонять. Так как каждый геометрический примитив может появиться одновременно в нескольких проекциях, движок SMP обеспечивает такую функциональность, позволяя приложению дать инструкции видеочипу для репликации геометрии до 32 раз (16 проекций при двух центрах проецирования) без дополнительной обработки.

Весь процесс обработки аппаратно ускорен, и так как мультипроецирование работает после геометрического движка, ему не нужно повторять несколько раз все стадии обработки геометрии. Сэкономленные ресурсы важны в условиях ограничения скорости рендеринга производительностью обработки геометрии, вроде тесселяции, когда одна и та же геометрическая работа выполняется несколько раз для каждой проекции. Соответственно, в пиковом случае, мультипроецирование может сократить необходимость в обработке геометрии до 32 раз.

Но зачем все это нужно? Есть несколько хороших примеров, где технология мультипроецирования может быть полезной. Например, многомониторная система из трех дисплеев, установленных под углом друг к другу достаточно близко к пользователю (surround-конфигурация). В типичной ситуации сцена отрисовывается в одной проекции, что приводит к геометрическим искажениям и неверной отрисовке геометрии. Правильным путем является три разных проекции для каждого из мониторов, в соответствии с углом, под которым они расположены.

При помощи видеокарты на чипе с архитектурой Pascal это можно сделать за один проход геометрии, указав три разные проекции, каждая для своего монитора. И пользователь, таким образом, сможет менять угол, под которым расположены мониторы друг к другу не только физически, но и виртуально - поворачивая проекции для боковых мониторов, чтобы получить корректную перспективу в 3D-сцене при заметно более широком угле обзора (FOV). Правда, тут есть ограничение - для такой поддержки приложение должно уметь отрисовывать сцену с широким FOV и использовать специальные вызовы SMP API для его установки. То есть, в каждой игре так не сделаешь, нужна специальная поддержка.

В любом случае, времена одной проекции на единственный плоский монитор прошли, теперь много многомониторных конфигураций и изогнутых дисплеев, на которых также можно применять эту технологию. Не говоря уже о системах виртуальной реальности, которые используют специальные линзы между экранами и глазами пользователя, что требует новых техник проецирования 3D-изображения в 2D-картинку. Многие из таких технологий и техник еще в начале разработки, главное, что старые GPU не могут эффективно использовать более чем одну плоскую проекцию. Они требуют при этом несколько проходов рендеринга, многократную обработку одной и той же геометрии и т. д.

В чипах архитектуры Maxwell была ограниченная поддержка Multi-Resolution, помогающая увеличить эффективность, но SMP в Pascal может намного больше. Maxwell мог поворачивать проекцию на 90 градусов для кубических карт (cube mapping) или разных разрешений для проекции, но это было полезно лишь в ограниченном круге приложений, вроде VXGI.

Из других возможностей применения SMP отметим отрисовку с разным разрешением и однопроходный стереорендеринг. К примеру, отрисовка с разным разрешением (Multi-Res Shading) может использоваться в играх для оптимизации производительности. При ее применении, используется более высокое разрешение в центре кадра, а на периферии оно снижается для получения более высокой скорости рендеринга.

Однопроходный стереорендеринг используется в VR, он уже добавлен в пакет VRWorks и использует возможность мультипроецирования для снижения объема геометрической работы, требующегося при VR-рендеринге. В случае использования этой возможности, графический процессор GeForce GTX 1080 обрабатывает геометрию сцены лишь один раз, генерируя сразу две проекции для каждого глаза, что вдвое снижает геометрическую нагрузку на GPU, а также снижает потери от работы драйвера и ОС.

Еще более продвинутым методом повышения эффективности VR-рендеринга является Lens Matched Shading, когда при помощи нескольких проекций имитируются геометрические искажения, требуемые при VR-рендеринге. Этот метод использует мультипроецирование для рендеринга 3D-сцены на поверхность, которая приближенно похожа на скорректированную линзой при отрисовке для вывода на VR-шлем, что позволяет не отрисовывать много лишних пикселей на периферии, которые будут отброшены. Проще всего понять суть метода по иллюстрации - перед каждым глазом используется по четыре слегка развернутых проекции (на Pascal можно использовать и по 16 проекций на каждый глаз - для более точной имитации изогнутой линзы) вместо одной:

Такой подход способен прилично экономить в производительности. Так, типичное изображение для Oculus Rift на каждый глаз составляет 1,1 мегапиксель. Но из-за разницы в проекциях, чтобы его отрендерить, используется исходное изображение в 2,1 мегапикселя - на 86% больше необходимого! Применение мультипроецирования, внедренного в архитектуру Pascal, позволяет снизить разрешение отрисовываемого изображения до 1,4 мегапикселей, получив полуторакратную экономию в скорости пиксельной обработки, а также экономит пропускную способность памяти.

А вместе с двукратной экономией по скорости обработки геометрии из-за однопроходного стереорендеринга, графический процессор видеокарты GeForce GTX 1080 способен обеспечить значительное увеличение производительности VR-рендеринга, весьма требовательного и к скорости обработки геометрии, и тем более - к пиксельной обработке.

Улучшения в блоках вывода и обработки видеоданных

Помимо производительности и новой функциональности, связанной с 3D-рендерингом, необходимо поддерживать на хорошем уровне и возможности вывода изображения, а также декодирования и кодирования видеоданных. И первый графический процессор архитектуры Pascal не разочаровал - он поддерживает все современные стандарты в этом смысле, включая аппаратное декодирование формата HEVC, необходимое для просмотра 4K-видеороликов на ПК. Также будущие обладатели видеокарт GeForce GTX 1080 смогут скоро насладиться проигрыванием потокового 4K-видео с Netflix и других провайдеров на своих системах.

С точки зрения вывода изображения на дисплеи, GeForce GTX 1080 имеет поддержку HDMI 2.0b с HDCP 2.2, а также DisplayPort. Пока что сертифицирована версия DP 1.2, но GPU является готовым к сертификации для более новых версий стандарта: DP 1.3 Ready и DP 1.4 Ready. Последнее позволяет выводить изображение на 4K-экраны при частоте обновления 120 Гц, а на 5K- и 8K-дисплеи - при 60 Гц при использовании пары кабелей DisplayPort 1.3. Если для GTX 980 максимальное поддерживаемое разрешение было 5120×3200 при 60 Гц, то для новой модели GTX 1080 оно выросло до 7680×4320 при тех же 60 Гц. Референсная GeForce GTX 1080 имеет три выхода DisplayPort, один HDMI 2.0b и один цифровой Dual-Link DVI.

Новая модель видеокарты Nvidia получила и улучшенный блок декодирования и кодирования видеоданных. Так, чип GP104 соответствует высоким стандартам PlayReady 3.0 (SL3000) для воспроизведения потокового видео, позволяющим быть уверенным в том, что проигрывание высококачественного контента от известных поставщиков, вроде Netflix, будет максимально качественным и энергоэффективным. Подробности о поддержке различных форматов видео при кодировании и декодировании приведены в таблице, новинка явно отличается от предыдущих решений в лучшую сторону:

Но еще более интересной новинкой можно назвать поддержку так называемых дисплеев повышенного динамического диапазона (High Dynamic Range - HDR), которые вот-вот должны получить широкое распространение на рынке. Телевизоры продаются уже в 2016 году (и всего за год планируется продать четыре миллиона HDR-телевизоров), а мониторы - в следующем. HDR - это самый большой прорыв в дисплейных технологиях за долгие годы, этот формат обеспечивает вдвое больше цветовых оттенков (75% видимого спектра, в отличие от 33% для RGB), более яркие дисплеи (1000 нит) с большей контрастностью (10000:1) и насыщенными цветами.

Появление возможности воспроизведения контента с большей разницей в яркости и более богатыми и насыщенными цветами приблизит изображение на экране к реальности, черный цвет станет глубже, яркий же свет будет слепить, как в настоящем мире. Соответственно, пользователи увидят больше деталей в ярких и темных участках изображений, по сравнению со стандартными мониторами и телевизорами.

Для поддержки HDR-дисплеев, GeForce GTX 1080 имеет все необходимое - возможность вывода 12-битного цвета, поддержку стандартов BT.2020 и SMPTE 2084, а также вывод изображения в соответствии со стандартом HDMI 2.0b 10/12-бит для HDR в 4K-разрешении, что было и у Maxwell. В дополнение к этому, в Pascal появилась поддержка декодирования HEVC-формата в 4K-разрешении при 60 Гц и 10- или 12-битном цвете, который используется для HDR-видео, а также кодирование этого же формата с такими же параметрами, но только в 10-бит для записи HDR-видео или потоковой передачи. Также новинка готова к стандартизации DisplayPort 1.4 для передачи HDR-данных по этому разъему.

К слову, кодирование HDR-видео может понадобиться в будущем для того, чтобы передавать такие данные с домашнего ПК на игровую консоль SHIELD, которая умеет воспроизводить 10-битный HEVC. То есть, пользователь сможет транслировать игру с ПК в HDR-формате. Стоп, а где взять игры с такой поддержкой? Компания Nvidia постоянно работает с игровыми разработчиками для внедрения такой поддержки, передавая им все необходимое (поддержку в драйвере, примеры кода и т. п.) для корректного рендеринга HDR-изображения, совместимого с существующими дисплеями.

На момент выпуска видеокарты, GeForce GTX 1080, поддержкой HDR-вывода обладают такие игры, как Obduction, The Witness, Lawbreakers, Rise of the Tomb Raider, Paragon, The Talos Principle и Shadow Warrior 2. Но уже в ближайшем будущем ожидается пополнение этого списка.

Изменения в многочиповом рендеринге SLI

Произошли и некоторые изменения, связанные с фирменной технологией многочипового рендеринга SLI, хотя этого никто не ожидал. SLI используется энтузиастами ПК-игр для того, чтобы повысить производительность или до экстремальных значений, установив мощнейшие одночиповые видеокарты в тандем, или для того, чтобы получить очень высокую частоту кадров, ограничившись парой решений среднего уровня, которые иногда обходятся дешевле, чем одно топовое (решение спорное, но так делают). При наличии 4K-мониторов у игроков почти не остается иных вариантов, кроме установки пары видеокарт, так как даже топовые модели зачастую не могут обеспечить комфортную игру при максимальных настройках в таких условиях.

Одним из важных компонентов Nvidia SLI являются мостики, соединяющие видеокарты в общую видеоподсистему и служащие для организации цифрового канала по передачи данных между ними. На видеокартах GeForce традиционно устанавливались двойные разъемы SLI, которые служили для соединения между двумя или четырьмя видеокартами в 3-Way и 4-Way SLI конфигурациях. Каждая из видеокарт должна была соединяться с каждой, так как все GPU отправляли отрендеренные ими кадры в главный графический процессор, поэтому и были необходимы по два интерфейса на каждой из плат.

Начиная с модели GeForce GTX 1080, для всех видеокарт Nvidia, основанных на архитектуре Pascal, два интерфейса SLI связаны вместе для увеличения производительности передачи данных между видеокартами, и такой новый двухканальный режим SLI позволяет повысить производительность и комфорт при выводе визуальной информации на дисплеи очень высокого разрешения или многомониторные системы.

Для такого режима понадобились и новые мостики, получившие название SLI HB. Они объединяют пару видеокарт GeForce GTX 1080 сразу по двум каналам SLI, хотя новые видеокарты также совместимы и со старыми мостиками. Для разрешений 1920×1080 и 2560×1440 пикселей при частоте обновления 60 Гц можно использовать стандартные мостики, но в более требовательных режимах (4K, 5K и мультимониторные системы) лучшие результаты по плавности смены кадров обеспечат только новые мостики, хотя и старые будут работать, но несколько хуже.

Также, при использовании мостиков SLI HB, интерфейс передачи данных GeForce GTX 1080 работает на скорости 650 МГц, по сравнению с 400 МГц у обычных мостиков SLI на старых GPU. Причем, для некоторых из жестких старых мостиков также доступна более высокая частота передачи данных с видеочипами архитектуры Pascal. С ростом скорости передачи данных между GPU по удвоенному интерфейсу SLI с повышенной частотой работы, обеспечивается и более плавный вывод кадров на экран, по сравнению с предыдущими решениями:

Нужно также отметить, что поддержка многочипового рендеринга в DirectX 12 несколько отличается от того, что было привычно ранее. В последней версии графического API, компания Microsoft сделала много изменений, связанных с работой таких видеосистем. Для разработчиков ПО в DX12 доступны два варианта использования нескольких GPU: режимы Multi Display Adapter (MDA) и Linked Display Adapter (LDA).

Причем, режим LDA имеет две формы: Implicit LDA (который Nvidia использует для SLI) и Explicit LDA (когда разработчик игры берет на себя задачи управления многочиповым рендерингом. Режимы MDA и Explicit LDA как раз и были внедрены в DirectX 12 для того, чтобы дать игровым разработчикам больше свободы и возможностей при использовании многочиповых видеосистем. Разница между режимами хорошо видна по следующей таблице:

В режиме LDA, память каждого GPU может быть связана с памятью другого и отображаться в виде большого общего объема, естественно, при всех ограничениях по производительности, когда данные достаются из «чужой» памяти. В режиме MDA, память каждого GPU работает отдельно, и разные GPU не могут получить прямой доступ к данным из памяти другого графического процессора. Режим LDA разработан для многочиповых систем аналогичной производительности, а режим MDA имеет меньше ограничений, и в нем могут совместно работать дискретные и интегрированные GPU или дискретные решения с чипами разных производителей. Но этот режим также требует от разработчиков больше внимания и работы при программировании совместной работы для того, чтобы GPU смогли обмениваться информацией друг с другом.

По умолчанию, SLI-система на основе плат GeForce GTX 1080 поддерживает лишь два GPU, а трех- и четырехчиповые конфигурации официально не рекомендуются к использованию, так как в современных играх становится все более сложно обеспечивать прирост производительности от добавления третьего и четвертого графического процессора. К примеру, многие игры упираются в возможности центрального процессора системы при работе многочиповых видеосистем, также в новых играх все чаще используются темпоральные (временные) техники, использующие данные из предыдущих кадров, в которых эффективная работа сразу нескольких GPU просто невозможна.

Впрочем, работа систем в других (не SLI) многочиповых системах остается возможной, как то режимы MDA или LDA Explicit в DirectX 12 или двухчиповая SLI система с выделенным третьим GPU для физических эффектов PhysX. А как же рекорды в бенчмарках, неужели в Nvidia отказываются от них совсем? Нет, конечно, но так как подобные системы востребованы в мире чуть ли не единицами пользователей, то для таких ультраэнтузиастов придумали специальный ключ Enthusiast Key, который можно скачать на сайте Nvidia и разблокировать эту возможность. Для этого нужно сначала получить уникальный идентификатор GPU, запустив специальное приложение, затем запросить Enthusiast Key на веб-сайте и, скачав его, установить ключ в систему, разблокировав тем самым 3-Way и 4-Way конфигурации SLI.

Технология синхронизации Fast Sync

Некоторые изменения произошли в технологиях синхронизации при выводе информации на дисплей. Забегая вперед, в G-Sync не появилось ничего нового, как не поддерживается и технология адаптивной синхронизации Adaptive Sync. Зато в Nvidia решили улучшить плавность вывода и синхронизацию для игр, которые показывают очень высокую производительность, когда частота кадров заметно превышает частоту обновления монитора. Это особенно важно для игр, требующих минимальных задержек и быстрого отклика и по которым проходят мультиплеерные сражения и соревнования.

Fast Sync - это новая альтернатива вертикальной синхронизации, которая не имеет визуальных артефактов в виде разрывов картинки на изображении и не привязана к фиксированной частоте обновления, что повышает задержки. В чем проблема вертикальной синхронизации в таких играх, как Counter-Strike: Global Offensive? Эта игра на мощных современных GPU работает с несколькими сотнями кадров в секунду, и у игрока есть выбор: включать вертикальную синхронизацию или нет.

В многопользовательских играх пользователи чаще всего гонятся за минимальными задержками и VSync отключают, получая хорошо видимые разрывы на изображении, крайне неприятные и при высокой частоте кадров. Если же включить вертикальную синхронизацию, то игрок получит значительный рост задержек между его действиями и изображением на экране, когда графический конвейер замедляется до частоты обновления монитора.

Так работает традиционный конвейер. Но в Nvidia решили разделить процесс рендеринга и вывода изображения на экран при помощи технологии Fast Sync. Это позволяет продолжать максимально эффективную работу для той части GPU, которая занимается рендерингом кадров на полной скорости, сохраняя эти кадры в специальном временном буфере Last Rendered Buffer.

Такой метод позволяет изменять способ вывода на экран и брать лучшее от режимов VSync On и VSync Off, получив низкие задержки, но без артефактов изображения. С Fast Sync нет управления потоком кадров, игровой движок работает в режиме отключенной синхронизации и ему не говорят подождать с отрисовкой очередного, поэтому и задержки почти такие же низкие, как у режима VSync Off. Но так как Fast Sync самостоятельно выбирает буфер для вывода на экран и выводит кадр целиком, то нет и разрывов картинки.

При работе Fast Sync используется три разных буфера, первые два из которых работают аналогично двойной буферизации в классическом конвейере. Первичный буфер (Front Buffer - FB) - это буфер, информация из которого выводится на дисплей, полностью отрисованный кадр. Вторичный буфер (Back Buffer - BB) - это буфер, в который поступает информация при рендеринге.

При использовании вертикальной синхронизации в условиях высокой частоты кадров игра ждет достижения момента обновления информации на дисплее (refresh interval), чтобы поменять местами первичный буфер с вторичным для вывода изображения цельного кадра на экран. Это замедляет процесс, а добавление дополнительных буферов как при традиционной тройной буферизации лишь добавит задержку.

С применением Fast Sync добавляется третий буфер Last Rendered Buffer (LRB), который используется для хранения всех кадров, только что отрендеренных во вторичном буфере. Название буфера говорит само за себя, в нем содержится копия последнего полностью отрисованного кадра. И когда настанет момент обновления первичного буфера, этот LRB буфер копируется в первичный целиком, а не по частям, как из вторичного при отключенной вертикальной синхронизации. Так как копирование информации из буферов неэффективно, то они просто меняются местами (или переименовываются, как будет удобнее понять), а новая логика смены буферов местами, появившаяся в GP104, управляет этим процессом.

На практике включение нового метода синхронизации Fast Sync обеспечивает все же чуть большую задержку, по сравнению с вовсе отключенной вертикальной синхронизацией - в среднем на 8 мс больше, зато выводит кадры на монитор целиком, без неприятных артефактов на экране, разрывающих изображение. Новый метод можно включить из графических настроек панели управления Nvidia в секции управления вертикальной синхронизацией. Впрочем, значением по умолчанию остается управление приложением, да и включать Fast Sync во всех 3D-приложениях просто не требуется, лучше выбрать этот метод конкретно для игр с высоким FPS.

Технологии виртуальной реальности Nvidia VRWorks

Мы уже не раз затрагивали горячую тему виртуальной реальности в статье, но речь в основном шла о повышении частоты кадров и обеспечении низких задержек, очень важных для VR. Все это очень важно и прогресс действительно есть, но пока что VR-игры выглядят далеко не столь впечатляюще, как лучшие из «обычных» современных 3D-игр. Так получается не только потому, что VR-приложениями ведущие игровые разработчики пока что не особо занимаются, но и из-за большей требовательности VR к частоте кадров, что не дает использовать многие из привычных техник в таких играх по причине высокой требовательности.

Для того, чтобы уменьшить разницу в качестве между VR-играми и обычными, в Nvidia решили выпустить целый пакет соответствующих технологий VRWorks, в который вошло большое количество API, библиотек, движков и технологий, которые позволяют значительно улучшить как качество, так и производительность VR-приложений. Как это относится к анонсу первого игрового решения на Pascal? Очень просто - в него внедрили некоторые технологии, помогающие увеличить производительность и улучшить качество, и мы о них уже писали.

И хотя дело касается далеко не только графики, сначала немного расскажем именно о ней. В набор технологий VRWorks Graphics входят уже упомянутые ранее технологии, вроде Lens Matched Shading, использующие возможность мультипроецирования, появившуюся именно в GeForce GTX 1080. Новинка позволяет получить прирост производительности в 1,5-2 раза по отношению к решениями, не имеющим такой поддержки. Также мы упоминали и другие технологии, вроде MultiRes Shading, предназначенного для рендеринга с разным разрешением в центре кадра и на его периферии.

Но куда неожиданнее был анонс технологии VRWorks Audio, предназначенной для качественного обсчета звуковых данных в 3D-сценах, особенно важного в системах виртуальной реальности. В обычных движках позиционирование источников звука в виртуальной среде рассчитывается довольно корректно, если враг стреляет справа, то и звук громче раздается с этой стороны аудиосистемы, и такой расчет не слишком требователен к вычислительной мощности.

Но в реальности звуки идут не только к игроку, но во всех направлениях и отражаются от различных материалов, аналогично тому, как отражаются лучи света. И в реальности мы слышим эти отражения, хоть и не так отчетливо, как прямые звуковые волны. Эти непрямые отражения звука обычно имитируются специальными эффектами реверберации, но это - весьма примитивный подход к задаче.

В пакете VRWorks Audio используется просчет звуковых волн аналогично трассировке лучей при рендеринге, когда путь лучей света отслеживается до нескольких отражений от объектов в виртуальной сцене. VRWorks Audio также имитирует распространение звуковых волн в окружающей среде, когда отслеживаются прямые и отраженные волны, в зависимости от угла их падения и свойств отражающих материалов. В своей работе VRWorks Audio использует известный по графическим задачам высокопроизводительный движок Nvidia OptiX, предназначенный для трассировки лучей. OptiX может использоваться для разнообразных задач, таких как расчет непрямого освещения и подготовка карт освещения, а теперь и для трассировки звуковых волн в VRWorks Audio.

Nvidia встроила точный расчет звуковых волн в свою демонстрационную программу VR Funhouse, в ней используется несколько тысяч лучей и просчитывается до 12 отражений от объектов. А для того, чтобы на понятном примере усвоить преимущества технологии, предлагаем вам посмотреть видеоролик о работе технологии на русском языке:

Важно, что подход Nvidia отличается от традиционных звуковых движков, в том числе и аппаратно ускоренного при помощи специального блока в GPU метода от главного конкурента. Все эти методы обеспечивают лишь точное позиционирование источников звука, но не рассчитывают отражения звуковых волн от объектов в 3D-сцене, хотя и могут имитировать это при помощи эффекта реверберации. И все же использование технологии трассировки лучей может быть куда реалистичнее, так как только такой подход обеспечит точную имитацию различных звуков, с учетом размеров, формы и материалов объектов в сцене. Сложно сказать, требуется ли такая точность вычислений для типичного игрока, но можно сказать точно: в VR она может добавить пользователям той самой реалистичности, которой пока что не хватает в обычных играх.

Ну а нам осталось рассказать лишь о технологии VR SLI, работающей и в OpenGL и в DirectX. Ее принцип предельно прост: двухпроцессорная видеосистема в VR-приложении будет работать так, что каждому глазу выделяется отдельный GPU, в отличие от AFR-рендеринга, привычного для SLI-конфигураций. Это значительно повышает общую производительность, столь важную для систем виртуальной реальности. Теоретически можно использовать и большее количество GPU, но их количество должно быть четным.

Такой подход потребовался потому, что AFR плохо подходит для VR, так как с его помощью первый GPU будет отрисовывать четный кадр для обоих глаз, а второй - нечетный, что ничуть не снижает задержки, критически важные для систем виртуальной реальности. Хотя частота кадров при этом будет достаточно высокой. Так что при помощи VR SLI работа над каждым кадром разделяется на два GPU - один работает над частью кадра для левого глаза, второй - для правого, а затем эти половинки кадра объединяются в целый.

Подобное разделение работы между парой графических процессоров приносит почти двукратный рост производительности, позволяющий поднять частоту кадров и снизить задержки по сравнению с системами на основе одной видеокарты. Правда, использование VR SLI требует специальной поддержки со стороны приложения, чтобы использовать этот метод масштабирования. Но технология VR SLI уже встроена в такие демонстрационные VR-приложения как The Lab от Valve и Trials on Tatooine от ILMxLAB, и это только начало - в Nvidia обещают скорое появление других приложений, а также внедрения технологии в игровые движки Unreal Engine 4, Unity и MaxPlay.

Платформа создания игровых скриншотов Ansel

Одним из самых интересных анонсов, связанных с программным обеспечением, стал выпуск технологии захвата качественных скриншотов в игровых приложениях, названной по имени одного известного фотографа - Ansel. Игры уже давно стали не просто играми, но и местом применения шаловливых рук для различных творческих личностей. Кто-то меняет скрипты к играм, кто-то выпускает качественные наборы текстур к играм, а кто-то - делает красивые скриншоты.

Компания Nvidia решила помочь последним, представив новую платформу для создания (именно создания, потому что это не такой уж простой процесс) качественных снимков из игр. Они считают, что Ansel может помочь создать новый вид современного искусства. Ведь уже есть достаточно много художников, которые проводят большую часть жизни за ПК, создавая красивые скриншоты из игр, и у них до сих пор не было удобного инструмента для этого.

Ansel позволяет не просто захватывать изображение в игре, а менять его так, как нужно создателю. При помощи этой технологии можно двигать камеру по сцене, поворачивать и наклонять ее в любом направлении для того, чтобы получить требуемую композицию кадра. К примеру, в таких играх, как шутеры от первого лица, можно только двигать игрока, больше ничего менять особо не получится, поэтому все скриншоты получаются довольно однообразными. Со свободной же камерой в Ansel можно выйти далеко за пределы игровой камеры, выбрав такой ракурс, который нужен для удачной картинки, или вовсе захватить полноценную 360-градусную стереокартину из требуемой точки, да в высоком разрешении для последующего просмотра в VR-шлеме.

Ansel работает довольно просто - при помощи специальной библиотеки от Nvidia эта платформа внедряется в код игры. Для этого ее разработчику требуется всего лишь добавить небольшой кусок кода в свой проект, чтобы позволить видеодрайверу Nvidia перехватывать данные буферов и шейдеров. Работы там совсем немного, внедрение Ansel в игру требует меньше чем одного дня для внедрения. Так, включение этой возможности в игру The Witness заняло около 40 строк кода, а в The Witcher 3 - порядка 150 строк кода.

Ansel появится с открытым пакетом для разработки - SDK. Главное, что пользователь получает вместе с ним стандартный набор настроек, позволяющих ему менять положение и угол камеры, добавлять эффекты и т. п. Платформа Ansel работает так: она ставит игру на паузу, включает свободную камеру и позволяет изменять кадр до требуемого вида, записывая результат в виде обычного скриншота, 360-градусного снимка, стереопары или просто панорамы огромного разрешения.

Единственное замечание: не все игры получат поддержку всех возможностей платформы создания игровых скриншотов Ansel. Некоторые из игровых разработчиков по тем или иным причинам не желают включать полностью свободную камеру в своих играх - например, из-за возможности использования этой функциональности читерами. Или они хотят ограничить изменение угла обзора по все той же причине - чтобы никто не получил несправедливого преимущества. Ну, или чтобы пользователи не увидели убогие спрайты на заднем плане. Все это - вполне нормальные желания создателей игр.

Одной из интереснейших возможностей Ansel является создание скриншотов просто огромного разрешения. Неважно, что игра поддерживает разрешения до 4K, например, а монитор у пользователя и вовсе Full HD. При помощи платформы снятия скриншотов можно захватить куда более качественное изображение, ограниченное скорее объемом и производительностью накопителя. Платформа с легкостью захватывает скриншоты с разрешением до 4,5 гигапикселей, со сшивкой их из 3600 кусочков!

Понятно, что на таких картинах можно рассмотреть все детали, вплоть до текста на валяющихся вдалеке газетах, если такой уровень детализации в принципе предусмотрен в игре - Ansel умеет управлять и уровнем детализации, выставляя максимальный уровень, чтобы получить лучшее качество картинки. А ведь еще можно включить суперсэмплинг. Все это позволяет создавать изображения из игр, которые можно смело печатать на больших баннерах и быть спокойным за их качество.

Интересно, что для сшивки больших изображений используется специальный аппаратно ускоренный код на основе CUDA. Ведь никакая видеокарта не сможет отрендерить многогигапиксельное изображение целиком, но она может сделать это по кусочкам, которые нужно просто объединить впоследствии, учитывая возможную разницу в освещении, цвете и прочем.

После сшивки таких панорам для всего кадра используется специальная постобработка, также ускоренная на GPU. А для захвата изображений в повышенном динамическом диапазоне можно использовать специальный формат изображений - EXR, открытый стандарт от Industrial Light and Magic, значения цветности в каждом канале которого записываются в 16-битном формате с плавающей запятой (FP16).

Этот формат позволяет менять яркость и динамический диапазон изображения постобработкой, приводя его к нужному для каждого конкретного дисплея аналогично тому, как это делается с RAW-форматами с фотокамер. Да и для последующего применения фильтров постобработки в программах обработки изображений этот формат весьма полезен, так как содержит куда больше данных, чем привычные форматы для изображений.

Но платформа Ansel и сама содержит множество фильтров для постобработки, что особенно важно потому, что она имеет доступ не только к итоговой картинке, но и ко всем буферам, использующимся игрой при рендеринге, что можно использовать для очень интересных эффектов, вроде глубины резкости. Для этого в Ansel есть специальный API для постобработки, и любой из эффектов можно включить в игру с поддержкой этой платформы.

В число постфильтров Ansel входят такие фильтры как: color curves, color space, transformation, desaturation, brightness/contrast, film grain, bloom, lens flare, anamorphic glare, distortion, heathaze, fisheye, color aberration, tone mapping, lens dirt, lightshafts, vignette, gamma correction, convolution, sharpening, edge detection, blur, sepia, denoise, FXAA и другие.

Что касается появления поддержки Ansel в играх, то тут придется немного подождать, пока разработчики ее внедрят и протестируют. Но Nvidia обещает скорое появление такой поддержки в таких известных играх, как The Division, The Witness, Lawbreakers, The Witcher 3, Paragon, Fortnite, Obduction, No Man"s Sky, Unreal Tournament и других.

Новый технологический процесс 16 нм FinFET и оптимизации архитектуры позволили видеокарте GeForce GTX 1080, основанной на графическом процессоре GP104, достичь высокой тактовой частоты в 1,6-1,7 ГГц даже в референсном виде, а работу на максимально возможных частотах в играх гарантирует новое поколение технологии GPU Boost. Вместе с увеличенным количеством исполнительных блоков, эти улучшения сделали новинку не просто самой высокопроизводительной одночиповой видеокартой за все время, но и наиболее энергоэффективным решением на рынке.

Модель GeForce GTX 1080 стала первой видеокартой, несущей на себе новый тип графической памяти GDDR5X - нового поколения высокоскоростных чипов, которое позволило достичь очень высокой частоты передачи данных. В случае модификации GeForce GTX 1080, этот тип памяти работает на эффективной частоте в 10 ГГц. В сочетании с улучшенными алгоритмами сжатия информации во фреймбуфере, это привело к росту эффективной пропускной способности памяти для этого графического процессора в 1,7 раза, по сравнению с прямым предшественником в лице GeForce GTX 980.

Компания Nvidia благоразумно решила не выпускать радикально новую архитектуру на абсолютно новом для себя техпроцессе, чтобы не столкнуться с лишними проблемами при разработке и производстве. Вместо этого они серьезно улучшили и так неплохую и весьма эффективную архитектуру Maxwell, добавив некоторые возможности. В итоге, с производством новых GPU все хорошо, и в случае модели GeForce GTX 1080 инженеры добились очень высокого частотного потенциала - в разогнанных вариантах от партнеров частота GPU ожидается вплоть до 2 ГГц! Столь впечатляющая частота стала реальна благодаря совершенному техпроцессу и кропотливой работе инженеров Nvidia при разработке графического процессора Pascal.

И хотя Pascal стал прямым последователем дела Maxwell, и эти графические архитектуры в основе своей не слишком сильно отличаются друг от друга, компания Nvidia внедрила множество изменений и улучшений, в том числе в возможности вывода изображения на дисплеи, движок кодирования и декодирования видеоданных, улучшили асинхронное исполнение различных типов вычислений на GPU, внесли изменения в многочиповый рендеринг и внедрили новый метод синхронизации Fast Sync.

Нельзя не выделить технологию мультипроецирования Simultaneous Multi-Projection, которая помогает повысить производительность в системах виртуальной реальности, получить более корректное отображение сцен на многомониторных системах, и внедрить новые техники оптимизации производительности. Но наибольший прирост в скорости получат VR-приложения, когда ими будет поддерживаться технология мультипроецирования, помогающая вдвое сэкономить ресурсы GPU при обработке геометрических данных и в полтора раза - при попиксельных вычислениях.

Среди чисто программных изменений особенно выделяется платформа для создания скриншотов в играх под названием Ansel - попробовать ее в деле будет интересно не только много играющим, но и просто интересующимся качественной 3D-графикой. Новинка позволяет продвинуть искусство создания и ретуши скриншотов на новый уровень. Ну а такие свои пакеты для разработчиков игр, как GameWorks и VRWorks, Nvidia просто продолжает улучшать шаг за шагом - так, в последнем появилась интересная возможность качественного обсчета звука, учитывающая многочисленные отражения звуковых волн с использованием аппаратной трассировки лучей.

В общем, в виде видеокарты Nvidia GeForce GTX 1080 на рынок вышел настоящий лидер, имеющий для этого все необходимые качества: высокую производительность и широкую функциональность, а также поддержку новых возможностей и алгоритмов. Первые покупатели этой видеокарты смогут оценить многие из упомянутых преимуществ сразу, а другие возможности решения раскроются чуть позже, когда появится широкая поддержка со стороны программного обеспечения. Главное, что GeForce GTX 1080 получилась весьма быстрой и эффективной, а часть проблемных мест (те же асинхронные вычисления), как мы очень надеемся, инженерам Nvidia удалось исправить.

Графический ускоритель GeForce GTX 1070

Параметр Значение
Кодовое имя чипа GP104
Технология производства 16 нм FinFET
Количество транзисторов 7,2 млрд.
Площадь ядра 314 мм²
Архитектура Унифицированная, с массивом общих процессоров для потоковой обработки многочисленных видов данных: вершин, пикселей и др.
Аппаратная поддержка DirectX DirectX 12, с поддержкой уровня возможностей Feature Level 12_1
Шина памяти 256-битная: восемь независимых 32-битных контроллеров памяти с поддержкой GDDR5 и GDDR5X памяти
Частота графического процессора 1506 (1683) МГц
Вычислительные блоки 15 активных (из 20 в чипе) потоковых мультипроцессоров, включающих 1920 (из 2560) скалярных ALU для расчетов с плавающей запятой в рамках стандарта IEEE 754-2008;
Блоки текстурирования 120 активных (из 160 в чипе) блоков текстурной адресации и фильтрации с поддержкой FP16- и FP32-компонент в текстурах и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
Блоки растровых операций (ROP) 8 широких блоков ROP (64 пикселя) с поддержкой различных режимов сглаживания, в том числе программируемых и при FP16- или FP32-формате буфера кадра. Блоки состоят из массива конфигурируемых ALU и отвечают за генерацию и сравнение глубины, мультисэмплинг и блендинг
Поддержка мониторов Интегрированная поддержка до четырех мониторов, подключенных по интерфейсам Dual Link DVI, HDMI 2.0b и DisplayPort 1.2 (1.3/1.4 Ready)

Спецификации референсной видеокарты GeForce GTX 1070
Параметр Значение
Частота ядра 1506 (1683) МГц
Количество универсальных процессоров 1920
Количество текстурных блоков 120
Количество блоков блендинга 64
Эффективная частота памяти 8000 (4×2000) МГц
Тип памяти GDDR5
Шина памяти 256-бит
Объем памяти 8 ГБ
Пропускная способность памяти 256 ГБ/с
Вычислительная производительность (FP32) около 6,5 терафлопс
Теоретическая максимальная скорость закраски 96 гигапикселей/с
Теоретическая скорость выборки текстур 181 гигатекселей/с
Шина PCI Express 3.0
Разъемы Один разъем Dual Link DVI, один HDMI и три DisplayPort
Энергопотребление до 150 Вт
Дополнительное питание Один 8-контактный разъем
Число слотов, занимаемых в системном корпусе 2
Рекомендуемая цена $379-449 (США), 34 990 (Россия)

Видеокарта GeForce GTX 1070 также получила логичное наименование, аналогичное такому же решению из предыдущей серий GeForce. Оно отличается от своего прямого предшественника GeForce GTX 970 только измененной цифрой поколения. Новинка становится в текущей линейке компании на шаг ниже нынешнего топового решения GeForce GTX 1080, ставшего временным флагманом новой серии до выпуска решений на GPU еще большей мощности.

Рекомендованные цены на новую топовую видеоплату Nvidia составляют $379 и $449 для обычных версий партнеров Nvidia и специального издания Founders Edition, соответственно. По сравнению с топовой моделью, это очень хорошая цена с учетом того, что GTX 1070 уступает ей около 25% в худшем случае. И на момент анонса и выхода GTX 1070 становится лучшим по производительности решением в своем классе. Как и GeForce GTX 1080, модель GTX 1070 не имеет прямых конкурентов от AMD, и сравнивать ее можно разве что с Radeon R9 390X и Fury.

У графического процессора GP104 в модификации GeForce GTX 1070 решили оставить полную 256-битную шину памяти, хотя применили не новый тип памяти GDDR5X, а очень быструю GDDR5, которая работает на высокой эффективной частоте в 8 ГГц. Объем установленной на видеокарту памяти с такой шиной может быть равен 4 или 8 ГБ, и, чтобы обеспечить максимальную производительность нового решения в условиях высоких настроек и разрешениях рендеринга, модель видеокарты GeForce GTX 1070 была также оснащена 8 ГБ видеопамяти, как и ее старшая сестра. Этого объема хватит для запуска любых 3D-приложений с максимальными настройками качества на несколько лет.

Специальное издание GeForce GTX 1070 Founders Edition

При анонсе GeForce GTX 1080 в начале мая было объявлено специальное издание видеокарты под названием Founders Edition, имеющее более высокую цену, по сравнению с обычными видеокартами партнеров компании. То же самое относится и к новинке. В этом материале мы снова расскажем о специальном издании видеокарты GeForce GTX 1070 под названием Founders Edition. Как и в случае старшей модели, Nvidia решила выпустить такой вариант референсной видеокарты производителя по более высокой цене. Они утверждают, что многие игроки и энтузиасты, покупающие дорогие видеокарты топового уровня, хотят продукт с соответствующим «премиальным» видом и ощущением от него.

Соответственно, именно для таких пользователей на рынок будет выпущена видеокарта GeForce GTX 1070 Founders Edition, которая спроектирована и выполнена инженерами Nvidia из премиальных материалов и компонентов, вроде алюминиевой крышки GeForce GTX 1070 Founders Edition, а также низкопрофильной задней пластины, прикрывающей оборотную сторону печатной платы и достаточно популярной среди энтузиастов.

Как вы можете видеть по фотографиям платы, GeForce GTX 1070 Founders Edition унаследовала ровно тот же индустриальный дизайн, присущий референсному варианту GeForce GTX 1080 Founders Edition. В обеих моделях применяется радиальный вентилятор, выбрасывающий нагретый воздух наружу, что очень полезно как в маленьких корпусах, так и многочиповых SLI-конфигурациях с ограниченным физически пространством. Выдув нагретого воздуха наружу вместо его циркуляции внутри корпуса позволяет снизить температурную нагрузку, повысить результаты разгона и продлить время жизни компонентам системы.

Под крышкой референсной системы охлаждения GeForce GTX 1070 скрывается алюминиевый радиатор специальной формы с тремя встроенными тепловыми трубками из меди, отводящими тепло от самого графического процессора. Тепло, отведенное тепловыми трубками, затем рассеивается при помощи алюминиевого радиатора. Ну и низкопрофильная металлическая пластина на оборотной стороне платы также предназначена для обеспечения лучших температурных характеристик. Она также имеет убираемую секцию для лучшего движения воздуха между несколькими видеокартами в SLI-конфигурациях.

Что касается системы питания платы, то GeForce GTX 1070 Founders Edition имеет четырехфазную систему питания, оптимизированную для стабильного снабжения энергией. Компания Nvidia уверяет, что использование специальных компонентов в GTX 1070 Founders Edition позволило повысить эффективность электроснабжения, стабильность и надежность по сравнению с GeForce GTX 970, обеспечив лучшие показатели при разгоне. В собственных тестах компании графические процессоры плат GeForce GTX 1070 легко превосходили значение в 1,9 ГГц, что близко к результатам старшей модели GTX 1080.

Видеокарта Nvidia GeForce GTX 1070 будет доступна в розничных магазинах начиная с 10 июня. Рекомендуемые цены на GeForce GTX 1070 Founders Edition и решения партнеров отличаются, и в этом заключается самый главный вопрос к этому специальному изданию. Если партнеры Nvidia будут продавать свои видеокарты GeForce GTX 1070 по цене, начиная от $379 (на рынке США), то Founders Edition референсного дизайна Nvidia будет стоить уже $449. Много ли найдется энтузиастов, готовых переплачивать за, скажем прямо, сомнительные преимущества референсного варианта? Время покажет, но мы считаем, что референсная плата интересна скорее как вариант, доступный к покупке в самом начале продаж, а позднее смысл его приобретения (да еще за большую цену!) уже сводится к нулю.

Остается добавить, что печатная плата референсной GeForce GTX 1070 схожа с таковой у старшей видеокарты и обе они отличаются от устройства предыдущих плат компании. Значение типичного энергопотребления для новинки составляет 150 Вт, что меньше значения для GTX 1080 почти на 20% и близко к потреблению энергии видеокартой предыдущего поколения GeForce GTX 970. Референсная плата Nvidia имеет уже привычный набор разъемов для присоединения устройств вывода изображения: один Dual-Link DVI, один HDMI и три DisplayPort. Причем, появилась поддержка новых версий HDMI и DisplayPort, о которой мы написали выше в обзоре модели GTX 1080.

Архитектурные изменения

Видеокарта модели GeForce GTX 1070 основана на чипе GP104, первенце нового поколения графической архитектуры Nvidia - Pascal. Эта архитектура взяла в основу решения, отработанные еще в Maxwell, но в ней есть и некоторые функциональные отличия, о которых мы подробно писали выше - в части, посвященной топовой видеокарте GeForce GTX 1080.

Главным изменением новой архитектуры стал технологический процесс, по которому будут выполнены все новые графические процессоры. Применение техпроцесса 16 нм FinFET при производстве GP104 позволило значительно повысить сложность чипа при сохранении сравнительно невысокой площади и себестоимости, и первый же чип архитектуры Pascal имеет заметно большее количество исполнительных блоков, в том числе обеспечивающих новую функциональность, по сравнению с чипами Maxwell похожего позиционирования.

Видеочип GP104 по своему устройству схож с аналогичными решениями архитектуры Maxwell, и подробные данные об устройстве современных GPU вы можете найти в наших обзорах предыдущих решений компании Nvidia. Как и предыдущие графические процессоры, чипы новой архитектуры будут иметь разную конфигурацию вычислительных кластеров Graphics Processing Cluster (GPC), потоковых мультипроцессоров Streaming Multiprocessor (SM) и контроллеров памяти, и в GeForce GTX 1070 уже произошли некоторые изменения - часть чипа была заблокирована и неактивна (выделено серым):

Хотя в состав графического процессора GP104 входит четыре кластера GPC и 20 мультипроцессоров SM, в версии для GeForce GTX 1070 он получил урезанную модификацию с аппаратно отключенным одним кластером GPC. Так как каждый кластер GPC имеет выделенный движок растеризации и включает в себя пять мультипроцессоров SM, а каждый мультипроцессор состоит из 128 CUDA-ядер и восьми текстурных блоков TMU, то в этой версии GP104 активны 1920 CUDA-ядер и 120 блоков TMU из 2560 потоковых процессоров и 160 текстурных блоков, имеющихся физически.

Графический процессор, на котором основана видеокарта GeForce GTX 1070, содержит восемь 32-битных контроллеров памяти, дающих итоговую 256-битную шину памяти - ровно как в случае старшей модели GTX 1080. Подсистема памяти не была урезана для того, чтобы обеспечить достаточно высокую пропускную способность памяти с условием применения GDDR5-памяти в GeForce GTX 1070. К каждому из контроллеров памяти привязано по восемь блоков ROP и 256 КБ кэш-памяти второго уровня, поэтому чип GP104 и в этой модификации также содержит 64 блоков ROP и 2048 КБ кэш-памяти второго уровня.

Благодаря архитектурным оптимизациям и новому техпроцессу, графический процессор GP104 стал самым энергоэффективным графическим процессором на данный момент. Инженеры компании Nvidia смогли повысить тактовую частоту больше, чем они рассчитывали при переходе на новый техпроцесс, для чего им пришлось хорошо поработать, тщательно проверив и оптимизировав все узкие места предыдущих решений, не позволяющие им работать на более высокой частоте. Соответственно, GeForce GTX 1070 также работает на очень высокой частоте, более чем на 40% выше референсного значения для GeForce GTX 970.

Так как модель GeForce GTX 1070 является, по своей сути, просто чуть менее производительной GTX 1080 с GDDR5-памятью, то она поддерживает абсолютно все технологии, описанные нами в предыдущем разделе. Чтобы получить больше деталей об архитектуре Pascal, равно как и поддерживаемых ей технологиях, вроде улучшенных блоков вывода и обработки видеоданных, поддержки асинхронных вычислений Async Compute, технологии мультипроецирования Simultaneous Multi-Projection, изменениях в многочиповом рендеринге SLI и новом типе синхронизации Fast Sync, стоит ознакомиться с разделом по GTX 1080.

Высокопроизводительная GDDR5-память и ее эффективное использование

Мы выше писали об изменениях в подсистеме памяти у графического процессора GP104, на котором основаны модели GeForce GTX 1080 и GTX 1070 - контроллеры памяти, имеющиеся в составе этого GPU, поддерживают как новый тип видеопамяти GDDR5X, о котором подробно написано в обзоре GTX 1080, так и старую добрую GDDR5-память, известную нам вот уже несколько лет.

Чтобы не слишком много потерять в пропускной способности памяти в младшей модели GTX 1070 по сравнению со старшей GTX 1080, в ней оставили активными все восемь 32-битных контроллеров памяти, получив полноценный 256-битный общий интерфейс видеопамяти. Кроме этого, видеокарту оснастили самой высокоскоростной GDDR5-памятью, которая только была доступна на рынке - с эффективной частотой работы в 8 ГГц. Все это обеспечило ПСП в 256 ГБ/с, в отличие от 320 ГБ/с у старшего решения - примерно на столько же были урезаны и вычислительные возможности, так что баланс был соблюден.

Не забываем, что хотя пиковая теоретическая пропускная способность важна для производительности графических процессоров, нужно обращать внимание и на эффективность ее использования. В процессе рендеринга, множество разных узких мест может ограничивать общую производительность, не давая использовать всю имеющуюся ПСП. Чтобы минимизировать количество таких узких мест, в графических процессорах применяется специальное сжатие информации без потерь, повышающее эффективность операций чтения и записи данных.

В архитектуре Pascal было внедрено уже четвертое поколение дельта-сжатия информации буферов, позволяющее GPU более эффективно использовать имеющиеся возможности шины видеопамяти. Подсистема памяти в GeForce GTX 1070 и GTX 1080 использует улучшенные старые и несколько новых техник по сжатию данных без потерь, предназначенные для снижения требований к ПСП. Это снижает количество записываемых данных в память, улучшает эффективность использования L2-кэша и уменьшает количество данных, пересылаемых между разными точками GPU, вроде TMU и фреймбуфера.

GPU Boost 3.0 и особенности разгона

Большинство партнеров компании Nvidia уже анонсировали фабрично разогнанные решения на основе GeForce GTX 1080 и GTX 1070. А многие из производителей видеокарт создают и специальные утилиты для разгона, позволяющие использовать новую функциональность технологии GPU Boost 3.0. Одним из примеров таких утилит является EVGA Precision XOC, которая включает автоматический сканер для определения кривой соотношения напряжений и частот - в этом режиме для каждого из значений напряжения при помощи запуска теста стабильности находится стабильная частота, при которой GPU обеспечивает рост производительности. Впрочем, эту кривую можно изменять и вручную.

Технологию GPU Boost мы хорошо знаем по предыдущим видеокартам компании Nvidia. В своих графических процессорах они применяют эту аппаратную особенность, предназначенную для увеличения рабочей тактовой частоты GPU в режимах, когда он еще не достиг пределов по энергопотреблению и тепловыделению. В графических процессорах Pascal этот алгоритм претерпел несколько изменений, основным из которых стала более тонкая установка турбо-частот, в зависимости от напряжения.

Если раньше разница между базовой частотой и турбо-частотой была фиксированной, то в GPU Boost 3.0 появилась возможность установки смещений турбо-частот для каждого напряжения по отдельности. Теперь турбо-частота может устанавливаться для каждого из индивидуальных значений напряжения, что позволяет полностью выжимать все возможности разгона из GPU. Мы подробно писали об этой возможности в обзоре GeForce GTX 1080, и для этого можно использовать утилиты EVGA Precision XOC и MSI Afterburner.

Так как в методике разгона с выходом видеокарт с поддержкой GPU Boost 3.0 изменились некоторые детали, то Nvidia пришлось сделать дополнительные пояснения в инструкции по разгону новинок. Существуют разные методики разгона с различными переменными характеристиками, влияющими на итоговый результат. Для каждой конкретной системы может лучше подойти какой-то определенный метод, но основа всегда примерно одинакова.

Многие из оверклокеров для проверки стабильности системы используют бенчмарк Unigine Heaven 4.0, который отлично загружает графический процессор работой, имеет гибкие настройки и может быть запущен в оконном режиме вместе с окном утилиты для разгона и мониторинга рядом, вроде EVGA Precision или MSI Afterburner. Впрочем, такой проверки достаточно лишь для начальных прикидок, а для крепкого подтверждения стабильности разгона, его необходимо проверить в нескольких игровых приложениях, потому что разные игры предполагают отличающуюся нагрузку на различные функциональные блоки GPU: математические, текстурные, геометрические. Бенчмарк Heaven 4.0 также удобен для задачи разгона потому, что в нем есть закольцованный режим работы, в котором удобно менять настройки разгона и есть бенчмарк для оценки прироста скорости.

Nvidia советует при разгоне новых видеокарт GeForce GTX 1080 и GTX 1070 запускать окна Heaven 4.0 и EVGA Precision XOC совместно. Сначала желательно сразу же повысить скорость вращения вентилятора. И для серьезного разгона можно сразу выставлять значение скорости на 100%, что сделает работу видеокарты очень громкой, но максимально охладит GPU и остальные компоненты видеокарты, снизив температуру на минимально возможный уровень, предотвратив тротлинг (снижение частот из-за роста температуры GPU выше определенного значения).

Далее нужно установить целевое значение питания (Power Target) также на максимум. Эта настройка позволит обеспечить графический процессор максимально возможным количеством энергии, повысив уровень энергопотребления и целевую температуру GPU (GPU Temp Target). В некоторых целях, второе значение можно отделить от изменения Power Target, и тогда эти настройки можно будет настраивать индивидуально - для достижения меньшего нагрева видеочипа, например.

Следующим шагом идет увеличение значения прироста частоты видеочипа (GPU Clock Offset) - оно означает, насколько большей будет турбо-частота при работе. Это значение повышает частоту для всех значений напряжения и приводит к большей производительности. Как обычно, при разгоне нужно проверять стабильность при повышении частоты GPU небольшими шагами - от 10 МГц до 50 МГц на шаг до того, как будет отмечено зависание, ошибка драйвера или приложения или даже визуальные артефакты. При достижении такого лимита следует снизить значение частоты на шаг вниз и еще раз проверить стабильность и производительность при разгоне.

Кроме частоты GPU, можно также увеличить и частоту видеопамяти (Memory Clock Offset), что особенно важно в случае GeForce GTX 1070, оснащенной GDDR5-памятью, которая обычно неплохо разгоняется. Процесс в случае частоты работы памяти в точности повторяет то, что делается при нахождении стабильной частоты GPU, единственная разница в том, что шаги можно делать крупнее - добавлять сразу по 50-100 МГц к базовой частоте.

Кроме описанных выше шагов, можно увеличить и предел напряжения (Overvoltage), ведь более высокая частота графического процессора часто достигается при повышенном напряжении, когда работающие нестабильно части GPU получают дополнительное питание. Правда, потенциальным минусом повышения данного значения является возможность повреждения видеочипа и ускоренного выхода его из строя, поэтому нужно использовать повышение напряжения с особой осторожностью.

Любители разгона используют несколько отличающиеся методики, изменяя параметры в разном порядке. Например, некоторые оверклокеры разделяют опыты по нахождению стабильной частоты GPU и памяти, чтобы они не мешали друг другу, а потом тестируют комбинированный разгон и видеочипа и микросхем памяти, но это уже - несущественные детали индивидуального подхода.

Судя по мнениям в форумах и комментариях к статьям, некоторым пользователям не пришелся по вкусу новый алгоритм работы GPU Boost 3.0, когда частота GPU сначала задирается очень высоко, зачастую выше турбо-частоты, но потом, под воздействием роста температуры GPU или возросшего энергопотребления выше установленного предела, она может опуститься до значительно меньших значений. Это просто специфика работы обновленного алгоритма, нужно привыкнуть к новому поведению динамически изменяемой частоты GPU, но никаких негативных последствий оно не несет.

Видеокарта GeForce GTX 1070 стала второй после GTX 1080 моделью в новой линейке компании Nvidia, основанной на графических процессорах семейства Pascal. Новый технологический процесс 16 нм FinFET и оптимизации архитектуры позволили представленной видеокарте достичь высокой тактовой частоты, в чем ей помогает и новое поколение технологии GPU Boost. Даже несмотря на урезанное количество функциональных блоков в виде потоковых процессоров и текстурных модулей, их количество осталось достаточным для того, чтобы GTX 1070 стала самым выгодным и энергоэффективным решением.

Установка на младшую из пары выпущенных моделей видеокарт Nvidia на чипе GP104 памяти стандарта GDDR5, в отличие от нового типа GDDR5X, которым отличается GTX 1080, не мешает ей достичь высоких показателей производительности. Во-первых, в Nvidia решили не урезать шину памяти модели GeForce GTX 1070, а во-вторых, на нее поставили самую быструю GDDR5-память с эффективной частотой в 8 ГГц, что лишь чуть ниже 10 ГГц у применяемой в старшей модели GDDR5X. Учитывая еще и улучшенные алгоритмы дельта-сжатия, эффективная пропускная способность памяти графического процессора стала выше этого же параметра у аналогичной модели предыдущего поколения GeForce GTX 970.

GeForce GTX 1070 хороша тем, что предлагает очень высокую производительность и поддержку новых возможностей и алгоритмов при значительно меньшей цене, по сравнению со старшей моделью, анонсированной чуть ранее. Если приобретение GTX 1080 за 55 000 себе смогут позволить единицы энтузиастов, то выложить 35 000 за лишь на четверть менее производительное решение ровно с теми же возможностями сможет уже куда больший круг потенциальных покупателей. Именно сочетание сравнительно низкой цены и высокой производительности сделало GeForce GTX 1070, пожалуй, самым выгодным приобретением на момент ее выпуска.

Графический ускоритель GeForce GTX 1060

Параметр Значение
Кодовое имя чипа GP106
Технология производства 16 нм FinFET
Количество транзисторов 4,4 млрд.
Площадь ядра 200 мм²
Архитектура Унифицированная, с массивом общих процессоров для потоковой обработки многочисленных видов данных: вершин, пикселей и др.
Аппаратная поддержка DirectX DirectX 12, с поддержкой уровня возможностей Feature Level 12_1
Шина памяти 192-битная: шесть независимых 32-битных контроллеров памяти с поддержкой GDDR5 памяти
Частота графического процессора 1506 (1708) МГц
Вычислительные блоки 10 потоковых мультипроцессоров, включающих 1280 скалярных ALU для расчетов с плавающей запятой в рамках стандарта IEEE 754-2008;
Блоки текстурирования 80 блоков текстурной адресации и фильтрации с поддержкой FP16- и FP32-компонент в текстурах и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
Блоки растровых операций (ROP) 6 широких блоков ROP (48 пикселей) с поддержкой различных режимов сглаживания, в том числе программируемых и при FP16- или FP32-формате буфера кадра. Блоки состоят из массива конфигурируемых ALU и отвечают за генерацию и сравнение глубины, мультисэмплинг и блендинг
Поддержка мониторов Интегрированная поддержка до четырех мониторов, подключенных по интерфейсам Dual Link DVI, HDMI 2.0b и DisplayPort 1.2 (1.3/1.4 Ready)

Спецификации референсной видеокарты GeForce GTX 1060
Параметр Значение
Частота ядра 1506 (1708) МГц
Количество универсальных процессоров 1280
Количество текстурных блоков 80
Количество блоков блендинга 48
Эффективная частота памяти 8000 (4×2000) МГц
Тип памяти GDDR5
Шина памяти 192-бит
Объем памяти 6 ГБ
Пропускная способность памяти 192 ГБ/с
Вычислительная производительность (FP32) около 4 терафлопс
Теоретическая максимальная скорость закраски 72 гигапикселя/с
Теоретическая скорость выборки текстур 121 гигатекселей/с
Шина PCI Express 3.0
Разъемы Один разъем Dual Link DVI, один HDMI и три DisplayPort
Типичное энергопотребление 120 Вт
Дополнительное питание Один 6-контактный разъем
Число слотов, занимаемых в системном корпусе 2
Рекомендуемая цена $249 ($299) в США и 18 990 в России

Видеокарта GeForce GTX 1060 также получила наименование, схожее с таким же решением из предыдущей серий GeForce, отличающееся от имени своего прямого предшественника GeForce GTX 960 лишь измененной первой цифрой поколения. Новинка стала в текущей линейке компании на шаг ниже вышедшего ранее решения GeForce GTX 1070, являющегося средним по скорости в новой серии.

Рекомендованные цены на новую видеоплату компании Nvidia составляют $249 и $299 для обычных версий партнеров компании и для специального издания Founder’s Edition соответственно. По сравнению с двумя старшими моделями это очень выгодная цена, так как новая модель GTX 1060 хоть и уступает топовым платам, но далеко не настолько, насколько она их дешевле. На момент анонса новинка совершенно точно стала лучшим по производительности решением в своем классе и одним из наиболее выгодных предложений в этом ценовом диапазоне.

Данная модель видеокарты семейства Pascal компании Nvidia вышла для противодействия свежему решению конкурирующей компании AMD, которая чуть ранее выпустила на рынок Radeon RX 480. Сравнивать новинку Nvidia с этой видеокартой можно, хотя и не совсем напрямую, так как они все же довольно ощутимо отличаются по цене. GeForce GTX 1060 дороже ($249-299 против $199-229), но и явно побыстрее конкурента.

Графический процессор GP106 имеет 192-битную шину памяти, поэтому объем установленной на видеокарту памяти с такой шиной может быть равен 3 или 6 ГБ. Меньшего значения в современных условиях откровенно недостаточно, и многие игровые проекты даже в Full HD-разрешении будут упираться в нехватку видеопамяти, что серьезно скажется на плавности рендеринга. Чтобы обеспечить максимальную производительность нового решения в условиях высоких настроек, модель видеокарты GeForce GTX 1060 была оснащена 6 ГБ видеопамяти, чего вполне хватит для запуска любых 3D-приложений с любыми настройками качества. Более того, на сегодня разницы между 6 и 8 ГБ просто нет, а немного денег такое решение сэкономит.

Значение типичного энергопотребления для новинки составляет 120 Вт, что меньше значения для GTX 1070 на 20% и равно потреблению энергии видеокартой предыдущего поколения GeForce GTX 960, имеющей куда меньшую производительность и возможности. Референсная плата имеет привычный набор разъемов для присоединения устройств вывода изображения: один Dual-Link DVI, один HDMI и три DisplayPort. Причем появилась поддержка новых версий HDMI и DisplayPort, о которой мы писали в обзоре модели GTX 1080.

Длина референсной платы GeForce GTX 1060 равна 9,8 дюйма (25 см), а из отличий от старших вариантов отдельно отметим то, что GeForce GTX 1060 не поддерживает конфигурацию многочипового рендеринга SLI, и не имеет специального разъема для этого. Так как плата потребляет меньше энергии, чем старшие модели, то для дополнительного питания на плату установили один 6-контактный разъем PCI-E внешнего питания.

Видеокарты GeForce GTX 1060 появились на рынке начиная со дня анонса в виде продукции партнеров компании: Asus, EVGA, Gainward, Gigabyte, Innovision 3D, MSI, Palit, Zotac. В ограниченном количестве будет выпущено и специальное издание GeForce GTX 1060 Founder’s Edition, произведенное самой компанией Nvidia, которое будет продаваться по цене $299 исключительно на сайте компании Nvidia и официально в России представлено не будет. Founder’s Edition отличается тем, что она изготовлена из высококачественных материалов и компонентов, включая алюминиевый корпус, и использует эффективную систему охлаждения, а также цепи питания с низким сопротивлением и регуляторами напряжения специального дизайна.

Архитектурные изменения

Видеокарта GeForce GTX 1060 основана на абсолютно новом графическом процессоре модели GP106, который функционально ничем не отличается от первенца архитектуры Pascal в виде чипа GP104, на котором основаны описанные выше модели GeForce GTX 1080 и GTX 1070. Эта архитектура взяла в основу решения, отработанные еще в Maxwell, но в ней есть и некоторые функциональные отличия, о которых мы подробно написали ранее.

Видеочип GP106 по своему устройству схож с топовым чипом Pascal и аналогичными решениями архитектуры Maxwell, и подробные данные об устройстве современных GPU вы можете найти в наших обзорах предыдущих решений компании Nvidia. Как и предыдущие графические процессоры, чипы новой архитектуры имеют разную конфигурацию вычислительных кластеров Graphics Processing Cluster (GPC), потоковых мультипроцессоров Streaming Multiprocessor (SM) и контроллеров памяти:

Графический процессор GP106 имеет в своем составе два кластера GPC, состоящие из 10 потоковых мультипроцессоров (Streaming Multiprocessor - SM), то есть ровно половину от имеющегося в GP104. Как и в старшем GPU, каждый из мультипроцессоров содержит по 128 вычислительных ядер, по 8 текстурных блоков TMU, по 256 КБ регистровой памяти, по 96 КБ общей памяти и по 48 КБ кэш-памяти первого уровня. В результате, GeForce GTX 1060 содержит в целом 1280 вычислительных ядер и 80 текстурных модулей - вдвое меньше, чем у GTX 1080.

А вот подсистема памяти GeForce GTX 1060 не была урезана вдвое относительно топового решения, она содержит шесть 32-битных контроллеров памяти, дающих итоговую 192-битную шину памяти. При эффективной частоте GDDR5-видеопамяти для GeForce GTX 1060, равной 8 ГГц, пропускная способность достигает 192 ГБ/с, что для решения такого ценового сегмента весьма неплохо, особенно с учетом высокой эффективности ее использования в Pascal. К каждому из контроллеров памяти привязаны восемь блоков ROP и 256 КБ кэш-памяти второго уровня, поэтому в целом полная версия графического процессора GP106 содержит 48 блоков ROP и 1536 КБ L2-кэша.

Для снижения требований к пропускной способности памяти и более эффективного использования имеющейся в архитектуре Pascal было дополнительно улучшено внутричиповое сжатие информации без потерь, которое способно сжимать данные в буферах, получая прирост в эффективности и производительности. В частности, в чипах нового семейства были добавлены новые методы дельта-сжатия с соотношением 4:1 и 8:1, обеспечивающие дополнительные 20% к эффективности ПСП по сравнению с предыдущими решениями семейства Maxwell.

Базовая частота нового GPU равна 1506 МГц - ниже этой отметки частота не должна опускаться в принципе. Типичная турбо-частота (Boost Clock) намного выше и равна 1708 МГц - это среднее значение реальной частоты, на которой работает графический чип GeForce GTX 1060 в большом наборе игр и 3D-приложений. Реальная Boost-частота зависит от игры и условий, в которых происходит тестирование.

Как и остальные решения семейства Pascal, модель GeForce GTX 1060 не просто работает на высокой тактовой частоте, обеспечивая высокую производительность, но имеет и приличный запас по возможности разгона. Первые опыты говорят о возможности достижения частот порядка 2 ГГц. Неудивительно, что партнеры компании готовят в том числе и фабрично разогнанные варианты видеокарты модели GTX 1060.

Итак, главным изменением новой архитектуры стал технологический процесс 16 нм FinFET, применение которого при производстве GP106 позволило значительно повысить сложность чипа при сохранении сравнительно невысокой площади в 200 мм², поэтому данный чип архитектуры Pascal имеет заметно большее количество исполнительных блоков по сравнению с чипом Maxwell похожего позиционирования, произведенным с применением техпроцесса 28 нм.

Если GM206 (GTX 960) с площадью в 227 мм² имел под 3 млрд. транзисторов и 1024 ALU, 64 TMU, 32 ROP и 128-битную шину, то новый GPU вместил в 200 мм² уже 4,4 млрд. транзисторов, 1280 ALU, 80 TMU и 48 ROP с 192-битной шиной. Да еще при почти в полтора раза более высокой частоте: 1506 (1708) против 1126 (1178) МГц. И это при одинаковом энергопотреблении в 120 Вт! В итоге, графический процессор GP106 стал одним из самых энергоэффективных графических процессоров, вместе с GP104.

Новые технологии Nvidia

Одной из самых интересных технологий компании, которая поддерживается GeForce GTX 1060 и другими решениями семейства Pascal, является технология Nvidia Simultaneous Multi-Projection . Мы уже писали об этой технологии в обзоре GeForce GTX 1080, она позволяет использовать несколько новых техник для оптимизации рендеринга. В частности - одновременно проецировать VR-изображение сразу для двух глаз, в разы повышая эффективность использования GPU в условиях виртуальной реальности.

Для поддержки SMP во всех графических процессорах семейства Pascal есть специальный движок, который находится в PolyMorph Engine в конце геометрического конвейера перед блоком растеризации. С его помощью GPU может одновременно проецировать геометрический примитив на несколько проекций из одной точки, при этом эти проекции могут быть стерео (т. е. поддерживается до 16 или 32 проекций одновременно). Эта возможность позволяет графическим процессорам Pascal точно воспроизводить искривленную поверхность для VR-рендеринга, а также корректно выводить изображение на многомониторные системы.

Важно, что технология Simultaneous Multi-Projection уже сейчас интегрируется в популярные игровые движки (Unreal Engine и Unity) и игры, и на сегодняшний день о поддержке технологии заявлено для более чем 30 игр, находящихся в разработке, включая такие известные проекты, как Unreal Tournament, Poolnation VR, Everest VR, Obduction, Adr1ft и Raw Data. Интересно, что хотя Unreal Tournament не является VR-игрой, но в ней SMP используется для достижения более качественной картинки и повышения производительности.

Еще одной долгожданной технологией стал мощный инструмент для создания скриншотов в играх Nvidia Ansel . Этот инструмент позволяет создавать необычные и очень качественные скриншоты из игр, с ранее недоступными возможностями, сохраняя их в очень высоком разрешении и дополняя различными эффектами, и делиться своими произведениями. Ansel позволяет буквально построить скриншот так, как этого хочет художник, разрешая установить камеру с любыми параметрами в любую точку сцены, наложить на изображение мощные постфильтры или даже сделать 360-градусный снимок для просмотра в шлеме виртуальной реальности.

Nvidia стандартизировала интеграцию пользовательского интерфейса Ansel в игры, и сделать это очень просто - достаточно добавить в код несколько строк. Ждать появления этой возможности в играх уже не нужно, оценить способности Ansel прямо сейчас можно в игре Mirror’s Edge: Catalyst, а чуть позже она станет доступна и в Witcher 3: Wild Hunt. Кроме этого, в разработке находятся множество игровых проектов с поддержкой Ansel, включая такие игры, как Fortnite, Paragon и Unreal Tournament, Obduction, The Witness, Lawbreakers, Tom Clancy’s The Division, No Man’s Sky и другие.

Также новый графический процессор GeForce GTX 1060 поддерживает пакет инструментов Nvidia VRWorks , помогающий разработчикам создавать впечатляющие проекты для виртуальной реальности. Этот пакет включает множество утилит и инструментов для разработчиков, в том числе и VRWorks Audio, позволяющий выполнять очень точный расчет отражений звуковых волн от объектов сцены при помощи трассировки лучей на GPU. Также пакет включает интеграцию в VR и физических эффектов PhysX, чтобы обеспечить физически корректное поведение объектов в сцене.

Одной из самых ярких виртуальных игр, получившей преимущество от VRWorks, стала VR Funhouse - игра в виртуальной реальности самой Nvidia, которая бесплатно доступна в сервисе Valve Steam. Эта игра основана на движке Unreal Engine 4 (Epic Games), и она работает на видеокартах GeForce GTX 1080, 1070 и 1060 в связке с VR-шлемами HTC Vive. Мало того, исходный код этой игры будет публично доступен, что позволит другим разработчикам использовать готовые идеи и код уже в своих VR-аттракционах. Поверьте нам на слово, это одна из самых впечатляющих демонстраций возможностей виртуальной реальности.

В том числе благодаря технологиям SMP и VRWorks, использование графического процессора GeForce GTX 1060 в VR-приложениях обеспечивает вполне достаточную для начального уровня виртуальной реальности производительность, и рассматриваемый GPU соответствует минимальному требуемому аппаратному уровню в том числе для SteamVR, становясь одним из наиболее удачных приобретений для использования в системах с официальной поддержкой VR.

Так как модель GeForce GTX 1060 основана на чипе GP106, который по возможностям ничем не уступает графическому процессору GP104, ставшему основой для старших модификаций, то она поддерживает абсолютно все технологии, описанные нами выше.

Видеокарта GeForce GTX 1060 стала третьей моделью в новой линейке компании Nvidia, основанной на графических процессорах семейства Pascal. Новый технологический процесс 16 нм FinFET и оптимизации архитектуры позволили всем новым видеокартам достичь высокой тактовой частоты и разместить в GPU большее количество функциональных блоков в виде потоковых процессоров, текстурных модулей и других, по сравнению с видеочипами предыдущего поколения. Именно поэтому модель GTX 1060 стала самым выгодным и энергоэффективным решением и в своем классе и вообще.

Особенно важно то, что GeForce GTX 1060 предлагает достаточно высокую производительность и поддержку новых возможностей и алгоритмов при значительно меньшей цене, по сравнению со старшими решениями на GP104. Графический чип GP106, использующийся в новой модели, обеспечивает лучшую в классе производительность и энергоэффективность. Модель GeForce GTX 1060 специально спроектирована и отлично подойдет для всех современных игр при высоких и максимальных графических настройках в разрешении 1920x1080 и даже с включенным полноэкранным сглаживанием различными методами (FXAA, MFAA или MSAA).

А для желающих получить еще более высокую производительность при наличии дисплеев со сверхвысоким разрешением, у Nvidia есть топовые модели видеокарт GeForce GTX 1070 и GTX 1080, которые также весьма хороши по производительности и энергоэффективности. И все же сочетание низкой цены и достаточной производительности весьма выгодно отличает GeForce GTX 1060 на фоне старших решений. По сравнению с конкурирующей Radeon RX 480, решение Nvidia несколько быстрее при меньшей сложности и площади GPU, и имеет значительно лучшую энергоэффективность. Правда, она продается несколько дороже, так что у каждой видеокарты есть собственная ниша.