Главная / Новости / новости IT-рынка / Новая статья: Итоги 2016 года: графические ускорители

Новости

Новая статья: Итоги 2016 года: графические ускорители
09.01.2017, 21:00:00

p>В 2016 году наконец сбылись надежды на полноценную смену поколений в графических процессорах, которую раньше тормозило отсутствие производственных возможностей, необходимых для того, чтобы выпустить чипы с существенно более высокой плотностью транзисторов и тактовыми частотами, чем позволял проверенный техпроцесс 28 нм. 20-нанометровая технология, на которую мы рассчитывали два года тому назад, оказалась коммерчески невыгодной для столь крупных микросхем, как дискретные GPU. Т. к. TSMC и Samsung, которые могли бы выступить подрядчиками для AMD и NVIDIA, не использовали FinFET при норме 20 нм, потенциальное увеличение производительности на ватт по сравнению с 28 нм оказалось таковым, что обе компании предпочли подождать массового внедрения 14/16-нм норм, уже с применением FinFET. Однако годы томительного ожидания прошли, и теперь мы можем оценить, как производители GPU распорядились возможностями обновленного техпроцесса. Как в очередной раз показала практика, «нанометры» сами по себе не гарантируют высокой энергоэффективности чипа, поэтому новые архитектуры NVIDIA и AMD оказались очень непохожи по этому параметру. А дополнительную интригу внес тот факт, что компании больше не пользуются услугами одной фабрики (TSMC), как это было в прошлые годы. AMD предпочла GlobalFoundries для производства GPU линейки Polaris на базе технологии 14 нм FinFET. NVIDIA, с другой стороны, по-прежнему сотрудничает с TSMC, обладающей процессом 16 нм FinFET, в работе над всеми чипами Pascal, за исключением младшего GP107 (который выпускает Samsung). Именно линия Samsung 14 нм FinFET была в свое время лицензирована GlobalFoundries, поэтому GP107 и его соперник Polaris 11 дают нам удобную возможность сравнить инженерные достижения AMD и NVIDIA на схожей производственной базе. Впрочем, не будем преждевременно погружаться в технические подробности. В целом предложения обеих компаний на базе GPU нового поколения выглядят следующим образом. NVIDIA создала полную линейку ускорителей архитектуры Pascal на основе трех GPU потребительского класса — GP107, GP106 и GP104. Однако место флагманского адаптера, который наверняка получит имя GeForce GTX 1080 Ti, сейчас вакантно. Кандидатом на эту позицию является карта с процессором GP102, который пока применяется только в «просьюмерском» ускорителе NVIDIA TITAN X. И наконец, главной гордостью NVIDIA стал чип GP100, который компания, по всей видимости, даже не собирается внедрять в игровые продукты и оставила для ускорителей вычислений Tesla. Успехи AMD пока скромнее. Были выпущены два процессора семейства Polaris, продукты на основе которых относятся к нижней и средней категориям игровых видеокарт. Верхние эшелоны займут грядущие GPU семейства Vega, в которых, как ожидается, будет представлена всесторонне модернизированная архитектура GCN (в то время как Polaris с этой точки зрения не столь существенно отличается от 28-нанометровых чипов Fiji и Tonga). ⇡#NVIDIA Tesla P100 и новый TITAN X Стараниями Жэнь-Сунь Хуана, бессменного руководителя NVIDIA, компания уже позиционирует себя как производителя вычислительных процессоров широкого назначения в не меньшей степени, чем производителя игровых GPU. Сигналом того, что NVIDIA воспринимает суперкомпьютерный бизнес как никогда серьезно, стало разделение линейки графических процессоров Pascal на игровые позиции, с одной стороны, и вычислительные, с другой. Как только техпроцесс 16 нм FinFET вошел в строй на TSMC, NVIDIA направила первые усилия на выпуск суперкомпьютерного чипа GP100, который дебютировал раньше, чем потребительские продукты линейки Pascal. Отличительными свойствами GP100 стало беспрецедентное число транзисторов (15,3 млрд) и шейдерных ALU (3840 ядер CUDA). Кроме того, это первый ускоритель, который оснащен памятью типа HBM2 (объемом 16 Гбайт), объединенной с GPU на кремниевой подложке. GP100 используется в составе ускорителей Tesla P100, поначалу ограниченных сферой суперкомпьютеров в силу специального форм-фактора с шиной NVLINK, но впоследствии NVIDIA выпустила Tesla P100 и в стандартном формате платы расширения PCI Express. Изначально эксперты предполагали, что P100 может появиться в игровых видеокартах. NVIDIA, видимо, не отрицала такую возможность, ведь чип обладает полноценным конвейером для рендеринга 3D-графики. Но теперь очевидно, что он вряд ли когда-либо выйдет за пределы вычислительной ниши. Для графики у NVIDIA есть родственный продукт — GP102, который обладает таким же набором шейдерных ALU, блоков наложения текстур и ROP, как и GP100, но лишен балласта в виде большого количества 64-битных ядер CUDA, не говоря уже о прочих архитектурных изменениях (меньше планировщиков, урезанный кеш L2 и пр.). В результате получилось более компактное (12 млрд транзисторов) ядро, что, в совокупности с отказом от памяти HBM2 в пользу GDDR5X, позволило NVIDIA распространить GP102 на более широкий рынок. Сейчас GP102 зарезервирован для просьюмерского ускорителя TITAN X (не путать с GeForce GTX TITAN X на базе чипа GM200 архитектуры Maxwell), который позиционируется как плата для вычислений сниженной точности (в диапазоне от 8 до 32 бит, среди которых 8 и 16 — излюбленное NVIDIA глубинное обучение) даже в большей степени, чем для игр, хотя состоятельные геймеры могут приобрести видеокарту по цене $1 200. Действительно, в наших игровых тестах TITAN X не оправдывает свою стоимость при 15-20-процентном преимуществе перед GeForce GTX 1080, но на помощь приходит оверклокинг. Если сравнивать разогнанные GTX 1080 и TITAN X, то последний окажется уже на 34% быстрее. Впрочем, новый игровой флагман на базе GP102, скорее всего, будет иметь меньше активных вычислительных блоков либо потеряет поддержку каких-либо вычислительных функций (либо и то и другое вместе). В целом выпустить столь массивные GPU, как GP100 и GP102, на раннем этапе освоения техпроцесса 16 нм FinFET — большое достижение для NVIDIA, особенно если принять в расчет трудности, с которыми столкнулась компания в период 40 и 28 нм. ⇡#NVIDIA GeForce GTX 1070 и 1080 Линейку игровых ускорителей GeForce 10-й серии NVIDIA развернула в привычной для себя последовательности — от самых мощных моделей к более бюджетным. GeForce GTX 1080 и другие геймерские карты архитектуры Pascal, выпущенные впоследствии, наиболее ярко показали, что NVIDIA в полной мере реализовала возможности техпроцесса 14/16 нм FinFET, чтобы сделать микросхемы более плотными и энергоэкономичными. Кроме того, создавая Pascal, NVIDIA не только повысила производительность в различных расчетных задачах (как показал пример GP100 и GP102), но и дополнила архитектуру чипов Maxwell функциями, оптимизирующими рендеринг графики. Кратко отметим основные нововведения: улучшенная компрессия цвета с соотношениями вплоть до 8:1; функция Simultaneous Multi-Projection геометрического движка PolyMorph Engine, позволяющая за один проход создавать вплоть до 16 проекций геометрии сцены (для VR и систем с несколькими дисплеями в конфигурации NVIDIA Surround); возможность прерывания (preemption) в процессе исполнения draw call (при рендеринге) и потока команд (при вычислениях), которая вместе с динамическим распределением вычислительных ресурсов GPU обеспечивает полноценную поддержку асинхронных вычислений (Async Compute) — дополнительного источника быстродействия в играх под API DirectX 12 и сниженной латентности в VR. Последний пункт особенно интересен, т. к. чипы Maxwell технически были совместимы с асинхронными вычислениями (одновременная работа с вычислительной и графической очередью команд), но производительность в таком режиме оставляла желать лучшего. Асинхронные вычисления в Pascal работают так, как нужно, позволяя более эффективно загружать GPU в играх с отдельным потоком для расчетов физики (хотя, надо признать, для чипов NVIDIA проблема полной загрузки шейдерных ALU стоит не столь остро, как для GPU от AMD). Процессор GP104, который используется в GTX 1070 и GTX 1080, является преемником GM204 (чипа второго эшелона в семействе Maxwell), однако NVIDIA добилась столь высоких тактовых частот, что быстродействие GTX 1080 превышает показатели GTX TITAN X (на основе более крупного GPU) в среднем на 29%, и все это в рамках более консервативного теплового пакета (180 против 250 Вт). Даже GTX 1070, «порезанный» намного сильнее, чем в свое время был «порезан» GTX 970 по сравнению с GTX 980 (кроме того, в GTX 1070 используется память GDDR5 вместо GDDR5X в GTX 1080), все еще на 5% быстрее, чем GTX TITAN X. NVIDIA обновила контроллер дисплея в Pascal, который теперь совместим с интерфейсами DisplayPort 1.3/1.4 и HDMI 2.b, а значит — позволяет выводить по одному кабелю картинку с повышенным разрешением или частотой обновления — вплоть до 5К при 60 Гц либо 4К при 120 Гц. 10/12-битное представление цвета обеспечивает поддержку динамического диапазона (HDR) на немногочисленных пока экранах, обладающих такой возможностью. Выделенный аппаратный блок Pascal способен кодировать и декодировать видео формата HEVC (H.265) с разрешением вплоть до 4К, 10-битным цветом (12 бит при декодировании) и частотой 60 Гц. Наконец, в Pascal ушли ограничения, свойственные прошлой версии шины SLI. Разработчики подняли частоту интерфейса и выпустили новый, двухканальный мостик. Более подробно об этих особенностях архитектуры Pascal вы можете прочитать в нашем обзоре GeForce GTX 1080. Однако прежде чем перейти к другим новинкам прошедшего года, стоит упомянуть, что в 10-й линейке GeForce NVIDIA впервые будет выпускать карты референсного дизайна в течение всего срока жизни соответствующих моделей. Они теперь носят название Founders Edition и продаются дороже розничной цены, рекомендованной для партнерских видеокарт. К примеру, для GTX 1070 и GTX 1080 рекомендованные цены составляют $379 и $599 (что уже выше, чем для GTX 970 и GTX 980 в период их молодости), а версии Founders Edition оценены в $449 и $699. ⇡#GeForce GTX 1050 и 1060 Чип GP106 распространил архитектуру Pascal в массовый сегмент игровых ускорителей. Функционально он ничем не отличается от старших моделей, а по количеству вычислительных блоков это половина GP104. Правда GP106, в отличие от GM206 (который был половиной GM204), использует 192-битную шину памяти. Кроме того, NVIDIA удалила разъемы SLI с платы GTX 1060, огорчив любителей постепенного апгрейда видеоподсистемы: когда этот ускоритель исчерпает свои возможности, вторую видеокарту к нему уже не добавишь (кроме как для тех игр под DirectX 12, которые позволяют распределять нагрузку между GPU в обход драйвера). GTX 1060 изначально оснащался 6 Гбайт GDDR5, полностью функциональным чипом GP106 и поступил в продажу по цене $249/299 (партнерские карты и Founders Edition соответственно). Но затем NVIDIA выпустила видеокарту с 3 Гбайт памяти и рекомендованной ценой $199, в которой сокращено и число вычислительных блоков. Обе видеокарты обладают привлекательным TDP 120 Вт, а по быстродействию являются аналогами GeForce GTX 970 и GTX 980. GeForce GTX 1050 и GTX 1050 Ti принадлежат к самой нижней категории, освоенной архитектурой Pascal. Но как бы скромно они ни смотрелись на фоне старших собратьев, в бюджетной нише NVIDIA сделала наибольший шаг вперед. GTX 750/750 Ti, которые занимали ее раньше, относятся к первой итерации архитектуры Maxwell, поэтому GTX 1050/1050 Ti, в отличие от прочих ускорителей семейства Pascal, продвинулись не на одно, а на полтора поколения. Благодаря существенно более крупному GPU и памяти, работающей на повышенной частоте, GTX 1050/1050 Ti нарастили производительность по сравнению со своими предшественниками сильнее, чем какие-либо другие представители серии Pascal (разница в 90% между GTX 750 Ti и GTX 1050 Ti). И хотя GTX 1050/1050 Ti потребляют немного больше энергии (75 против 60 Вт), они все еще укладываются в нормы мощности для плат PCI Express, лишенных разъема дополнительного питания. Младшие ускорители NVIDIA не выпускала в формате Founders Edition, а рекомендованные розничные цены составили $109 и $139. ⇡#AMD Polaris: Radeon RX 460/470/480 Ответом на Pascal со стороны AMD стало семейство чипов Polaris. Линейка Polaris сейчас включает всего два чипа, на основе которых AMD производит три видеокарты (Radeon RX 460, RX 470 и RX 480), в которых дополнительно варьирует объем набортной RAM. Как легко заметить даже по модельным номерам, в 400-й серии Radeon верхний эшелон производительности остался не занят. AMD предстоит наполнить его продуктами на базе кремния Vega. Еще в эпоху 28 нм AMD приобрела такую привычку — обкатывать нововведения на относительно мелких чипах и лишь затем внедрять во флагманских GPU. Сразу нужно заметить, что в случае AMD новое семейство графических процессоров не тождественно новой версии подлежащей архитектуры GCN (Graphics Core Next), а отражает сочетание архитектуры и прочих особенностей продукта. Для GPU, построенных по новому техпроцессу, AMD отказалась от различных «островов» в кодовом имени (Northern Islands, South Islands и т. д.) и обозначает их именами звезд. Тем не менее архитектура GCN в Polaris получила очередное, третье по счету обновление, благодаря которому (вместе с переходом на техпроцесс 14 нм FinFET) AMD существенно увеличила производительность на ватт. Compute Unit — элементарная форма организации шейдерных ALU в GCN — претерпел ряд изменений, связанных с предвыборкой и кешированием инструкций, обращениями к кешу L2, которые в совокупности повысили удельную производительность CU на 15%. Появилась поддержка вычислений половинной точности (FP16), которые используются в программах компьютерного зрения и машинного обучения. GCN 1.3 предоставляет прямой доступ к внутреннему набору инструкций (ISA) потоковых процессоров, за счет которого разработчики могут писать максимально «низкоуровневый» и быстрый код — в противоположность шейдерным языкам DirectX и OpenGL, абстрагированным от железа. Геометрические процессоры теперь способны на ранних этапах конвейера исключать полигоны нулевого размера либо полигоны, не имеющие пикселов в проекции, и получили кеш индексов, снижающий поглощение ресурсов при рендеринге мелкой дублирующейся геометрии. Кеш L2 удвоенного объема. Кроме того, инженеры AMD приложили большие усилия, чтобы заставить Polaris работать на как можно более высокой частоте. Частота GPU теперь контролируется с минимальной латентностью (задержка меньше 1 нс), а кривую напряжения карта корректирует при каждой загрузке ПК, дабы принять в расчет разброс параметров между отдельными чипами и старение кремния в процессе эксплуатации. Тем не менее переход на техпроцесс 14 нм FinFET не прошел гладко для AMD. Действительно, компания смогла увеличить производительность на ватт на 62% (судя по результатам Radeon RX 480 и Radeon R9 380X в игровых тестах и паспортному TDP карт). Однако максимальные частоты Polaris не превышают 1266 МГц, и лишь некоторые из партнеров-производителей достигли большего, дополнительно поработав над охлаждением и системой питания. С другой стороны, видеокарты GeForce по-прежнему сохраняют лидерство по соотношению быстродействие — мощность, которого NVIDIA достигла еще в поколении Maxwell. Похоже, что AMD на первом этапе не смогла раскрыть всех возможностей техпроцесса нового поколения, либо сама архитектура GCN уже требует глубокой модернизации — последняя задача осталась на долю чипов Vega. Ускорители на базе Polaris занимают ценовой промежуток от $109 до $239 (см. таблицу), хотя в ответ на появление GeForce GTX 1050/1050 Ti AMD снизила цены на две младшие карты до $100 и $170 соответственно. На данный момент в каждой категории цены/производительности наблюдается одинаковое соотношение сил между конкурирующими продуктами: GeForce GTX 1050 Ti быстрее, чем Radeon RX 460 с 4 Гбайт RAM, GTX 1060 с 3 Гбайт памяти быстрее, чем RX 470, а полноценный GTX 1060 опережает RX 480. Вместе с тем видеокарты AMD стоят дешевле, а значит — пользуются популярностью. ⇡#AMD Radeon Pro Duo Отчет о минувшем годе в сфере дискретных GPU будет не полон, если мы проигнорируем еще одну из «красных» видеокарт. Покуда AMD еще не выпустила флагманский однопроцессорный видеоадаптер на замену Radeon R9 Fury X, у компании оставался в запасе один проверенный ход, чтобы продолжить покорение новых рубежей, — установить два чипа Fiji на одну плату. Эта карта, выход которой AMD не раз переносила, все-таки появилась в продаже незадолго до GeForce GTX 1080, но попала в категорию профессиональных ускорителей Radeon Pro и позиционировалась как платформа для создания игр в среде VR. Для геймеров при цене в $1 499 (дороже пары Radeon R9 Fury X на момент выхода) Radeon Pro Duo не представляет интереса, и у нас даже не было возможности протестировать эту карту. А жаль, ведь с технической точки зрения Radeon Pro Duo выглядит интригующе. Паспортный TDP карты вырос лишь на 27% по сравнению с Fury X при том, что пиковые частоты процессоров AMD снизила на 50 МГц. Ранее AMD уже удалось выпусить удачную двухпроцессорную видеокарту — Radeon R9 295X2, так что заявленные производителем спецификации не вызывают особого скепсиса. Чего ждать в 2017 году Главные ожидания на грядущий год связаны с AMD. NVIDIA, скорее всего, ограничится выпуском флагманской игровой карты на базе GP102 под именем GeForce GTX 1080 Ti и, быть может, заполнит другую вакансию в 10-й серии GeForce — GTX 1060 Ti. В остальном линейка ускорителей Pascal уже сформирована, а дебют следующей архитектуры, Volta, запланирован лишь на 2018 год. Как и в сфере CPU, AMD собрала все силы для разработки по-настоящему прорывной микроархитектуры графических процессоров, в то время как Polaris стал лишь перевалочным пунктом на пути к последней. Предположительно, уже в первом квартале 2017 года компания впервые выпустит на массовый рынок свой лучший кремний, Vega 10 (а вместе с ним или впоследствии — один или несколько младших чипов линейки). Наиболее достоверным свидетельством его возможностей стал анонс вычислительной карты MI25 в линейке Radeon Instinct, которая позиционируется в качестве ускорителя задач глубинного обучения. Судя по спецификациям, в ее основе лежит не что иное, как Vega 10. Карта развивает вычислительную мощность 12,5 TFLOPS в расчетах одинарной точности (FP32) — это больше, чем у TITAN X на GP102, — и оснащается 16 Гбайт памяти HBM2. TDP видеокарты лежит в пределах 300 Вт. О реальном быстродействии процессора можно только гадать, однако известно, что Vega принесет наиболее масштабное обновление микроархитектуры GPU со времен выхода первых чипов на базе GCN пять лет тему назад. Последнее заметно улучшит показатели производительности на ватт и позволит более эффективно распорядиться вычислительной мощностью шейдерных ALU (в которой чипы AMD традиционно не испытывают недостатка) в игровых приложения. Также ходят слухи, что инженеры AMD теперь в совершенстве овладели техпроцессом 14 нм FinFET и компания готова выпустить вторую версию видеокарт Polaris со значительно более низким TDP. Как нам кажется, если это соответствует действительности, то обновленные чипы скорее пойдут в линейку Radeon RX 500, чем получат увеличенные индексы в существующей 400-й серии. Источник: 3DNews