Главная / Видеокарты

Видеокарты


Обзор видеокарты PowerColor Radeon HD 2900 XT 512 MB

Показать одной страницей Печать Написать письмо 0
Содержание:
Одной страницей

Для мира высокопроизводительных ускорителей трехмерной графики всевозможные задержки – обычное явление. Все мы знаем, что чип R600 – ответ объединенной AMD на успешное решение NVIDIA – пришел на рынок значительно позже, чем его ждали. Однако мы не ставим себе целью анализировать причины задержки (а среди них и сопутствующие слиянию сложности, и финансовые трудности, и порой неизбежные для многих компаний проблемы на этапе производства), а вот результаты трудов канадско-американского альянса проанализировать попробуем.  

Факты таковы, что 14 мая 2007 года компания AMD представила широкой публике "почти топовый" ускоритель на базе R600 – Radeon HD 2900 XT, анонсировала ускорители начального уровня Radeon HD 2400 и Radeon HD 2600, а также пообещала выпустить этим летом "убийцу" GeForce 8800 Ultra – Radeon HD 2900 XTX. Таким образом, новая архитектура представлена фактически одной видеокартой, и ссылаться мы будем в основном на нее, лишь в паре мест указав на отличия урезанных и продвинутой версий.  

Чип R600. За что боролись?

А боролись производители фактически за полностью адаптированную к последней версии графического API DirectX архитектуру. Давайте посмотрим, что приносит нам версия за номером 10 одного из ведущих современных API. В таблице сведены воедино основные параметры интерфейсов, и можно количественно оценить произошедшие при переходе к DirectX 10 изменения.  

Версия API

DirectX 8

DirectX 9

DirectX 9.0c

DirectX 10

Версия шейдеров

1.1/1.4

2.0

3.0

4.0

Вершинных инструкций

128

256

512

65536

Пиксельных инструкций

4+8

32+64

512

65536

Вершинных констант

96

256

256

16x4096

Пиксельных констант

8

32

224

16x4096

Вершинных переменных

16

16

16

4096

Пиксельных переменных

2

12

32

4096

Потоков вершин

16

16

16

16

Потоков пикселей

4+2

8+2

10

32

Мишеней рендеринга

1

4

4

8

Вершинных текстур

-

-

4

128

Пиксельных текстур

8

16

16

128

Размер текстуры, точек

 

 

2048x2048

8192x8192

Целочисленные операции

-

-

-

+

Производные

-

-

+

+

Управление обработкой вершин

-

статическое

статическое или динамическое

динамическое

Управление обработкой пикселей

-

-

статическое или динамическое

динамическое

Виртуальная видеопамять

-

-

-

+

Произвольный доступ к данным из шейдеров

-

-

-

+

Поддержка формата IEEE 754

-

-

-

+

Как видно из таблицы, при переходе к DirectX 10 наблюдается целый ряд тенденций. Во-первых, это количественное усложнение шейдерных инструкций, благодаря которому становятся возможными все более и более реалистичные и сложные эффекты. Причем переход от DirectX 9.0c к 10-й версии вызвал весьма серьезное увеличение числа поддерживаемых инструкций, и если вспомнить, что даже современные игры в основной своей массе находятся по сложности инструкций на уровне шейдеров версии 2.0, становится понятно, с каким серьезным запасом сделан новый API.  

Во-вторых, и это более важно, DirectX 10 обеспечивает некоторые качественные изменения в самом подходе к рендерингу картинки. Во-первых, наконец введена поддержка свопинга текстур на уровне API, проще говоря, теперь любая DirectX 10-видеокарта может пользоваться оперативной памятью в качестве текстурного буфера. Ранее такие технологии под видом проприетарных решений (например, P10 компании 3Dlabs) уже выступали на рынке, но не получили широкого распространения. Теперь же локальная видеопамять может служить лишь кэшем для тех текстур, которые нужны в данный момент, а дополнительные текстуры по мере надобности могут подгружаться из оперативной памяти. В итоге геймдевелоперы получают возможность использовать текстуры фантастически высокого разрешения и качества. Кроме того, малое количество памяти (порядка 128 MB) теперь перестанет быть бутылочным горлышком для недорогих видеокарт.  

Обзор

Правильнее называть DirectX 10 в контексте нового графического конвейера Windows Vista – WGF 2.0 (от Windows Graphics Foundation). 

Производители видеокарт с поддержкой DirectX 10 поставлены в довольно жесткие условия. Каждая совместимая видеокарта обязана понимать только шейдерные инструкции, написанные на языке HLSL (High Level Shader Language – язык шейдеров высокого уровня). В результате ситуация "формальной" поддержки новой версии API, как это было в свое время с семейством GeForce 3, уже не повторится. Имеющиеся же у каждой видеокарты с поддержкой DX10 унифицированные шейдерные блоки не являются прямым следствием требований нового API, но логически вытекают из его спецификаций (взгляните хотя бы на симметричность требований по пиксельным и вершинным шейдерам, в частности, на 32-битную точность). Таким образом, выделять блоки с разной структурой для обработки пиксельных и вершинных шейдеров уже невыгодно экономически, что и было преподнесено нам как унифицированная шейдерная архитектура как NVIDIA, так и AMD. Справедливости ради добавим, что впервые унифицированная шейдерная архитектура была использована ATI в чипе Xenos, представляющем графическое ядро консоли Xbox 360. Сюда же можно записать и новый тип шейдеров – геометрический, хотя при нынешней свободе реализации любого кода на GPU при желании можно изобрести еще с десяток типов шейдеров. 

Обзор

Наконец, DirectX 10 дарует графической архитектуре гибкость, сравнимую с архитектурой центральных процессоров. Это и произвольный доступ к данным из шейдеров, и поддержка целочисленных типов данных и формата IEEE 754, и экспорт промежуточных результатов в память, и более широкие возможности программирования. Из узкоспециализированного ускорителя видеокарта, поддерживающая DirectX 10, превращается в небольшой "компьютер в компьютере". По этой причине DX10-видеокарта становится гибким инструментом, пригодным для решения различных инженерных задач (и поддержка IEEE 754 тут как нельзя кстати).  

Чего новенького? 

Блок-схема чипа R600, которую вы видите перед собой, впечатляет. Собственно на это она и рассчитана, поскольку в ней больше маркетинга, чем полезных сведений. Однако, немного порассуждав, можно вынести ценные данные и из обычного пресс-кита.  

Обзор

Первое, что сильнее всего бросается в глаза, – огромный модуль унифицированных шейдерных блоков (или процессоров). Этот модуль выделяется на фоне таких важных составных частей любого чипа, как блоки записи в буфер кадра или текстурные блоки. Более того, AMD чуть ли не в первую очередь упоминает число потоковых процессоров – 320. Именно на эти 320 процессоров угрохана значительная часть из 720 млн транзисторов, составляющих чип R600. Будучи прочно ассоциированным в умах потребителей с конвейерами рендеринга (коих совсем недавно в видеокартах было 16-24), эти самые потоковые процессоры (Stream Processors, SP) завораживают магией цифр. Ведь у предыдущего поколения видеокарт ATI шейдерных блоков было всего 48 (напомним – при фактическом числе конвейеров 16), да и нынешний G80 может похвастаться только 128-потоковыми процессорами. Чуть позже мы попытаемся раскрыть эту магию чисел, а пока пробежим по узловым моментам новой архитектуры. 

Обзор

Тут же стоит отметить частоту ядра видеокарты – 740 МГц и тот факт, что все модули ядра работают на этой частоте. Для сравнения, шейдерный домен G80 спокойно работает на частоте 1.5 ГГц, чем уже практически удваивает свою производительность по сопоставлению с решением AMD. Память, работающая у Radeon HD 2900 XT на 825 МГц (в перспективе – 1 ГГЦ у XTX-модификации), соединена с ядром по 512-битной шине с архитектурой Ring Bus (дословно – кольцевая шина). В теории это дает AMD преимущество над 384-битной шиной соперника. 

Обзор

Как и контроллер памяти, переработке подвергся специфический для решений AMD модуль под названием Ultra-Threaded Dispatch Processor, или диспетчер потоков. Как и следует из названия, этот модуль ответственен за распределение нагрузки на исполнительные блоки, в первую очередь на потоковые процессоры. Ведь унифицированная шейдерная архитектура с ее гибкостью и возможностью исполнения на одних и тех же блоках различных операций предъявляет серьезные требования к модулю распределения вычислений, которым и является диспетчер потоков. Здесь мы также видим и слабое место архитектуры – даже при заявленном количестве одновременно выполняемых потоков, составляющем тысячи, эффективность архитектуры сильно зависит от софтверной оптимизации. Чем больше на вход диспетчера поступит инструкций, выполнение которых можно распараллелить, тем быстрее будет происходить рендеринг. Таким образом, оптимизацией инструкций на уровне драйвера и самого приложения (игры) можно добиться очень и очень многого. 

Обзор

Совершенно уникальными особенностями R600 являются блоки тесселизации и встроенный аудиокодек, новый адаптивный алгоритм антиалиасинга, выделенный DMA-контроллер системной (!) памяти для работы со свопингом текстур, новый аппаратный видеодекодер и многие другие вещи. О них мы подробнее поговорим ниже, пока же остановимся на сравнении анонсированных карт линейки. 

О пользе масштабируемости

Мы все прекрасно знаем, что мало произвести удачную архитектуру, необходимо также сделать ее легко масштабируемой для всех сегментов рынка. Говоря другими словами, производитель должен иметь возможность, не меняя существенно процесс производства, "штамповать" все новые и новые видеокарты, закрывая самые разные рыночные ниши. Обычно модификаций чипа не слишком много, всего три-четыре, а дальнейшая сегментация идет за счет изменения частот, типа и объема памяти, включения-отключения тех или иных технологий и так далее. Но создать масштабируемую структуру флагманского чипа – важнее всего, и с данной задачей AMD справилась на "отлично". Посмотрим на блок-схемы чипов R600, RV630 и RV610, которые отличаются последовательными упрощениями.  

Обзор

Полную архитектуру R600 мы наблюдаем у серии Radeon HD 2900. В наличии имеются 320 потоковых процессоров (или 64 шейдерных блока – об этой арифметике чуть ниже), 4 SIMD-блока (Single Instruction - Multiple Data), а также по 4 текстурных блока и блока записи в кадровый буфер (ROP).

Обзор

В случае RV630 (этот чип ляжет в основу июльских Radeon HD 2600) мы видим элементарную редукцию – 120 потоковых процессора, 3 SIMD-блока, 2 текстурника и всего один  ROP. Все остальные блоки и технологии на месте, поэтому HD 2600 можно считать прямым наследником HD 2900. 

Обзор

При создании RV610 в AMD пошли на упрощение основной архитектуры. Помимо уменьшенного до 40 числа потоковых процессоров и до двух – SIMD-модулей (текстурные и ROP-блоки представлены в единственном числе),  чип включает в себя упрощенный кэш текстур и не содержит иерархический Z-буфер. И если последний способ экономии транзисторов уже применялся в более ранних решениях AMD, то в случае кэш инженеры пошли на интересное совмещение – в кэше первого уровня складируются как пиксельные, так и вертексные данные. А второго уровня текстурного кэша у RV610 вовсе нет.  

Обзор

Линейка видеокарт AMD в июле будет выглядеть примерно так. Пока что все предельно четко и ясно, и мы будем надеяться, что AMD не станет играть в столь любимые ATI игры с переименованиями. 

В итоге мы видим, что о масштабируемости в AMD позаботились просто прекрасно. Приятно также, что с первого дня вся информация о конкретных изменениях от старшей к младшей модели доступна всем желающим. Сведем имеющиеся данные о модификациях чипов и карт в таблицу, чтобы было понятно, насколько широкого ассортимента решений нам следует ожидать в ближайшее время. 

Чип

R600

RV630

RV610

Число транзисторов, млн

720

390

180

Диапазон частот чипа, МГц

740-800

600-800

525-700

Теоретическая производительность, ГФлоп/c

475

144-192

42-56

Скорость заполнения, млрд пикс./с

47.5

14.4-19.2

4.2-5.6

Скорость обработки полигонов, млн треугольников/с

740

600-800

262-350

Число потоковых процессоров

320 (64)

120 (24)

40 (8)

Число текстурных блоков

4

2

1

Число блоков записи в кадровый буфер

4

4

1

Память типа GDDR4

+

+

-

Память типа GDDR3

+

+

+

Память типа DDR2

-

+

+

Объем памяти, MB

512/1024

256

128/256

Шина памяти, бит

512

128

64

Частота памяти, МГц

825 - 1000

400-1100

400-800

Пропускная способность памяти, GB/s

106 - 128

12.8-35.2

6.4-12.8

Энергопотребление карты, Вт

215

45

25

Поддержка выходов

2x Dual Link DVI, Video-Out

2x Dual-Link DVI, Video-Out

D-Sub, DVI, Video-Out

HDMI со звуком

+

+

+

Техпроцесс, нм

80

65

65

Следует отдельно отметить, что урезанные модификации будут обходиться компании значительно дешевле топовой не только благодаря уменьшенному числу транзисторов и упрощенной архитектуре, но и благодаря более совершенному 65 нм техпроцессу. Флагман Radeon HD 2900 пока не планируется переводить на 65 нм, очевидно, AMD и не планирует продавать слишком много этих карт, делая ставку на традиционно прибыльный mainstream-сегмент.  

Не все шейдерные блоки одинаково полезны 

Уже с первых анонсов стало ясно, что потоковые процессоры AMD – это какие-то иные потоковые процессоры, нежели те, что использует NVIDIA в G80. Если посмотреть на самую первую блок-схему архитектуры R600, то можно заметить, что шейдерные блоки сгруппированы по пять. Такая группа называется суперскалярным процессором, и именно ее следует считать основным структурным  блоком модуля обработки шейдеров. Однако в целях маркетинга AMD считает каждый отдельный ALU (арифметико-логическое устройство), входящий в суперскалярный процессор, за потоковый процессор, откуда и проистекает красивая цифра 320 потоковых процессоров. Приглядимся поближе к одному такому суперскалярному процессору. 

Обзор

Как мы видим, составляющие его ALU (в дальнейшем мы будем называть потоковые процессоры AMD именно так) совсем не равнозначны. Только один из пяти ALU (он обозначен более толстым "кирпичиком") способен исполнять специальные функции, такие, как синус, логарифм, экспонента и так далее. Остальные четыре арифметико-логических устройства предназначены для выполнения операций сложения-умножения, как и обычные ALU в центральных процессорах. Сходство дополняется также поддержкой этими ALU полной 32-битной точности вычислений и инженерного стандарта IEEE 754. Означает это, что на R600 без особого труда можно организовать ускоритель определенных видов вычислений, например, различного рода научных или экономических калькуляций. Каждый из 64 суперскалярных процессоров R600 дополнительно снабжен блоком предсказания ветвлений (еще одна архитектурная аналогия – префетч у CPU), что повышает эффективность работы на шейдерах с большим числом переходов.  

Обзор

Напрямую сравнивать 64 суперскалярных процессора R600 со 128 скалярными потоковыми процессорами G80 нельзя. Во-первых, все 128 процессоров NVIDIA умеют производить как элементарные функции (сложение-умножение), так и специальные (синус, косинус, экспонента), а также целочисленные операции, в то время как только 20% ALU в R600 могут выполнять весь набор данных действий. Но при этом каждая инструкция, поступающая на модуль потоковых процессоров, должна обрабатываться не менее чем 16 потоковыми процессорами для вершин или 32 для пикселей. Итого получается, что за такт G80 способен отработать до 8 вершин или 4 пикселей на одну инструкцию. Для R600 ситуация такова, что каждый ALU всегда обрабатывает одну инструкцию. Число потоков при этом равно числу суперскалярных процессоров, то есть 64 (против 128 потоков у NVIDIA, но с меньшим в разы числом инструкций). Итого мы получаем не только значительно большую параллельность выполнения для шейдеров в R600, но и гораздо большую зависимость от эффективности компиляции. В идеальной ситуации за такт обрабатывается 320 операций. Но сможет ли компилятор нагрузить каждый из ALU своей операцией в реальных приложениях? В худшем случае мы получим только одну операцию на суперскалярный процессор, то есть 64 за такт, а если учесть вдвое более высокую частоту шейдерного домена у G80, получаем серьезное падение производительности.

Обзор

Таким образом, мы видим, что архитектура шейдерных блоков у AMD дает нам колоссальную разбежку между пиковой и минимальной производительностью, а в реальных приложениях почти все зависит от эффективности поданного на GPU кода. К счастью, почти все обрабатываемые величины (значения цвета пикселей, положения вершин и так далее) обычно являются четырехкомпонентными, и при грамотной компиляции будут задействованы, как минимум, 80% всех ALU. NVIDIA же предлагает абсолютно стабильную производительность шейдеров, которая слабо зависит от характера исполняемого кода. В итоге подход у компаний просто разный, и назвать какой-то из них более удачным просто невозможно. Быть может, некоторые точки над i позволит расставить дальнейшая разработка ПО, использующего мощности GPU для неграфических нужд, но пока о прямом сравнении шейдерных архитектур говорить рано.  

Работаем с картинкой 

Мы очень много времени отдали описанию шейдерной архитектуры, в то время как основная часть графики в наших любимых играх – это по-прежнему полигоны и натянутые на них текстуры. Фактически впервые AMD отдельным слайдом в своей презентации упоминает текстурный кэш. Кэш первого уровня имеет объем 64 KB, по 32 KB для вершин и текстур (похоже на L1-кэш для данных и инструкций у CPU), общий же кэш второго уровня равен 256 KB. Текстурных блока у R600 всего четыре. Это весьма небольшое число, и от топового чипа мы могли ожидать большего, однако в компании решили, что будущее за шейдерами и отдали им большую часть транзисторов на чипе.

Обзор

Вообще говоря, это традиционный для ATI подход – концентрироваться на производительности шейдеров, в R580 также было текстурных блоков меньше, чем у конкурентов. Зато текстурники (TMU) в R600 полностью независимы от шейдеров и подключены параллельно суперскалярным процессорам к диспетчеру потоков. Соответственно, TMU могут получать предварительную выборку данных еще до того, как они попадают на шейдерные блоки.  Текстурные блоки R600 похожи по производительности на TMU у G80. Каждый из них способен делать выборку и билинейную фильтрацию 32-битных текстур без потери производительности (при сравнении с 16-битными), либо с двукратной потерей производительности при отображении текстур в полной 32-битной точности (FP32, 32 бита с плавающей запятой). В каждом из TMU имеется по 8 блоков адресации, 20 блоков выборки и 4 блока фильтрации, причем 4 блока адресации и 4 блока выборки работают с вершинами и не нуждаются в фильтрации текстур. Работу с HDR такая архитектура проделывает (в теории) в семь раз быстрее, чем R580, но все равно медленнее, чем архитектура G80.

Блоков записи в буфер кадра (ROP) мы имеем, как и TMU, четыре. Скорость их работы – по четыре пикселя за такт, записываемых в кадровый буфер. Никаких сюрпризов и коренных отличий от решений, использованных в R580. Отличается только заявленная компрессия стенсил-буфера и Z-буфера: до 16:1 (у R580 было 8:1), и до 128:1 при использовании полноэкранного сглаживания по схеме 8x MSAA.

Обзор

Иерархическая структура z- и стенсил-буферов улучшена, что должно благотворно отразиться на скорости в играх, изобилующих трафаретными тенями (тот же Doom 3, в котором карты ATI традиционно проигрывали решениям NVIDIA).  

Больше рельефа, меньше полигонов 

Мы уже знакомы с использованием технологий, призванных создавать эффект объемных поверхностей, не затрачивая лишних полигонов. Это карты нормалей, карты неровностей (бампмэппинг) или даже параллаксмэппинг. На сей раз AMD решила применить в своем чипе технологию тесселяции, ранее использованной в чипе Xenos (Xbox 360). Тесселяция применяется для тех же целей, что и все вышеперечисленные "мэппинги", то есть для увеличения геометрической сложности (рельефности) объектов без увеличения числа реальных полигонов модели при помощи наложения карты смещения. Сама технология, мягко говоря, не новая (ее первое серьезное применение на рынке PC-графики произошло с выходом Matrox Parhelia), а для ее использования (помимо собственно карты смещения) необходима модификация вершинных шейдеров в игре.

Обзор

Тут-то и возникает вопрос: а захотят ли разработчики игр "затачивать" свои шейдеры под одну из существующих на рынке архитектур. В случае Xbox 360, где тесселяция была применена ATI, у разработчиков игр под конкретную платформу не было выбора. К слову сказать, до сих пор не вполне понятно, насколько интенсивно будут использовать тессселяцию порты с Xbox 360 на PC.  У разработчиков же игр на PC такой выбор есть, и в пользу тесселяции указывают многие факты.

Обзор

Во-первых, "экономия" полигонов приводит к повышению производительности – для того, чтобы воссоздать сложную геометрически модель вместо массива вершин, достаточно обработать низкополигональную модель и карту смещения – фактически обычную текстуру (причем не более чем 16-битную).

Обзор

Во-вторых, резко падает потребление видеопамяти (и пропускной способности), что AMD тотчас же проиллюстрировала слайдом.

Обзор

Ну и, наконец, тесселяция позволяет воссоздавать крупные геометрические детали (рельеф местности, складки тканей), тогда как бампмэппинг ограничивается только неровностями, а нормалмэппинг – мелкими деталями. В сочетании же с бампмэппингом тесселяция в состоянии создать очень сложную геометрию там, где использованы всего тысячи или даже сотни полигонов.  

Под перекрестным огнем 

Первая реализация режима рендеринга двумя GPU у ATI была ужасна. Необходимость в мастер-карте, ограничения частоты развертки – эти и многие другие причины оставляли технологию CrossFire далеко позади после SLI. В поколении Radeon X1900 большинство проблем уже было решено, и CrossFire начал набирать обороты, поэтому при появлении Radeon HD 2000 AMD достаточно было закрепить успех количественными изменениями. Посмотрим, что произошло со схемой "перекрестного огня".

Обзор

Как мы и подозревали, ничего по-настоящему существенного. Контроллер многочипового рендеринга встроен в сам графический процессор, поэтому нет никакой необходимости в специальной мастер-карте. Также заявлена поддержка более чем двух GPU (вероятный ответ на Quad SLI, если эта технология NVIDIA станет по-настоящему популярной). Добавился новый режим рендеринга, Alternate Frame Rendering – поочередная обработка картами кадров. Насколько данный режим окажется эффективным, могут показать только тесты.

Ожидаемо появились и новые алгоритмы полноэкранного сглаживания. Только вместо того, чтобы жестко встраивать алгоритм антиалиасинга в ROP, AMD предпочла возложить эту задачу на суперскалярные процессоры. Процесс сглаживания теперь стал программируемым, а новый режим, соответственно, называется CFAA (Custom Filter AA – сглаживание при помощи программируемого фильтра).

Обзор

Действительно, теперь качество сглаживания может улучшаться при обновлении драйверов, а также силами разработчиков игр. Новый алгоритм усреднения и обнаружения краев (на которых и образуется "лесенка") в сочетании с изменяемым весом пикселя вне зоны сглаживания должны уменьшить проблему "замыливания" картинки при использовании FSAA.  

Кино на большом экране 

AMD очень четко позиционирует новое семейство видеокарт, даже младшие его модели, в качестве центра домашнего кинотеатра. Для того чтобы такое позиционирование было оправданным, в компании сделали действительно многое. Это новая технология аппаратного декодирования UVD (Unified Video Decode), это полная поддержка на уровне чипа HDMI/HDCP и встроенная звуковая карта. Последний факт был неожиданностью для многих, ведь теперь, по сути, для обладателей домашних кинотеатров и аудиосистем нет необходимости в отдельной звуковой карте.

Обзор

Конечно же, проблема игрового трехмерного звука (аппаратный EAX) не решается до конца, но для многих пользователей огромным соблазном будет заменить пучок проводов в их системе на один-единственный сигнальный HDMI-кабель. Специальный переходник в комплекте видеокарты позволяет передавать сжатый в любом поддерживаемом стандарте аудиосигнал по HDMI-интерфейсу.

Обзор

Что касается системы защиты контента от копирования HDCP, то теперь все необходимые для этого ключи хранятся в самом GPU вместо специального чипа. Преимуществами такого решения смогут воспользоваться обеспеченные люди, поскольку все необходимое оборудование для работы с HD-видео по HDMI стоит немало. Представьте, 37" или больший дисплей с поддержкой разрешения 1080p, HD DVD или Blu-ray плеер, соответствующая аудиосистема. Даже сам HDMI-кабель стоит немалых денег.

Обзор

Но и для тех, кто в силу финансовых обстоятельств не может себе позволить большой дисплей и вынужден смотреть фильмы на обычном мониторе, AMD приготовила приятный сюрприз. Очередная инкарнация технологии Avivo (аналог NVIDIA PureVideo) под названием Avivo HD (созвучно всему названию серии Radeon HD 2000) включает встроенный декодер практически всех современных видеоформатов UVD, который заметно снижает нагрузку на процессор. А если верить утверждениям специалистов AMD, то еще и повышает само качество видео. Поддерживаются для декодирования все три формата, которые используются в HD-видео: VC-1, H.264 и AVC. В отличие от чипа G80, аппаратному декодированию подвергаются абсолютно все этапы обработки видео. Другими словами, видеокарта напрямую получает поток данных с жесткого диска. Особенно заметной должна быть разгрузка процессора при работе с кодеком H.264. При воспроизведении HD DVD-диска  загрузка должна упасть с 70% для среднестатистического двухъядерного процессора до 10%, что сделает возможным (при установке, скажем, Radeon HD 2400 Pro) создать бюджетную систему на базе какого-нибудь Sempron 3000, способную "потянуть" настоящий High Definition. Впрочем, данные сведения предоставляются самой AMD, и их еще стоит проверить на практике.

Обзор

Присутствует в UVD и декодирование классического MPEG-2, однако на современных процессорах вряд ли будет сколько-нибудь заметным эффект от такой поддержки. Напоследок упомянем и такие, в общем-то, привычные для GPU функции, – аппаратный деблокинг и деинтерлейс изображения, компенсацию движения и фильтрацию.  

Выводы по архитектуре 

Чип R600 – это самый сложный и совершенный GPU в архитектурном плане, выпущенный на данный момент на потребительский рынок. Архитектура R600 – это теория превосходства, теория, согласно которой лучше графического чипа быть на данном этапе не может. У R600 есть две ключевые особенности – это высокая степень программируемости и большое количество дополнительно интегрированных блоков. Что касается первого, то сближение архитектуры графического и центрального процессоров – это палка о двух концах. С одной стороны, потенциальная, пиковая производительность такого чипа достигает фантастических величин, а гибкость, с которой суперскалярные процессоры оперируют данными, позволяют предельно расширить сферу применения ускорителя. С другой стороны, такая высокая степень программируемости делает производительность весьма чувствительной к эффективности работы компилятора. Нынешнее поколение трехмерных приложений еще не ориентировано в такой степени на универсальную архитектуру, поэтому во всей красе чип сможет раскрыть себя только при должном внимании со стороны разработчиков.  

R600 предлагает разработчикам игр эффективный способ увеличить сложность геометрии сцены и моделей, не прибегая к наращиванию числа полигонов – тесселяцию. Воспользоваться этим способом, или нет – это уже решение конкретного геймдевелопера, однако все пользователи консоли Xbox 360 уже смогли оценить этот новый прием в трехмерной графике. Интересные возможности предоставляются и разработчикам ПО для научных и экономических расчетов. Мощность блоков ALU и FPU, входящих в состав графического процессора, сопоставима с мощностью серверных процессоров, и появление ПО с использованием R600 – дело одного только времени. Потребители получили с R600 прекрасный старт, с которого можно начинать построение цифрового домашнего кинотеатра по последнему слову техники. Здесь ключевую роль играют технологии Avivo HD, поддержка HDMI/HDCP встроенными средствами и встроенный же звуковой кодек. 

Что ж, теперь мы уяснили все ключевые моменты архитектуры новоиспеченного AMD Radeon HD 2900 XT, и сейчас мы плавном перейдем от скучной теории к практике. А именно рассмотрим ближе нашего "бойца" PowerColor adeon HD 2900 XT.