Нужны ли Threadripper первого поколения Сравнение с Ryzen.

В рамках прошедшей в мае презентации для инвесторов AMD опубликовала обновление планов по выпуску процессоров на 2019 год. Некоторые вопросы вызвало отсутствие процессоров Ryzen Threadripper третьего поколения. AMD больше не заинтересована в продолжении линейки Ryzen Threadripper или просто перенесла их на более поздний период? Действительно ли у процессоров Ryzen Threadripper осталось достаточно аргументов в пользу их существования?

Ни для кого не секрет, что AMD планирует представить процессоры Ryzen с числом ядер до 16 под сокет AM4, недавно появилось еще одно подтверждение скорого выхода на рынок. В результате процессоры Ryzen достигнут уровня первого поколения Ryzen Threadripper. В случае Ryzen Threadripper 2990WX, нынешнего флагмана AMD HEDT, мы получаем 32 ядра. Процессоры EPYC следующего поколения получат до 64 ядра, что ожидается и для Ryzen Threadripper.

Но тесты процессоров Ryzen Threadripper 2990WX и 2950X, как и моделей HCC и XCC от Intel, а именно Core i9-9980XE и Xeon W-3175X, показали довольно небольшой набор приложений, в которых более 16 ядер имеют смысл. В случае процессоров Ryzen 3000 с 12 и 16 ядрами AMD сможет охватить довольно широкую целевую аудиторию, включив тех пользователей, чьи сценарии смогут выиграть от большого числа ядер, а не только геймеров.

Возникает вопрос: есть ли смысл для AMD продолжать линейку Ryzen Threadripper? Ответ на него не такой простой и зависит от множества факторов. Насколько успешно данные процессоры продаются, чтобы поддерживать эту платформу? Насколько крупный разрыв остается между платформой для энтузиастов и настольными процессорами? И серверными моделями EPYC?

Если верить AMD, компания отбирает для процессоров Ryzen Threadripper лучшие чипы. При этом AMD приходится выбирать между данными моделями и процессорами EPYC, а в нынешнем году фокус AMD явно сместился в сторону серверов. Поэтому не удивляет, что AMD решила сконцентрировать усилия, в первую очередь, на серверном рынке.

Но есть и технические проблемы, которые говорят против выхода процессоров Ryzen Threadripper с 64 ядрами. Платформа TR4 опирается всего на четыре канала памяти. В случае тех же EPYC мы получаем до восьми каналов памяти, которые будут не лишними для 64 ядер, все же данными придется снабжать в два раза большее число ядер. И без смены платформы AMD вряд ли сможет увеличить число каналов памяти. Преимуществом платформы TR4 остается большое число линий PCI Express и тот факт, что число ядер, по крайней мере, в два раза превышает параметры процессоров Ryzen.

Вполне возможно, что один из процессоров EPYC перейдет на рынок рабочих станций, пусть даже выбор соответствующих материнских плат пока не такой обширный. Но если вам действительно нужна альтернатива процессором Xeon для рабочих станций на основе AMD, то решение найти можно, что тоже уменьшает актуальность процессоров Ryzen Threadripper. AMD может дать вполне «вкусную» альтернативу, сменив позиционирование некоторых моделей EPYC, а также попросить партнеров представить соответствующие материнские платы для рабочих станций.

Наконец, есть информация от производителей материнских плат: модели на платформе TR4 или чипсете X399 продаются не так хорошо, как хотелось бы. Поэтому и с данной стороны интерес к продолжению платформы TR4 не такой существенный.

Процессоры Ryzen и EPYC остаются в фокусе AMD, а процессоры Ryzen Threadripper, по всей видимости, изначально планировались в качестве «специального проекта» без длительных перспектив. В любом случае, они помогли AMD усилить бренд и давление на конкурента. Без процессоров Ryzen и Ryzen Threadripper мы вряд ли получили 8-ядерные процессоры на настольных ПК, не говоря уже о скором увеличении числа ядер до 12 или даже 16.

AMD наверняка раскроет более подробные планы насчет процессоров Ryzen Threadripper на Computex в конце мая.

Threadripper против EPYC: сравнение трёх 32-ядерных процессоров AMD в серверных приложениях

После недавнего решения VMware изменить политику лицензирования своего гипервизора ESXi, приняв ограничение в 32 физических ядра на 1 процессорный сокет, рубеж в 32 ядра стал той линией фронта, где безраздельно властвует AMD, и если сегодня вы выбираете 32-ядерную платформу для виртуализации, контейнеров или приложений, то вам одновременно доступны 3 серверных архитектуры от AMD.

  • Прежде всего, это старый-добрый EPYC первого поколения с кодовым именем «Неаполь», который сегодня можно купить с большой скидкой.
  • Второе поколение EPYC с кодовым именем «Рим», недавно пополнившееся моделями с увеличенным до 256 МБ кэшем третьего уровня.
  • Игровой «монстр», Ryzen Threadripper, второго поколения, которому в этой статье отведено особое место.

Как это часто бывает, у AMD большой выбор 32-ядерников для разных задач. Мы взяли EPYC 7551p, EPYC 7532 и Threadripper 2990WX, чтобы протестировать и сравнить их в популярных серверных приложениях:

  • 1С Предприятие 8.3
  • MySQL
  • REDIS
  • NGINX
  • TensorFlow
  • ElasticSearch 7.6.0

Мы выясним, в каких случаях имеет смысл выбирать старый-добрый первый EPYC, в каких — новейший EPYC Rome с увеличенным кэшем, а в каких — бросить всё и поставить в сервер мечту любого геймера, Threadripper 2990WX.

Почему особое место мы отводим Threadripper-у?

Потому что недавно Hetzner представил свои выделенные серверы на базе процессоров Ryzen Threadripper. Я не думаю, что это первое использование игровых CPU в Cloud-хостинге, но на моей памяти это первый раз, когда компания с мировым именем с гордостью предлагает вам частичку HEDT-сервера в аренду. И я бы прошёл мимо, если бы речь шла о каком-то локальном мелком хостере, но извините меня Hetzner входит в десятку крупнейших Cloud-провайдеров мира, он имеет отличную репутацию среди сисадминов России и Украины, даже несмотря на отсутствие русскоязычной поддержки.

И хотя эту компанию много раз ловили на использовании десктопных комплектующих, Hetzner — это крупный процветающий бизнес, и если они делают такой шаг, значит и нам надо брать с них пример и разобраться, есть ли возможность здесь сэкономить, и зачем вообще покупать Threadripper вместо EPYС, ведь эти процессоры хоть и имеют почти одинаковый сокет, но требуют разных материнских плат.

Серверная платформа для Threadripper?

В мире есть только одна исключительно серверная материнская плата под ThreadRipper первых двух поколений, выпускаемая компанией ASRock Rack. Этот производитель любит эксперименты, и делает например, Mini ITX плату под LGA3647, или серверные платы на Socket AM4. Именно на платах ASRock Rack работают серверы Hetzner с процессорами Ryzen. К сожалению, сделка ASRock Rack и Hetzner находится под NDA, но складывая те крупицы информации, которые удалось собрать, я предполагаю, что использовалась именно эта материнская плата с минимальными изменениями, характерными для крупного заказчика.

ASRock Rack X399D8A-2T — это ATX платформа с двумя 10-гигабитными портами на самом современном контроллере для 10GBase-T, Intel X550-T2. Эта материнская плата имеет IPMI мониторинг на базе чипа ASpeed AST2500 с выделенным 1-гигабитным сетевым портом, 8 слотов DIMM с поддержкой ECC, два слота M.2 под NVME/SATA, 8x SATA и 5 слотов PCI-E 3.0 формата x16 со скоростями (3 x16 + 2 x8). Во многом материнка повторяет рассмотренную нами ASRockRack EPYCD8-2T для EPYC 7000, но это и понятно: здесь одинаковое расположение слотов памяти, PCI и выводов на задней панельке.

В вопросах охлаждения тоже как-то не густо: самый низкий кулер под Threadripper, который можно встретить в свободной продаже — это Supermicro SNK-P0063AP4 или Dynatron A26 высотой 2U, чуть покачественнее и повыше — Noctua NH-U9 TR4-SP3 под 4U. Учитывая, что Threadripper 2990WX имеет TDP равное 250 Вт, имеет смысл искать платформу с жидкостным охлаждением, и это не пустые слова: для того, чтобы Threadripper 2990WX в нашем тестовом стенде не перегревался и выходил на свои максимальные частоты, мне пришлось не просто использовать жидкостную систему охлаждения с 360-мм радиатором, но и разместить тестовый стенд в помещении с температурой воздуха +10 градусов Цельсия.

С оперативной памятью ситуация следующая: процессоры Ryzen Threadripper поддерживают только небуферизованную память. Они имеют 4-канальный контроллер DDR4, и в серверной материнской плате ASRock Rack X399D8A-2T её частота ограничена 2666 МГц. Буферизованные модули RAM данными процессорами не поддерживаются, а потому большие объёмы ОЗУ в серверах с Threadripper вам недоступны. В списке совместимых модулей DIMM находятся модели объёмом 8 и 16 ГБ, а суммарно на материнскую плату можно поставить до 256 ГБ ОЗУ. Это очень мало для виртуализации, но достаточно для контейнеров или отдельных приложений, требующих высокую процессорную мощность. Как подтверждение того, можем посмотреть на серверы, которые использует CloudFlare, имеющие 256 ГБ ОЗУ.

Во всём остальном возьмите Threadripper, напишите на его крышке фломастером «ЙА EPYC!» и работайте с ним как с «эпиком», а в различиях мы сейчас разберёмся.

Разница между SoC и традиционным CPU

Закрыв глаза и взяв в левую руку Threadripper X2990, а в правую — EPYC, и вы не почувствуете разницы: у этих процессоров почти одинаковый сокет, размеры и вес, с той лишь разницей, что EPYC — это полноценный SoC, не требующий установки южного моста на материнскую плату, а Threadripper — это CPU, которому всё же нужен чипсет. Южный мост отвечает за шину PCI Express, разведённую к некоторым слотам, за SATA порты и обвязку. Давайте сравним топологию типичной материнской платы под EPYC с платой под Threadripper:

На плате ASRock Rack X399D8A-2T чипсет стоит тот же, что и на геймерских материнках: AMD X399, который продвинутые игроманы уже списали в утиль, а в серверах он, как говорится, ещё послужит. С точки зрения функционала обвязки, сравнивая с той же платой EPYC8D-2T, здесь нет никаких недостатков: 2 SATA порта с поддержкой DOM для загрузки гипервизора, плюс ещё 8 SATA портов, из которых 4 выведены разъёмом Mini-SAS для подключения к корзине или бэкплейну, 2 порта M-Key, из которых один может работать как OCULink и даже USB порт под флешку с VMware ESXi распаян на материнке так, чтоб не мешать видеокартам. Да, здесь один из M.2 слотов в режиме SATA будет использовать линию из южного моста, но давайте будем объективны: нет смысла занимать этот слот SATA накопителем — туда просится NVME формата 2280, а в этом случае накопитель обменивается данными с процессором. Кстати, вы можете объединить два M.2 накопителя в RAID 0/1 из BIOS материнки.

Естественно, у ASRockRack X399D8A-2T меньше PCI Express 16x слотов, чем у материнских плат под EPYC, где все слоты имеют ширину шины 16x (PCI Express 3.0 для первого поколения EPYC и PCI Express 4.0 для второго). С практической точки зрения это означает, что платформа на процессорах Threadripper явно не предназначена для 3 и более GPU типа Nvidia Tesla V100, использующих PCI-E 3.0 16x, но в то же время вы можете использовать и сетевые карты и HBA, которые требуют ширину шины PCI Express 8x.

Слоты памяти установлены вдоль воздушного потока для оптимальной продувки в стоечном корпусе. При нехватке сетевых портов коммутатора в стойке, вы можете подключаться к IPMI-интерфейсу чипа ASpeed AST2500 через любой из 10-гигабитных портов в Out-of-band режиме. В общем, данная материнская плата имеет всё то же, к чему вы привыкли в традиционном сервере, а плюс ещё 1 порт USB Type-C, которого не бывает на материнских на платах под EPYC, и к которому можно подключить аж целую дисковую полку типа QNAP TR-004U. Также на плате имеется звуковой кодек Realtek ALC892, который сгодится для передачи аудио на RDP-сервере, но не более того.

ThreadRipper и EPYC: различия в контроллерах памяти

У всех трёх рассматриваемых процессоров большие различия в работе с оперативной памятью. У процессоров ThreadRipper второго поколения используется 4-канальный контроллер, у EPYC первого поколения — 8 канальный. И там и там физически контроллер памяти находится на каждом из 4 кристаллов ССХ (Core Complex) с ядрами и кэшпамятью. Получается, что каждые 8 ядер в EPYC первого поколения используют имеют прямой доступ не более чем к двум каналам памяти, и задача гипервизора — правильно адресовать выделенный под виртуальную машину объём памяти, чтобы виртуальные процессоры и виртуальная память обслуживались одним кристаллом процессора.

У процессоров Threadripper 2990WX всё гораздо хуже: два кристалла вообще не имеют собственных контроллеров памяти и обращаются к ней через соседние, что приводит к появлению задержек. Более того, по диаграмме видно, что если вы планируете задействовать все 32 ядра процессора, то в EPYC первого поколения вам лучше установить все 8 модулей памяти, а в Threadripper 2990WX хватит и четырёх. Естественно, что чем масштабнее ваше приложение осуществляет обмен данными с ОЗУ, тем заметнее будет разница между настольным и серверным процессорами AMD, но на практике это нужно далеко не всем.

Кардинальное изменение в новых процессорах EPYC Rome состоит в том, что межпроцессорный коммутатор, шину PCI Express, контроллеры памяти и всю остальную обвязку производитель вынес с кристаллов с ядрами в отдельный центральный чип, так называемый блок ввода/вывода. Таким образом, у вас каждое процессорное ядро получило доступ ко всем 8 каналам памяти, что не только упростило работу гипервизору, но и повысило производительность. Теоретически, одного этого шага должно быть достаточно, чтобы EPYC Rome выигрывал во всех тестах у процессоров с архитектурой Zen 1 и тем же числом ядер, но не будем торопиться (спойлер — многое зависит от архитектуры тестируемого приложения и объема данных).

То, чего нет у EPYC!

Очень интересно, что в материнской плате ASRockRack X399D8A-2T используется традиционный сине-серый текстовый BIOS, который (ой, я не могу сдержать эмоции), поддерживает разгон процессора и памяти, а ещё может похвастаться профилями для сохранения настроек оверклокинга. Имеющийся Watchdog таймер перезагрузит ваш сервер, если тот зависнет во время работы от переразгона. Конечно, кто-то скажет, что разгон в сервере — это несерьёзно, но не спешите тушить свечи: в мире есть целый пласт серверов, в которых частота CPU имеет определяющее значение при выборе. Их задача — отработать 8 часов в день, а потом они, как правило, перегружаются или отдыхают. Это — серверы для HFT (High-Frequency Trading), задача которых зарабатывать деньги на бирже методом высокочастотной торговли, то есть выставлением заявок в промежуток времени, пока сервер биржи запрашивает повторный сетевой пакет от клиента, подавшего ордер на покупку/продажу. Такие машины, как правило, устанавливаются в тех же дата-центрах, что и серверы биржи, и их задача с точки зрения оборудования — добиться минимальной задержки в выставлении заявок на покупку/продажу. В таких серверах активно применяется разгон, жидкостное охлаждение, процессоры с частотами 5 ГГц и выше и даже платы FPGA.

Кроме этого, у нас есть целый ряд некритичных задач, таких как рендеринг или расчёт моделей для нейронных сетей, где в случае сбоя можно продолжить задачу с того же шага. Да и вообще не будем забывать, что у геймеров процессоры годами работают в разогнанном режиме, без зависаний, а некоторые вообще не представляют себе компьютер без разгона. Для всех этих случаев материнская плата ASRockRack X399D8A-2T готова, ну а если не хочешь — не разгоняй!

Про EPYC же следует сказать, что если у вас процессор нового, второго поколения, то он отличается от первого возможностью настройки NUMA-конфигураций памяти с привязкой к отдельным группам ядер или всему сокету сразу. Так же вам могут быть доступны настройки задержек памяти, но это зависит от воли производителя материнской платы, и встречается крайне редко.

То, чего нет у Threadripper

Мы помним, что EPYC — самый безопасный процессор, так повелось ещё с первого поколения на ядре Naples, который имеет опции шифрования памяти, а в EPYC Rome добавили шифрование регистров (!), значительно усилив изоляцию виртуальных машин. Вообще, указанные «фишки» представляют собой практически мини-революцию с одним единственным, но весомым недостатком: самые «вкусные» функции типа AMD SEV работают только под гипервизором Linux KVM. В VMWare их поддержка ожидается начиная с 7 версии, а в Windows Server с его Hyper-V вообще неизвестно когда ждать.

Из приземлённых вещей, таких как поддержки SSE/AVX все три поколения процессоров совершенно одинаковы.

Тестирование топовых HEDT-процессоров AMD Ryzen Threadripper 3960X и 3970X в сравнении с предшественниками и массовыми процессорами Ryzen

Оглавление

  • Десктоп, «хай-енд» десктоп и все-все-все: разделяй и властвуй
  • AMD Epyc и Ryzen Threadripper: фланговый маневр
  • Чиплеты и новые ядра
  • Участники тестирования
  • Методика тестирования
  • iXBT Application Benchmark 2020
  • Энергопотребление и энергоэффективность
  • Игры
  • Итого

Тестируя в прошлом году (еще по старой версии методики) топовые процессоры для AMD AM4 и Intel LGA2066, мы пришли к парадоксальному на первый взгляд выводу: даже HEDT-решения Intel в лучшем случае обеспечивают паритет по производительности с Ryzen 9. Да и то — чаще с «младшим» Ryzen 9 3900X, а не 3950X. Понятно, что напрямую сравнивать HEDT-платформу с массовыми не совсем корректно: последние ограничены по поддерживаемым объемам памяти и подключению периферии. Однако ситуации, когда их возможностей достаточно — но требуется просто очень быстрый процессор, очень много. Если говорить о массовых компьютерах (что логично для массовой же платформы), то это чаще выполняется, чем наоборот. А тут после выхода Ryzen семейства 3000 лидерство AMD стало безоговорочным. Для конкуренции с LGA1151 хватало и Ryzen 7 — причем и выход LGA1200 радикально положение дел не сменил. Процессоры для LGA2066 пришлось радикально удешевить — в два-три раза. Но и это позволяет обеспечивать лишь условную конкурентоспособность — с кучей оговорок.

Попутно компания обновила и свою HEDT-платформу, которой в итоге конкурировать. просто не с кем. В отличие от АМ4, обеспечить здесь совместимость старых и новых решений не получилось — но и не требовалось. «Старые» решения для TR4 оказались «похоронены» все теми же Ryzen 9. От новой платформы TRX40 массовость не требуется — это нишевое решение, нацеленное на случаи, когда «мало», что АМ4 во всех проявлениях, что LGA2066. Соответственно, речь идет о самых дорогих и самых мощных процессорах, а также очень дорогих системных платах. Объективно дорогих — несколько десятков линий PCIe 4.0, не считая кучи прочих высокоскоростных интерфейсов «дешево» реализовать невозможно даже на этапе разводки текстолита. Соответствующим должно быть и прочее окружение — если для TR4 была выпущена хотя бы одна плата microATX, то в отношении TRX40 нет даже таких планов. Хотя технически задача не стала более сложной (более простой, впрочем, тоже), но теперь она лишена смысла: уровень функциональности и производительности (относительно) компактного компьютера с легкостью обеспечивается и АМ4, а более-менее полное использование возможностей TRX40 вне «гроба» все равно невозможно.

В общем, такое своеобразное решение, в возможность которого еще пару-тройку лет назад еще невозможно было даже поверить. Собственно, три года назад у AMD и «своей» HEDT-платформы не было — никакой, а не только лишь элитно-эксклюзивной. А чтоб понять, как мы дошли до жизни такой, стоит как раз и вернуться на три-четыре года назад. Или, даже, дальше. Кто за положением дел на рынке все эти годы следил внимательно, в следующих трех разделах ничего нового не найдет, так что может их просто пропустить.

Десктоп, «хай-енд» десктоп и все-все-все: разделяй и властвуй

Понятие «High-End Desktop» (HEDT) возникло ровно 10 лет назад. Ранее оно не требовалось, поскольку «high-end» получался и из обычной «десктопной» платформы, благо таковые одно время даже не слишком отличались от серверных. Положение изменилось в нулевые — когда производители научились «упаковывать» несколько процессорных ядер и прочие компоненты в один кристалл. Понятно, что для разных сегментов рынка нужна и разная обвязка — особенно если сравнивать, к примеру, портативные компьютеры (к тому моменту уже доминирующие на рынке ПК) и многопроцессорную систему. Первые обходились двумя-четырьмя ядрами, но в обязательном порядке снабжались GPU (благо использовать его можно и вместе с дискретным решением) и небольшим количеством интерфейсных линий для связи с периферией — таковой все равно было немного. И оперативной памяти — тоже, так что двухканального контроллера как хватало, так и хватает до сих пор. В серверном же сегменте «хватать» перестало очень давно, так что количество каналов пришлось увеличивать. Во-вторых, не нужна графика в каждом процессоре (благо их может быть и несколько) — зато нужно много ядер. Причем любое количество является недостаточным для части заказчиков — почему никуда и не делись многопроцессорные системы. Тоже, правда, сегментировались — система с двумя сокетами всегда проще, дешевле и компактнее, чем с большим их количеством. И сами процессоры проще — меньшую часть кристалла занимают линки для связи нескольких CPU в системе. Да и ядер в «младших» решениях может быть меньше, что тоже снижает цену. «Старшие» же должны снабжаться ими по максимуму — иначе бы и необходимости в объединении сил четырех-восьми процессоров не возникало. А это и требования к системе памяти увеличивает — ее нужно много и максимально-быстрой.

В итоге процессоры начали отдаляться друг от друга все дальше и дальше, но всех их требовалось много. Именно поэтому в Intel полностью разделили линейки физически — используя разные кристаллы. Настольные/мобильные процессоры как получили свои два или четыре ядра в 2006 году — так столько в них и оставалось до 2017. В серверных же моделях процессоров максимальное количество выросло с тех же четырех до 24. В процессе выяснилось, что кольцевая шина (которая как раз появилась именно в серверных восьмиядерных Nehalem-EX) нормально справляется с десятком ядер — но плохо масштабируется на большее их количество. Поэтому в старших моделях процессоров пришлось использовать две таких шины и коммутаторы, что куда сложнее и дороже одной. Вот и еще одна причина разделить линейки. Количество каналов памяти долгое время держалось на четырех, хотя уже очевидно было, что и с этим тоже что-то придется делать: не хватало на выросшее количество ядер. Одно дело, когда канал памяти «приходится» на одно-два ядра в массовых системах — и совсем другое, когда на каждом канале «висит» (и конкурирует за него) пять-шесть ядер.

Выделение HEDT стало недорогой альтернативой усложнению настольных процессоров. Действительно — массовые модели простые и дешевые, но достаточные для большинства пользователей. Кому мало ядер, памяти или линий PCIe — тем можно предложить младшие серверные модели. По сниженной, разумеется, цене — но чтоб при этом не конкурировали с «полноценными» на тех же кристаллах, можно отключить им поддержку многопроцессорных конфигураций, ЕСС, часть линий PCIe в самых дешевых моделях «порезать» и т. п. А топовый серверный сегмент тоже с легкостью разбивался на несколько линеек теми же методами: например, модели, рассчитанные на двухсокетные системы можно было продавать дешевле, чем пригодные для четырех- или восьми сокетов. Причем естественным путем: 2S/4S можно реализовать при наличии в процессоре двух линков QPI, а вот для восьми требуется третий. Но первых рынку требуется больше — значит для них выгодно иметь отдельный кристалл, а не «резать» старшие (по определению более дорогие). Хотя иногда приходилось делать и последнее — например, в части задач требуются огромные объемы памяти, но не слишком большое количество ядер. Разрабатывать и выпускать специальные кристаллы с большим количеством линков, но малым — ядер, дороже, чем «порезать» старшую модель по ядрам и продать немного дешевле.

В общем и целом, запомнить стоит буквально пару моментов. Во-первых, сегментация рынка — неизбежное следствие увеличения степени интеграции компонентов. Во времена Pentium 4 и Athlon все было просто: это одноядерные процессоры, к тому же, требующие для работы большого количества дополнительных микросхем. Следовательно, сами процессоры для разных сегментов рынка могут быть вообще одинаковыми — а все различия начинаются на уровне плат и чипсетов. Но как только последние «переехали» вовнутрь, да еще и количество ядер в старших и младших кристаллах начало отличаться на порядок — ситуация сильно осложнилась. А количество разных кристаллов — компромисс стоимости разработки (больше версий — дороже), производства (сложные кристаллы — дороже по себестоимости), логистики и планирования (нужно ж понимать — сколько и каких кристаллов потребуется через пару кварталов и давать соответствующие задания фабрикам). В принципе, в условиях отсутствия конкуренции за несколько лет в Intel систему отточили до блеска. Балансируя между разработкой своего кристалла под каждую задачу и чрезмерной сложностью выпускаемой продукции. Подходят массовому рынку «простые» процессоры с четырьмя ядрами, GPU, двухканальным контроллером памяти и 20-ю линиями PCIe? Значит, такие и должны выпускаться массово. На деле, даже отдельные двухъядерные кристаллы «выращивались» — их тоже требовалось много, так что снижение себестоимости на миллионных партиях не то, чем стоит пренебрегать. Нужно некоторым покупателям нечто большее, чем «типовой ПК»? Такой процессор тоже можно сделать — из младшего серверного. Кроме младших же, при этом требуются и «средние», и «старшие». Но уже в меньших количествах. Но себестоимость всех уже такова, что тоже обходиться одним кристаллом накладно — значит, нужно несколько.

AMD Epyc и Ryzen Threadripper: фланговый маневр

Могла ли AMD скопировать подход Intel? В принципе, могла. Правда вряд ли из этого вышло бы что-то хорошее. Во-первых, ко второй половине прошлого десятилетия компания окончательно превратилась в «бесфабричную», т. е. тесных связей между разработкой и производством уже не было, что мешало «подгонять» одно под другое. Во-вторых, копируя решения в лучшем случае можно лишь догнать оригинал (да и то — на практике все равно небольшое отставание бы сохранялось), но не стать лидером. Поэтому решение было асимметричным.

Как мы уже не раз писали, все силы компании были брошены на создание четырехъядерного «базового элемента» (CCX) и универсального масштабируемого интерфейса Infinity Fabric. Последняя не только была способна объединять CCX с GPU внутри кристалла (в первых мобильных и настольных APU) или два CCX для создания однокристального восьмиядерного процессора (что использовалось в первых настольных Ryzen), но и пригодна для связки нескольких таких восьмиядерных кристаллов на одной подложке процессора и для объединения двух таких «суперблоков» на одной плате. Обратим внимание — речь в любом случае шла лишь о восьми кристаллах в системе: просто в двух, а не в восьми сокетах. Лидерство формально осталось за Intel — технологии последней допускали создание системы со 192 процессорными ядрами и 32 каналами памяти (восемь старших Xeon E7), а у AMD речь шла лишь о 64 ядрах и 16 каналах. Однако подобные «монстрики» — слишком узкая ниша. Равно как и вообще многосокетные системы — что учитывают даже производители ПО, зачастую привязывая стоимость лицензий как раз к количеству сокетов, а не другим параметрам сервера. Поэтому актуальны одно- и двухпроцессорные системы — они относительно недороги, так что пользуются массовым спросом. Вот «недорого» Intel как раз мог предложить лишь 44 ядра и 8 каналов — против упомянутых 64 на 16. А еще более компактный односокетный вариант все равно давал 32 ядра и 8 каналов памяти.

На первый взгляд — все очень красиво. Если приглядеться — есть нюансы. В частности, такое «односокетное» решение, по сути, все равно эквивалентно четырехпроцессорной системе: например, потому что получаем мы не восьмиканальный контроллер памяти (как это рекламировалось), а четыре двухканальных. Доступ к «чужим» модулям памяти возможен — но не прямой, а через соответствующий процессор. В общем, Non-Uniform Memory Architecture (NUMA) в полный рост — даже при одном сокете, чего в платформах Intel до прошлого года не было (пока не появились 56-ядерные «склейки» Xeon Scalable с 12 каналами памяти). Прикладное ПО для серверов обычно под такие особенности адаптировано — именно потому, что там многопроцессорность «завелась» еще раньше многоядерности на одном кристалле, так что так себя вели и первые системы на Opteron. Массовые же программы особенностей NUMA как правило не учитывают.

С другой стороны, массовое ПО не слишком-то активно масштабировалось и по количеству ядер. Следовательно, «его» пользователям слишком много таковых и по сей день не слишком нужно. А кому нужно — те наверняка используют и соответствующие программы. Поэтому компания использовала тот же подход и в своей HEDT-платформе. Первой — термин родился в те годы, когда AMD в конкуренции на рынке высокой производительности не участвовало.

Ничего сложного со созданием Ryzen Threadripper на базе Epyc не было. Для унификации производства компания сохранила тот же разъем и то же исполнение процессоров: просто под крышкой устанавливались не четыре, а два кристалла. А «ненужные» контакты просто не разводились. С точки зрения логики это просто пара «четырехсокетных» процессоров в «двухсокетной» плате и не более. Но со всеми «прелестями» NUMA.

Которые, как и ожидалось, оказались не так уж и страшны. Для конкуренции с Threadripper Intel пришлось наступить на горло собственной песни — и выпустить HEDT Core i9 для LGA2066 не только на младшем (десятиядерном) кристалле, но и на среднем. И это всего лишь дало паритет по количеству ядер, но не по цене — 12/16-ядерные Ryzen Threadripper AMD спокойно могла продавать дешевле 1000 долларов и оставаться не в накладе, а у Intel в этот сегмент помещались как раз только младшие модели с числом ядер до 10. Производительность же сильно зависела от задач. Но многие программы отлично работали на всем — ускоряясь пропорционально количеству ядер (в первую очередь — всякое расчетное ПО, изначально «приученное» и к многосокетным системам). А рассчитанные на массовые процессоры временами отчаянно «тормозили» и на LGA2066 — поскольку архитектурно Skylake-X значительно отличался от настольного Skylake. В итоге конкуренция на массовом рынке так и осталась уделом «обычных» Ryzen и Core — и шла с переменным успехом до прошлого года. В HEDT же где-то привлекательнее смотрелись Ryzen Threadripper, где-то — Core. Но однозначного преимущества у вторых не было. А с учетом цен — не было и вовсе никакого.

Единственным сомнительным шагом было решение компании закрепить успех в 2018 году — и выпустить Ryzen Threadripper линейки WX. На первый взгляд все было просто и логично — раз уж в Intel решили освоить все ценовые позиции до $2000, пора сделать тоже самое. Но, поскольку, ничего нового к рефрешу Ryzen в AMD не заготовили, решать задачу пришлось в лоб: выпустив процессоры с четырьмя кристаллами (т. е. 24 и 32 ядра), но рассчитанные на старую «двухкристальную» периферию. В итоге два «процессора» в сборке просто. повисли в воздухе: не имея даже собственной памяти. К такому абсолютное большинство программ персонального назначения оказалось совсем не готово, так что топовый Ryzen Threadripper 2990WX лишь иногда обгонял «скромного трудягу» 2950X, но чаще от него отставал. При существенно более высоком энергопотреблении и цене. Т. е. у компании получилось такое вдвойне нишевое решение, которое имело смысл приобретать только под конкретные приложения — и точно зная зачем.

Но в целом обновление Threadripper вполне укладывалось в лозунг AMD того времени: Because we can! Компания действительно смогла продавать свои ядра дешевле, чем Intel — чем и пользовалась. Чего немного не хватало — «качества» самих ядер и их взаимодействия. Впрочем, это было общей проблемой Ryzen первых поколений — унаследованной и «сборками» из них. Общим стало и прошлогоднее решение проблемы.

Чиплеты и новые ядра

Первые процессоры на базе микроархитектуры Zen2 появились год назад, так что к данному моменту обсосаны уже со всех сторон. Поэтому на этих изменениях мы остановимся лишь кратко — свежа еще память.

Что касается ядер, то в первом приближении можно утверждать, что Zen2 уже ничем не уступает Skylake — в то время, как Zen/Zen+ больше были похожи на Haswell. Можно, конечно, возразить, что для этого AMD пришлось перейти на нормы 7 нм (при всей условности этих цифр), в то время, как Skylake это микроархитектура 2015 года и 14 нм техпроцесс. Но, вообще-то, ничего более нового массово у Intel до сих пор тоже нет — так что сами и виноваты.

А компоновка бывает разной. Вопреки иногда слышимым утверждениям, чиплеты вовсе не являются чем-то неотъемлемым от Zen2 — достаточно посмотреть на новые APU, сохранившие монолитный дизайн. Но там, где нужно много ядер, компания решилась на достаточно рискованный шаг — впервые с момента появления первых Athlon 64 вынеся контроллер памяти в отдельный кристалл. Туда же отправились и контроллеры PCIe и прочей периферии. Что это дало? Для моделей с числом ядер до восьми — по сути, ничего. Во всяком случае, ничего полезного с точки зрения производительности — просто не обязательно делать весь кристалл по тонким нормам. Однако 12 нм чиплет IOD для АМ4 поддерживает подключение не одного, а двух восьмиядерных CCD — что и дает возможность выпускать Ryzen 9 с двенадцатью и шестнадцатью ядрами. При этом, в отличие от старых Ryzen Threadripper, контроллеры памяти и периферии у них общие, а не раздельные. В общем, никакой NUMA — все просто и прозрачно для программного обеспечения.

Но выделение CCD (т. е. ядер и кэш-памяти) в отдельные кристаллы позволяет собирать не только процессоры для АМ4. Там-то компанию сдерживала совместимость со старыми решениями и ограниченные механические размеры — чего нет в Epyc и Threadripper. Просто берем другой IOD: с четырьмя каналами памяти, а не двумя, 64 линиями PCIe вместо 24 — и цепляем к нему четыре CCD. Получается 24/32-ядерный процессор — как WX-серия второго поколения, но без NUMA. А старшие IOD спокойно тянут и восемь CCD, что дает возможность объединить в одном сокете и 64 процессорных ядра: причем тоже с «нормальным» унифицированным доступом к памяти. В итоге такой процессор компания предлагает и в качестве настольного. Правда стоит Ryzen Threadripper 3990X почти четыре тысячи долларов, что делает его очень уж специфичным решением. Вот подобные по организации Epyc свое место в жизни точно найдут.

Впрочем (настало время для ложки дегтя) и «младшие» Ryzen Threadripper 3960X и 3970X к дешевым не относятся: их рекомендованные цены составляют $1399 и $1999. Но это объяснимо — в сегменте до 1000 долларов нормально «справляются» и Ryzen 9. Новый Threadripper — для тех, кому нужно самое-самое, и кто за ценой не постоит. Конкурировать ему не с кем — решения Intel для LGA2066 медленнее, да и не слишком-то дешевле, а Xeon W для LGA3647 — дороже (за исключением разве что W-3225 и W-3235, но это всего-то 8 или 12 ядер) и все равно не быстрее. Кроме того, платформа TRX40 выделяется количеством поддерживаемых линий PCIe 4.0 — учитывая, что пока еще большинство систем поддержки этого интерфейса лишены вовсе, особенность эксклюзивная. Насколько нужная всем и каждому — отдельный вопрос. Но познакомиться с ней подробно — не помешает. Тем более, что и более старые решения этой линейки мы по новой методике не тестировали, а это надо будет сделать и сохранить на будущее.

Участники тестирования

AMD Ryzen Threadripper 3960X AMD Ryzen Threadripper 3970X
Название ядра Castle Peak Castle Peak
Технология производства 7/12 нм 7/12 нм
Частота ядра, ГГц 3,8/4,5 3,7/4,5
Количество ядер/потоков 24/48 32/64
Кэш L1 (сумм.), I/D, КБ 786/786 1024/1024
Кэш L2, КБ 24×512 32×512
Кэш L3, МиБ 128 128
Оперативная память 4×DDR4-3200 4×DDR4-3200
TDP, Вт 280 280
Количество линий PCIe 4.0 56 56

Главными героями сегодня будут Ryzen Threadripper 3960X и 3970X. В принципе, про них все сказано выше — это все те же Ryzen 3000, но отмасштабированные вверх. Не простым удвоением количества блоков — чип IOD остался в единственном числе (соответственно, контроллеры памяти и периферии для всех процессорных ядер общие), но удвоился «качественно». Откуда и, например, 56 доступных линий PCIe 4.0 — еще восемь уходит на связь с чипсетом, который стал более «навороченным», чем, даже X570, откуда и необходимость в расширении связки. В общей сложности платы для данной платформы имеют 72 линии PCIe 4.0, часть которых уходит на обычные «большие» слоты (например, можно установить три независимых друг от друга PCIe x16), часть — на разъемы M.2 (как минимум пару высокоскоростных SSD можно подключить прямо к процессору) — и еще остается на периферийные контроллеры, типа 10 Гбит/с Ethernet и т. п. «Бытовуха» в виде 12 портов USB3 Gen2 или 4 SATA также гарантировано обеспечивается связкой из процессора и чипсета. Поэтому, повторимся, даже в плане функциональности платформа аналогов на рынке не имеет. С этой точки зрения Intel LGA2066, например, является морально устаревшей — поскольку максимально обеспечивает лишь 72 линии PCIe и только 3.0. Но это в теории — на практике часть высокоскоростных портов чипсета изначально уйдет на USB3 Gen1 и SATA. Да еще и встроенной поддержки USB3 Gen2 нет — так что придется использовать дискретные контроллеры, без чего АМ4, TR4 и TRX40 спокойно обходятся. Ну а на массовых платформах Intel, типа LGA115x, процедура «впихивания» периферии в прокрустово ложе штатных возможностей всегда заставляла кусать локти от досады самого маркиза де Сада — и в LGA1200 это все унаследовано.

AMD Ryzen 7 3800X AMD Ryzen 9 3900X AMD Ryzen 9 3950X
Название ядра Matisse Matisse Matisse
Технология производства 7/12 нм 7/12 нм 7/12 нм
Частота ядра, ГГц 3,9/4,5 3,8/4,6 3,5/4,7
Количество ядер/потоков 8/16 12/24 16/32
Кэш L1 (сумм.), I/D, КБ 256/256 384/384 512/512
Кэш L2, КБ 8×512 12×512 16×512
Кэш L3, МиБ 32 64 64
Оперативная память 2×DDR4-3200 2×DDR4-3200 2×DDR4-3200
TDP, Вт 95 105 105
Количество линий PCIe 4.0 20 20 20

Впрочем, определенные проблемы с конфигурированием возможны и в случае АМ4 — особенно если сэкономить и приобрести плату на «старом» чипсете. Но вопросы экономии сегодня нас не интересуют. Вернее, интересуют — но в разумной степени: когда минимальной планкой оказывается Ryzen 7/9 с платой на базе AMD X570. Периферийных возможностей такой связки достаточно для массового рынка, процессорные ядра одинаковые, компоновка их сходная — значит, нужно оценить, что дает простое «удвоение» процессора. В этом плане Ryzen 9 выглядят как раз как половинки новых Ryzen Threadripper — но мы решили добавить к числу испытуемых и старший (до недавнего времени) Ryzen 7 3800X. В нем один восьмиядерный блок — в 3950X два таких, но на том же IOD, а в 3970X — уже четыре, но «насаженных» на более мощное основание. Соответственно, эта тройка отлично подойдет для оценки масштабируемости архитектуры, причем по обоим фронтам: количеству ядер и усилению внешних интерфейсов (в первую очередь — памяти).

AMD Ryzen Threadripper 2920X AMD Ryzen Threadripper 2950X AMD Ryzen Threadripper 2990WX
Название ядра Colfax Colfax Colfax
Технология производства 12 нм 12 нм 12 нм
Частота ядра, ГГц 3,5/4,3 3,5/4,4 3,0/4,2
Количество ядер/потоков 12/24 16/32 32/64
Кэш L1 (сумм.), I/D, КБ 768/384 1024/512 2048/1024
Кэш L2, КБ 12×512 16×512 32×512
Кэш L3, МиБ 32 32 64
Оперативная память 4×DDR4-2933 4×DDR4-2933 4×DDR4-2933
TDP, Вт 180 180 250
Количество линий PCIe 3.0 60 60 60

И, разумеется, мы никак не можем обойтись без Ryzen Threadripper предыдущего поколения. На деле платформа TR4 уже мертва с точки зрения AMD, но приобрести платы и процессоры пока можно. Иногда — даже (относительно) дешево. Стоит или нет — тут уж каждый решает для себя сам, но сравнить решения одного назначения нужно. Да и с массовыми платформами мы эти процессоры сравнивали только при использовании старой версии методики — вдруг после обновления системы и ПО они заблистают по-новому 🙂

Что касается прочего окружения, то разными были только системные платы и емкость оперативной памяти: поскольку мы устанавливаем один модуль в 8 ГБ на канал, «обиженной» тут оказалась платформа АМ4. А вот частоту решили использовать везде одинаковую — 3200 МГц. Для АМ4 и TRX40 она вообще штатная, а тестирование процессоров TR4 по данной версии методики будет первым и последним, так что для одного раза без дальнейших сравнений лучше сделать так.

Методика тестирования

Методика тестирования подробно описана в отдельной статье, а результаты всех тестов доступны в отдельной таблице в формате Microsoft Excel. Непосредственно в статьях же мы используем обработанные результаты: нормированные относительно референсной системы (Intel Core i5-9600K с 16 ГБ памяти, видеокартой AMD Radeon Vega 56 и SATA SSD) и сгруппированные по сферам применения компьютера. Соответственно, на всех диаграммах, относящихся к приложениям, безразмерные баллы — так что больше всегда лучше. А игровые тесты с этого года мы окончательно переводим в опциональный статус (причины чего разобраны подробно в описании тестовой методики), так что по ним будут только специализированные материалы. В основной линейке — только пара «процессорозависимых» игр в невысоком разрешении и среднем качестве — синтетично, конечно, но приближенные к реальности условия для тестирования процессоров не годятся, поскольку в таковых от них ничего не зависит.

iXBT Application Benchmark 2020

Выяснилось, что не все программы одинаково полезны: если на процессорах массового сегмента или, например, «старых» Threadripper вся тройка приложений ведет себя одинаково, отлично масштабируясь по количеству ядер, то на TRX40 это верно лишь для MediaCoder и HandBrake. VidCoder выдает явно неадекватные результаты: 3960X справился с заданием на уровне 3900X, а 3970X даже отстал от 3700X. Причем речь идет не о случайной ошибке — повторение тестов приводит к тем же результатам. И закономерному итогу. Который, впрочем, в абсолютных значениях такой, что и покритиковать-то не за что. Хотя и где все гладко 3960X, например обгоняет 3900X лишь в полтора раза, т. е. явно непропорционально увеличению количества ядер и всего остального. В общем, для этой платформы такие нагрузки слишком легкие, чтобы получить какой-то ощутимый эффект. Ну а старым HEDT-решениям ловить и вовсе нечего — для своего времени они были быстрыми, но это время давно ушло.

То, о чем мы говорили во вводной части — эти приложения нормально переваривают NUMA, так что тут и 2990WX выглядел неплохо. Но, опять же, во времена первых поколений Ryzen и тогдашних Core. А в семействе «3000» AMD увеличила темп выполнения операций с плавающей запятой вдвое. В итоге в 3D-рендере X-линейка TR4 целиком уступает даже Ryzen 9 3900X, а 3950X хватает, чтобы отправить в нокаут и WX-серию. Новые же Ryzen Threadripper возвышаются среди современных процессоров в гордом одиночестве: их просто сравнивать не с кем, поскольку ни у кого больше нет такого количества таких ядер.

WX слова доброго при такой нагрузке не заслуживают. Топовые решения для АМ4 явно упираются в систему памяти, неспособную прокормить 12-16 быстрых ядер. Хотя для того, чтобы обогнать процессоры для TR4 и этого хватило. А TRX40 — в очередной раз большой скачок. Модели, впрочем, не слишком отличаются друг от друга — потому что «уперлись» туда же в память. В итоге самым интересным выглядит 3960X, где все проблемы уже решены, а цена все еще в разумных пределах.

Та же самая проблема, что и в предыдущем случае. Удвоили параметры памяти — получили увеличение производительности. Но при минимальной разнице между процессорами: количество ядер тоже удвоили, так что их снова «слишком много» оказалось.

В этом сценарии же «страдает» только топовый 3970X — он слишком мощный, чтобы сохранять линейную зависимость производительности от количества ядер. И, как обычно, важно — каких именно ядер: «старые» 16 это лишь уровень новых 12. Да и то — при хорошем раскладе.

Поскольку бывает и плохой: когда вообще все определяется не ядрами фактически, а памятью и кэшем. В двух чиплетах последнего вдвое больше, чем в одном — но вдвое меньше, чем в четырех. А теперь смотрим на результаты и понимаем, что на этом фоне прочие факторы уже малозначимы. Если речь идет о процессорах с одинаковой архитектурой и одинаковой организацией: архиваторы это хороший пример программ, которых от NUMA просто тошнит.

И снова видим уже привычную картину: 3900X достаточно, чтобы «похоронить» TR4, но существенно увеличить производительность на той же АМ4 уже мешают ее особенности. «Расшиваем» узкое место — прыгаем на новый уровень. Где точно также останавливаемся.

И в общем — расклад сохраняется. Так что не удивительно, что компания не слишком продвигает Ryzen Threadripper 3990X: понятно, что это не несуразица уровня 2990WX, но процессор для очень специфических случаев. А вот позиция для чего-нибудь о 16 ядрах, но со «взрослым» окружением оставлена как специально. Причем пользы от такого будет больше, чем от так и канувшего в лету восьмиядерного Ryzen Threadripper 1900X, где пришлось резать ядра во всех CCX — есть ощущение, что в данном случае на тот же IOD можно было «повесить» и два чиплета, получив прекрасное технически решение. С другой стороны. Много на этом все равно вряд ли вышло сэкономить, так что «зазор» вполне возможно сократится, сжимаемый Zen3 снизу и снижением цены (вполне возможным) на 3960X сверху. Так будет даже интереснее с практической точки зрения.

Энергопотребление и энергоэффективность

За экстремальную производительность приходится расплачиваться и экстремальным энергопотреблением. Ничего неожиданного — если один CCD способен съесть под сотню ватт, то двум закономерно может потребоваться и под 200, а четырем. К счастью, не 400 — все-таки сортировка кристаллов есть и жесткая. Зато разные чипы IOD по-разному энергию потребляют, да и «прожорливость» плат разная. Так что в первую очередь претензии стоит предъявлять совсем не к максимальному уровню энергопотребления (хотя нам пришлось отремонтировать и немного модернизировать измерительный прибор — он отлично справлялся со всеми платформами, но не выдержал теплой встречи с TRX40) — он соответствует уровню производительности, да и по сравнению с предыдущими «четырехкристальниками» вырос лишь процентов на 20. А вот то, что даже при небольшой нагрузке типа файловых операций (которые мы используем как эталон) платформа «жрет» как АМ4 с восьмиядерным процессором на максимуме — уже печально. В общем, TRX40 даже не для тех случаев, когда изредка нужна высокая производительность — ей нужна постоянная нагрузка. Иначе не только пользы не будет, но и прямой вред даже.

Эффективность, конечно, пониже, чем у Ryzen 3000 для АМ4 (не забываем про IOD и прочее окружение), но не хуже, чем у решений Intel, например. И выше предыдущего поколения тоже. Не сравнивая с 2990WX даже — получается, что последний как правило просто бесцельно грел воздух.

Как уже было сказано в описании методики, сохранять «классический подход» к тестированию игровой производительности не имеет смысла — поскольку видеокарты давно уже определяют не только ее, но и существенным образом влияют на стоимость системы, «танцевать» нужно исключительно от них. И от самих игр — тоже: в современных условиях фиксация игрового набора на длительное время не имеет смысла, поскольку с очередным обновлением может измениться буквально все. Но краткую проверку в (пусть и) относительно синтетичных условиях мы проводить будем — воспользовавшись парой игр в «процессорозависимом» режиме.

Хотя на деле можно было и без краткой проверки обойтись, поскольку результат был предсказуем. Качественно все Ryzen 3000 сходные, количественно и Ryzen 7 3800X «переплевывает» запросы современных игр с запасом, так что дальнейшее наращивание «мощи» увеличивает только лишь этот запас — но ухудшиться результатам не с чего. А старые Ryzen Threadripper — это в первую очередь старая же архитектура, что уже существенно медленнее. Плюс детали реализации — тоже на пользу не идущие. Хотя поиграть с приличной видеокартой это не помешает — но выбирать эти модели для игрового компьютера не за чем. Новые — тоже. Хотя если игры — не главное, а просто желательное и регулярное применение, то собирать для них отдельный компьютер точно не нужно: «основной» справится не хуже, чем любая современная платформа. Но и не лучше, конечно.

Итого

Ощущения двоякие. С одной стороны, очевидно, что первая попытка принести в настольный (хотя бы условно-настольный) сегмент 25-30 ядер была фальстартом — а вот вторая стала успешной. При том, что каких-то три года назад немногим дешевле двух тысяч долларов продавался лишь десятиядерный Core i7-6950X, прогресс очевидный. С другой стороны и он уже снабжался четырехканальным контроллером памяти, а пропускная способность каждого канала с тех пор выросла совсем не в три раза. И иногда это уже мешает. В настольном сегменте — тоже мешает, но у Ryzen 9 эффект менее заметен: «нагрузить» работой 16 ядер проще. Выше их эффективность снижается, так что влияние других компонентов процессора растет. А с этим все и в 3960X на уровне, а у 3970X — не лучше, что делает выбор в пользу старшего в линейке процессора сомнительным (кто-то сказал «старший — это 3990X»? тем паче). Так что вырвавшись за пределы одного ограничения — «впечатались» в аналогичное на новом уровне.

Однако, как бы то ни было, платформа TRX40 (в целом) на сегодняшний день является самым производительным и функциональным решением, вообще пригодным для создания персональных компьютеров. Ничего равного нет — это эксклюзивное предложение. Не всем — но не всем такое и требуется. Так что не попавшие в целевую аудиторию могут порадоваться возможности приобрести хороший и быстрый компьютер на каком-нибудь Ryzen 7, а то и Ryzen 9 за цену одного лишь процессора Ryzen Threadripper: технологии AMD на сегодня позволяют удовлетворить покупателей с кошельком любой толщины и любыми (разумными) требованиями. В том числе и такими, для реализации которых действительно нужна новая платформа. А вот приобретать ее по принципу чтобы было — не стоит. Во-первых, дорого. Во-вторых, при отсутствии постоянных тяжелых нагрузок не слишком эффективно. Да, Zen2 отлично масштабируется, причем топовые решения на новой микроархитектуре уже никогда не уступают в производительности младшим. Но за это в их случае приходится расплачиваться высоким энергопотреблением — которое оправдано при «тяжелых» нагрузках, но избыточно при решении типовых задач персонального компьютера. В общем, платформа для работы — ресурсоемкой и постоянной. Хотя отлично справляется даже с играми. Но в качестве массового решения лучшей по-прежнему остается АМ4 — тоже, практически, вне конкуренции; в т. ч. и со стороны новой HEDT-платформы AMD.

Битва рабочих станций: AMD Ryzen Threadripper vs. Intel Core X

AMD vs. Intel: как мы тестируем рабочие станции

В начале этого года мы устроили состязание двух топовых платформ – одна с процессором Intel Core X, другая с процессором AMD Ryzen Threadripper, в котором оценивалась только производительность CPU, но не системы в целом. Для пользователей рабочих станций, которые рассчитывают также и на профессиональные GPU, тех результатов явно недостаточно.

Эта статья дает более полное представление о том, как ведет себя каждая платформа при решении тех или иных типовых задач – причем именно платформа в целом, а не отдельные ее компоненты.

По этой причине я старался использовать как можно меньше синтетических тестов. То, что на одной платформе можно получить пропускную способность памяти 60 ГБ/с, а на другой – 50 ГБ/с, в данном случае не очень интересно. Меня больше интересует итоговый общий результат при работе с реальными приложениями; или, когда нет возможности провести тест с реальным приложением, синтетический тест должен максимально соответствовать ему по характеру нагрузки. Как, например, наши игровые бенчмарки UL и Unigine.

Цель данной статьи можно сформулировать так: показать, как ведут себя указанные платформы AMD и Intel в различных сценариях, с которыми могут иметь дело рабочие станции. Некоторые пользователи, отдавая окончательное предпочтение одному из вариантов, часто – чаще, чем вы думаете, – просто не знают, что в их случае лучше было бы выбрать противоположный вариант.

Например, на одной и той же фиксированной тактовой частоте AMD Threadripper однозначно будет работать медленнее, чем Intel Core X. И какое, по большому счету, значение это имеет для тех, кто работает с Redshift, V-Ray, SolidWorks и т.д., и т.п.? Если для вас решающее значение имеет производительность видеокарты, то платформы Intel и AMD дают вам примерно одинаковые возможности – и при этом каждая имеет свои уникальные достоинства.

Всегда лучше знать, с какого рода нагрузкой будет работать ваш компьютер. Это уже стало прописной истиной. Потому что чем лучше вы будете информированы перед принятием судьбоносного решения о покупке, тем счастливее вы в конце концов окажетесь. В некоторых случаях суперпроизводительность вам выдаст платформа AMD, в других случаях – Intel. Вы можете сверяться с этой статьей при оценке производительности в конкретных приложениях; она также может помочь вам определиться с тем, куда вложить свои кровные денежки.

Наконец, эта статья охватывает множество различных типовых сценариев для рабочих станций. В некоторых из них максимально нагружается только процессор, в других – только видеокарта. Иногда, для ускорения всего процесса, с высокой нагрузкой работают одновременно и процессор, и видеокарта. Среди рассмотренных здесь сценариев – визуализация объектов моделирования, рендеринг, кодирование и – для ровного счета – немного игровых задач.

Тестовые конфигурации

Сравнивать эти две платформы весьма непросто. И совсем не в том смысле, в котором сложно сравнивать спорткар с микроавтобусом; платформы AMD и Intel находятся в одной весовой категории. Обе рабочие станции оснащены 16-ядерными процессорами и достаточно мощными системами охлаждения (у AMD – Enermax, у Intel – NZXT). И еще нам очень повезло с тем, что память G.SKILL есть в списках QVL обеих материнских плат – это позволяет использовать на обеих платформах одни и те же настройки памяти.

И, поскольку в любом из наших тестов задействуется не более 32 ГБ системной памяти, комплекты модулей памяти G.SKILL 4 х 8 ГБ здесь более уместны, чем привычные нам 64-гигабайтные комплекты модулей памяти Corsair, которая тоже есть в списке QVL обеих плат. Архитектура Zen заметно выигрывает при использовании быстрой памяти, поэтому, по возможности, для нее лучше приобрести DDR4-3200.

Чтобы условия тестирования были максимально близкими к условиям работы с реальными приложениями, мы тестировали рабочие станции с настройками EFI, установленными по умолчанию – с одним исключением, которое связано с выбором профиля памяти. При выбранном профиле XMP на машине Intel материнская плата ASUS запрашивает разрешение включить автоматическую оптимизацию ядер – здесь мы принимаем эту опцию, в отличие от большинства тех ситуаций, когда мы специально тестируем один процессор. В данном случае наша задача состоит в том, чтобы сравнить рабочие станции при обычных условиях эксплуатации – с теми настройками, которые будут у среднестатистического пользователя. Плата GIGABYTE, которая установлена в машине Threadripper, не делает такого запроса.

Тестовая платформа AMD TR4

Процессор AMD Ryzen Threadripper 1950X (3.4 ГГц, 16 ядер/ 32 потока)
Материнская плата GIGABYTE X399 AORUS Gaming 7
EFI: F3j (12 апреля 2018)
Память G.SKILL TridentZ (4x 8 ГБ; DDR4-3200 14-14-14-34-1T)
Видеокарта NVIDIA Quadro P6000 24 ГБ (Quadro 397.93)
Накопитель WD Blue 3D NAND 1 ТБ (SATA 6 Гбит/с)
Блок питания Enermax RevoBron 80+ Bronze (600 Вт)
Корпус Enermax Equilence
Система охлаждения Enermax Liqtech TR4 AIO (240 мм)
Операционная система Windows 10 Pro (Build 17134), Ubuntu 18.04 (4.15 kernel)

Тестовая платформа Intel LGA2011-3

Процессор Intel Core i9-7960X (2.8 ГГц, 16 ядер/ 32 потока)
Материнская плата ASUS ROG STRIX X299-E GAMING
EFI: 1401 (21 мая 2018)
Память G.SKILL TridentZ (4x 8 ГБ; DDR4-3200 14-14-14-34-1T)
Видеокарта NVIDIA Quadro P6000 24 ГБ (Quadro 397.93)
Накопитель WD Blue 3D NAND 1 ТБ (SATA 6 Гбит/с)
Блок питания Corsair Professional Series Gold AX1200 (1200 Вт)
Корпус Corsair Carbide 600C
Система охлаждения NZXT Kraken X62 AIO (280 мм)
Операционная система Windows 10 Pro (Build 17134), Ubuntu 18.04 (4.15 kernel)

Чем больше я смотрю на эти комплектации, тем больше убеждаюсь в том, что это одно из самых справедливых состязаний, которые мы когда-либо устраивали. Обычно всю картину портит память, вынужденная работать на разных платформах с разной скоростью, но в данном случае мы избавлены от этой проблемы. Число ядер процессора одно и то же, и видеокарты тоже одинаковые. Всё яблочко к яблочку в этих рабочих станциях, которые могли бы сокрушить Apple. И это еще цветочки.

Единственное, что я здесь, возможно, поменял бы – это SSD: с SATA на M.2. SATA SSD используются здесь по той простой причине, что, во-первых, я хотел сохранить паритет между двумя машинами – чтобы они использовали одинаковые модели накопителей SSD, которые подходят для восстановления операционной системы, поскольку с этой задачей в ходе подобного тестирования приходится сталкиваться довольно часто. А во-вторых, я проводил сравнительные исследования дисков M.2 и SATA, и они не выявили существенных преимуществ M.2. В конце концов, здесь важны не столько модели SSD, сколько то, что обе станции используют одинаковые накопители.

Все тесты прогонялись на каждой платформе минимум по два раза, а при необходимости – еще и третий раз, если расхождение между результатами первых двух прогонов оказывалось слишком большим. Если какие-то результаты покажутся вам странными, то, скорее всего, мне тоже так показалось, и соответствующие тесты я прогонял по три-четыре раза.

Визуализация объектов моделирования

Недавно мы подробно рассматривали (с помощью SPECviewperf 13) показатели производительности в программах моделирования с визуализацией, полностью сосредоточив свое внимание на видеокартах. В конечном счете, производительность графической карты имеет здесь определяющее значение, но, если процессор медленный или имеет еще какой-нибудь специфический «пунктик», он может самым неожиданным образом повлиять на общий результат. К счастью, мы собственными глазами можем увидеть некоторую разницу и в результатах, приведенных ниже. Поскольку тут всё довольно просто – один показатель сравнивается с другим – я ограничусь короткими комментариями.

Кажется, для программ Autodesk больше подходит процессор Intel с высокой производительностью IPC, но в то же время AMD в ряде случаев «дышит в спину» или даже обгоняет команду синих – например, в тесте 3ds Max на разрешении 1080p. Позднее мы рассмотрим еще один тест с 3ds Max (уже с точки зрения рендеринга) и увидим, будет ли там такая же разница в производительности.

В AutoCAD платформа Intel не только демонстрирует лучшую производительность CPU, но и способствует повышению производительности GPU. Это может показаться странным, но я уже не раз сталкивался с подобными результатами. Таким образом, для AutoCAD выбираем Intel; для остальных программ хорошо подойдет и AMD.

Вначале я упомянул, что если качество работы ваших приложений зависит главным образом от видеокарты, то остальные комплектующие, включая процессор, имеют не слишком большое значение. Но все-таки имеют, поскольку платформа Intel располагается впереди AMD с довольно комфортным преимуществом в обеих программах – и CATIA, и SolidWorks. Однако производительность платформы AMD нельзя назвать однозначно худшей – на разрешении 4K она располагается почти вровень с Intel.

До этого момента платформа AMD испытывала трудности в ряде приложений, но только не в Siemens NX. Здесь она фактически превзошла Intel на обоих разрешениях.

В ходе недавних исследований со SPECviewperf 13 в тесте PTC Creo я столкнулся с неожиданной проблемой. По какой-то причине на видеокартах Radeon Polaris драйвер резко тормозил, из-за чего мне пришлось повторно тестировать каждую видеокарту и использовать для этого разные драйверы. И в этот раз я приступал к тесту Creo затаив дыхание, но всё прошло хорошо. Платформы AMD и Intel на разных разрешениях меняются местами, и снова – это результат многократных прогонов теста. Я всецело разделяю ваше удивление по этому поводу.

Подборку тестов с визуализацией завершают Medical и Energy, и здесь мы видим практически равные результаты. В этих программах графическая карта вносит в итоговый результат значительно больший вклад, чем процессор.

Рендеринг

Девять предыдущих бенчмарков наглядно показали, что каждая из двух рассматриваемых платформ имеет свои сильные стороны, которые делают ее более подходящим вариантом для того или иного дизайнерского пакета. В программах с основной нагрузкой на видеокарту некоторые результаты преподнесли нам небольшой сюрприз, и что-то мне подсказывает – впереди нас ждет еще много сюрпризов.

Рассмотрим теперь производительность наших рабочих станций в восьми приложениях для рендеринга. А следом за ними посвятим немного времени кодированию данных, Linux-приложениям и под конец – играм.

Рендеринг изображений – это процесс, который может быть значительно ускорен за счет грамотного подбора «железа», причем это утверждение справедливо и для процессора, и для видеокарты. Рассмотренные выше пакеты с визуализацией нагружают главным образом графический процессор, но в приложениях для рендеринга основной акцент может делаться как на GPU, так и на CPU. А в некоторых программах, таких как V-Ray и ProRender, наиболее показательным является комбинированный тест с одновременной нагрузкой на CPU и GPU.

Предыдущие результаты 3ds Max и Maya характеризуют главным образом производительность платформы в задачах визуализации, тогда как тесты из пакета SPECapc от SPEC дают нам более полную картину, которая включает в себя не только визуализацию – относительно грубое отображение объекта, но и рендеринг – расчет и построение изображения с высокой точностью. Набранные здесь баллы могут служить мерой «полной» производительности.

В предыдущей серии тестов платформа AMD смотрелась на фоне Intel в основном хорошо, но сейчас, при более объективном и глубоком рассмотрении, можно заметить явные расхождения. Это, вероятно, является результатом лучшей производительности процессора Intel, которая четко проявляется в рендеринге. Как и в случае с AutoCAD, платформа AMD демонстрирует спад производительности GPU даже при использовании одинаковых видеокарт. Немного странно и обидно.

В тесте V-Ray результаты графического процессора оказываются практически одинаковыми – что на платформе AMD, что на платформе Intel. Но это если вообще не принимать в расчет CPU; а если мы добавим процессор и рассмотрим результаты совместных усилий CPU и GPU, то увидим достаточно заметную разницу. В данном случае более высокая производительность IPC ставит платформу Intel на первое место. И вот ответ AMD:

Поскольку ProRender поддерживает рендеринг и от CPU, и от GPU, в данной статье эти результаты вполне уместны, как и результаты ряда других тестов (например, Blender, речь о котором пойдет ниже). Здесь всё в значительной степени ожидаемо, за исключением того факта, что в тесте для GPU платформа Intel проиграла AMD несколько секунд. Что касается CPU, то здесь Intel весьма комфортно устраивается на первом месте.

Программа Redshift в любых задачах с рендерингом очень мало использует CPU; практически весь процесс рендеринга осуществляется графическим процессором, и по его завершении результаты обеих платформ оказываются очень близкими.

Когда мы имеем в общей сложности больше 20 графиков, бывает забавно иной раз обнаружить среди них курьезный результат. То, что мы здесь видим, – вовсе не опечатка: на машине AMD рендеринг в Blender занимает одинаковое время при использовании что CPU, что GPU. Конечно, я тут же провел перетестирование, держа окно HWINFO открытым, и потратил еще 6 минут 25 секунд на CPU и 6 минут 27 секунд на GPU (вот так, нет в мире совершенства).

Вернемся к делу: более высокая производительность IPC процессора Intel опять ставит всю платформу впереди AMD. А к пакету Blender мы еще вернемся, когда будем рассматривать Linux-приложения.

Перед тем, как перейти к результатам теста Cinebench, я хочу заметить, что не уверен в его показательности с точки зрения оценки платформы в целом, но в качестве теста для процессора его вполне можно использовать. Этот автономный бенчмарк основан на версии Cinebench Release 15, и, хотя с тех пор вышло уже четыре поколения этого теста и на данный момент доступна версия R19, Cinebench R15 по-прежнему актуален. Вы можете воспользоваться им, если захотите сравнить производительность вашего процессора в рендеринге с нашими результатами.

Завершает эту серию тестов OctaneBench, который явно положительно характеризует платформу AMD. И это не проплаченный заранее пиар, а совершенно объективный результат, и разница с Intel тут из разряда существенных. Мне в принципе не нравится идея перекомпоновки тестовой системы с целью контрольной проверки – особенно если она предполагает замену памяти и видеокарты. Тем не менее, пришлось это сделать – для подтверждения первоначального результата.

И что это в итоге означает? Вопреки сложившемуся мнению, AMD располагает своими достаточно мощными решениями, которые за счет оптимизаций в ряде случаев способны побить козырь Intel в виде более высокой производительности IPC.

Кодирование данных, Linux и гейминг

Итак, мы рассмотрели наиболее важные, на мой взгляд, характеристики – показатели производительности рабочих станций в задачах визуализации объектов и рендеринга изображений. Нельзя сказать, что другие сценарии требуют на порядок меньше ресурсов, но именно рассмотренные выше нагрузки наиболее показательны с точки зрения оценки вычислительной мощности – особенно рендеринг. Обычные процессоры и видеокарты быстро увязают в подобных проектах, и это означает, что данные тесты еще долго не утратят своей актуальности.

А завершать наш обзор будут тесты на производительность при кодировании данных, также мы совершим небольшое путешествие в страну пингвинов, то есть проведем ряд тестов с ОС Linux, и, наконец, рассмотрим несколько игровых задач.

Кодирование данных в приложениях

Если вы не занимаетесь кодированием в рассмотренных здесь приложениях, вам может быть интересно узнать в подробностях, каким образом ваше «железо» взаимодействует с такой нагрузкой (используя AIDA64, HWINFO и т.д.). В некоторых случаях графическая карта почти совсем не задействуется, в других – резко сокращает время кодирования. Последнее в большей степени относится к кодированию медиаданных с очень высоким разрешением или специальному применению эффектов ускорения с помощью GPU.

Для этого вида тестирования мы выбрали программные пакеты Adobe Premiere Pro и MAGIX Vegas Pro. То есть только два приложения, но они лидируют на рынке программ для редактирования видео и результаты их работы на разном «железе» могут быть весьма показательными. В настоящее время мы осваиваем и другие видеоредакторы, чтобы включить их в наш арсенал тестов, в частности – Capture One и DaVinci Resolve.

Для установления единообразия все три проекта в этом тесте были сконфигурированы под CUDA, что позволило задействовать как CPU, так и GPU. В итоге, как показывает приведенная ниже диаграмма, платформа AMD в целом уступает Intel, но тем не менее результат теста с кодеком HEVC можно считать очень хорошим, учитывая привычно выдающиеся показатели Intel по части H.265.

Однако в остальном, принимая во внимание тот факт, что видеокарта здесь задействовалась в той же мере, что и процессор, а в тестах с кодеком H.264 платформа Intel все-таки оказалась заметно впереди, можно сказать, что здесь компания в очередной раз подтвердила свое лидерство.

В обоих тестах MAGIX Vegas использовался кодек HEVC, и тот факт, что обе платформы показали почти одинаковые результаты, не слишком удивляет, если вспомнить результат предыдущего теста с HEVC в Premiere Pro. Таким образом, при использовании кодека HEVC платформа AMD работает наравне с Intel, при использовании H.264 Intel имеет преимущество.

Linux-приложения

Поскольку эта статья выступает в качестве общего обзора характеристик производительности рабочих станций AMD и Intel, то нет необходимости запускать на них полный набор наших Linux-тестов. Я решил запустить только некоторые из них, просто чтобы посмотреть, как выглядит положение вещей при использовании альтернативной операционной системы.

Мы взяли за основу обновленную версию Ubuntu 18.04 вместе с драйвером Quadro 390. Значительных изменений конфигурации не потребовалось, но перед тестированием мы все-таки проверили установку профиля производительности (в каталоге /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor).

Во всех четырех тестах, результаты которых приведены выше, обработку данных производил центральный процессор, и поэтому почти везде с очевидным преимуществом лидирует платформа Intel. Обратите внимание, что в тестах 7-zip и OpenSSL лучшим результатом являются большие значения, а в тесте на компиляцию и в рейтрейсинге (C-Ray) – наоборот, меньшие. Причем самые скромные на первый взгляд показатели OpenSSL в наибольшей степени отражают лидерство Intel в части производительности.

Возможно, вы вспомнили (а если нет, то ничего страшного), что в тесте Blender (проект Pavillion) на платформе AMD процесс рендеринга занял 385 секунд – независимо от того, использовался для этого центральный или графический процессор. Под управлением Linux в том же самом тесте на рендеринг получился еще более интересный результат. На сей раз у платформы AMD результаты CPU и GPU заметно различаются, зато у обеих платформ получились одинаковые результаты GPU.

Что здесь еще интересно – под управлением Linux рендеринг в этом проекте осуществляется быстрее, чем под управлением Windows, причем это относится и к CPU, и к GPU. У AMD 385 секунд превратились соответственно в 372 и 336 для GPU и CPU. А у Intel процесс рендеринга на CPU вместо 336 секунд занял всего 298.

Гейминг

Обычно люди, планирующие покупать или собирать новый компьютер для работы, в этот момент не задумываются об играх, но тем не менее на рабочих станциях можно играть – почти с тем же успехом, что и на игровых машинах соответствующего уровня. Хотя вы вряд ли найдете там оптимизации под конкретные игры (что компенсируется оптимальной работой профессиональных приложений), и вообще, играть на видеокартах для рабочих станций – удовольствие не из дешевых.

В целом платформа AMD по игровой производительности не дотягивает до уровня Intel, но учтите, что самая большая разница здесь наблюдается на разрешении 1080p. Если вы планирует играть – или работать – на разрешении 4K, то знайте, что в этом случае разрыв между двумя платформами меньше.

Заключение

Итак, наша статья подходит к концу. Позвольте мне напомнить вам еще раз о двух вещах, упомянутых в самом начале. Во-первых, эта статья не претендует на глубокое исследование, несмотря на большое количество бенчмарков. Все эти результаты помогают составить общее представление о производительности платформ AMD и Intel, но приведенные здесь данные охватывают далеко не весь круг возможных задач. Таким образом, не стоит рассматривать эту статью в качестве исчерпывающего источника информации по теме.

Во-вторых, основная цель этой статьи – дать общую картину работы платформ с реальными приложениями. В статье отсутствует ряд характеристик, по которым можно было бы дополнительно сравнить эти две платформы, например, пропускная способность памяти, время задержки и т.д. Я не хотел рассматривать здесь слишком много параметров, которые часто не имеют большого значения для обычного пользователя. К тому же подобного рода тесты могут отвлекать внимание от действительно важных результатов.

Я бы сказал, что обе платформы – и AMD Ryzen Threadripper, и Intel Core X – предлагают энтузиастам достаточно опций, причем некоторые из них вряд ли будут постоянно использоваться. В AMD могут сколько угодно говорить об огромном количестве линий PCIe на своих платформах, но лично я не уверен, что большинство людей будет пользоваться хотя бы половиной. Что в принципе может заинтересовать пользователей – это память с ECC. Платформа AMD Ryzen Threadripper ее поддерживает, а Intel Core X – нет. Вот так.

Если важен фактор цены, то сложно пройти мимо выгодных предложений AMD. Прошлым летом новый Ryzen Threadripper 1950X стоил $1000, но после выхода поколения Threadipper 2 он значительно подешевел – до $700 (на Amazon), что очевидно выгодно при его производительности. Для сравнения – Intel Core i9-7960X стоит $1400.

Если же не смотреть на ценники, то здесь, в отличие от обзоров игровых видеокарт, исходя из данных производительности сложно сделать однозначный вывод. Что вы предпочтете – и что вам действительно нужно – зависит от производительности платформы при выполнении конкретных сценариев. Если вы, например, ежедневно работаете в SolidWorks, то большая часть других результатов для вас значения не имеет. Еще раз: всегда стоит знать нагрузку.

Обзор процессоров AMD Ryzen Threadripper 2990WX и 2950X: нужны ли в производительном десктопе 32 ядра, или посидим на 16

  • Страница 1 — Модельный ряд Ryzen Threadripper второго поколения. Улучшения микроархитектуры
    • § Модельный ряд Ryzen Threadripper второго поколения
    • § Улучшения микроархитектуры
    • § Threadripper WX ≠ 2 × Threadripper X
    • § Ryzen Threadripper 2990WX в подробностях
    • § Ryzen Threadripper 2950X в подробностях
    • § Разгон
  • Страница 2 — Описание тестовых систем и методики тестирования
    • § Описание тестовых систем и методики тестирования
    • § Производительность в комплексных бенчмарках
    • § Производительность в ресурсоёмких приложениях
    • § Производительность в играх. Тесты в разрешении FullHD
    • § Тесты в разрешении 4K
    • § Игровой режим
    • § Энергопотребление
    • § Выводы

Когда AMD представляла первоначальную версию HEDT-платформы (High-End Desktop) Threadripper, она преподносила её как некое экспериментальное и нишевое решение для настольных систем премиального уровня. Однако то, насколько тепло её встретили пользователи, превзошло самые смелые ожидания. Процессоры Ryzen Threadripper смогли предложить то, чего не было и нет у Intel: относительно доступный по цене процессор с большим массивом мощных вычислительных ядер. Количество потребителей, которых такие процессоры заинтересовали по роду их деятельности, вышло настолько значительным, что продолжение экспансии в сегмент высокопроизводительных десктопов и рабочих станций AMD сделала одной из основных своих задач. Шутка ли, развитие Ryzen Threadripper даже рассинхронизировалось с обновлением аналогичных по конструкции процессоров EPYC, и второе поколение Threadripper, продажи представителей которого начинаются с сегодняшнего дня, убежало вперёд от своих серверных собратьев.

Интерес к новым Ryzen Threadripper обусловлен не только тем, что это – первые многоядерные CPU, построенные на 12-нм микроархитектуре Zen+. Вместе с модернизацией на микроуровне AMD решила усилить своё HEDT-семейство принципиально. Теперь пользователи, которые занимаются созданием и обработкой цифрового контента, не только смогут выбирать среди 12- и 16-ядерных моделей Threadripper, но и получат куда более внушительные 24- и 32-ядерные варианты. Это значит, что Ryzen Threadripper второго поколения привлекательнее интеловских альтернатив не только с точки зрения цен, но и по «грубой силе», ведь доступные сегодня старшие Core i9 для платформы LGA2066 имеют в своём распоряжении лишь 18 ядер.

Впрочем, это вовсе не значит, что AMD попутно не стала ничего менять в ценообразовании. На момент выпуска процессоров Threadripper первого поколения компания ориентировалась на удельную цену порядка $62 за ядро. Уже тогда это было очень щедрое предложение, поскольку в HEDT-процессорах Intel стоимость ядра определена в $100. Но второе поколение Threadripper идёт ещё дальше, и стоимость ядра теперь снижается до $56. Таким образом, в армии сторонников многоядерных процессоров AMD класса HEDT может появиться большая группа новобранцев.

Однако в случае с Ryzen Threadripper мы хотели бы предостеречь от принятия быстрых эмоциональных решений. Как бы круто ни выглядели 32 ядра с ценой $1800, у новых HEDT-процессоров AMD, как и у всей платформы TR4 в целом есть немало серьёзных проблем, начиная с высокого тепловыделения и закачивая не совсем очевидной ситуацией с масштабированием производительности. Обо всём этом мы подробно поговорим в данном материале.

⇡#Модельный ряд Ryzen Threadripper второго поколения

Начнём с главного: во втором поколении своей HEDT-платформы AMD решила разделить модельный ряд на две части. Если раньше Ryzen Threadripper позиционировались в качестве универсальных процессоров высокой производительности для энтузиастов, то теперь компания стала дробить целевую аудиторию на более узкие сообщества.

К первой группе потенциальных покупателей Ryzen Threadripper были отнесены те пользователи, которые просто хотят получить в своё распоряжение исключительную вычислительную мощность и собираются использовать её для решения задач различного профиля. В качестве примера AMD, в частности, говорит о таких энтузиастах, которые в рабочее время имеют дело с обработкой или созданием цифрового контента, а досуг посвящают компьютерным играм. Им компания предлагает продолжать ориентироваться на процессоры серии X – чипы с 12 и 16 вычислительными ядрами, которые были доступны и в первом поколении Ryzen Threadripper, но с выходом второго поколения улучшили свои частотные характеристики и приобрели дополнительные возможности.

Во вторую группу AMD выделила профессионалов, которым нужна максимальная вычислительная производительность любой ценой. В понимании компании это 3D-дизайнеры, разработчики игр, видеомонтажёры, научные работники и тому подобные специалисты, имеющие дело с творческими задачами, порождающими высокие вычислительные нагрузки. Для них теперь предлагаются специальные версии Ryzen Threadripper серии WX, получившие 24 и 32 вычислительных ядра. Но нужно иметь в виду, что это на самом деле – не привилегированное предложение. Такие процессоры, несмотря на внушительное количество ядер, не универсальны: в отличие от представителей серии X они хорошо справляются лишь с легко распараллеливаемыми вычислительными задачами и плохо подходят для неоднородных нагрузок.

Таким образом, модельный ряд Ryzen Threadripper увеличивается в два с лишним раза: к трём моделям первого поколения добавляется сразу четыре новых процессора.

Ядра/ Потоки Базовая частота, ГГц Макс. частота, ГГц L3-кеш, Мбайт Поддержка памяти Линии PCIe TDP, Вт Цена
Threadripper 2990WX 32/64 3,0 4,2 64 4 × DDR4-2933 60 250 $1799
Threadripper 2970WX 24/48 3,0 4,2 64 4 × DDR4-2933 60 250 $1299
Threadripper 2950X 16/32 3,5 4,4 32 4 × DDR4-2933 60 180 $899
Threadripper 2920X 12/24 3,5 4,3 32 4 × DDR4-2933 60 180 $649
Threadripper 1950X 16/32 3,4 4,0 32 4 × DDR4-2667 60 180 $779
Threadripper 1920X 12/24 3,5 4,0 32 4 × DDR4-2667 60 180 $485
Threadripper 1900X 8/16 3,8 4,0 16 4 × DDR4-2667 60 180 $319

С учётом того, что у AMD теперь сосуществует два типа Ryzen Treadripper, флагманов среди процессоров второго поколения получилось тоже два.

Самым мощным процессором в семействе выступает 32-ядерный Threadripper 2990WX стоимостью $1 800, который, исходя из цены, противопоставляется интеловскому максимальному предложению для десктопов – 18-ядерному Core i9-7980XE. Характерно, что для маркировки этого процессора AMD использует суффикс WX, который давно прижился в сегменте профессиональной графики, где для рабочих станций предлагаются видеокарты Radeon Pro WX.

Умопомрачительное количество ядер в Threadripper 2990WX обеспечивается тем, что в отличие от предшественников и собратьев серии X этот процессор строится не на двух, а на четырёх 12-нм кристаллах Zen+ Zeppelin, и благодаря этому он стал ещё сильнее похож на серверные процессоры EPYC. Вместе с удвоившимся числом вычислительных ядер Threadripper 2990WX получил и увеличенный L3-кеш суммарным объёмом 64 Мбайт. Но в остальном старший Threadripper сохраняет большинство характеристик в привычных рамках: он полностью совместим с экосистемой Socket TR4 и потому поддерживает четыре канала памяти и 60 линий PCI Express 3.0. Немного удивляет разве только расчётное тепловыделение, доведённое до 250 Вт. Оно обусловлено тем, что вместе с 32 ядрами Threadripper 2990WX предлагает и относительно высокие рабочие частоты, которые согласно спецификации лежат в диапазоне от 3,0 до 4,2 ГГц. К тому же делать горячие процессоры для AMD совсем не в новинку: вспомним хотя бы про FX-9590, тепловыделение которого старший Threadripper превзошёл всего на 30 Вт. Но, как уверяет AMD, с энергетическими аппетитами 32-ядерного процессора никаких проблем быть не должно. Даже в TR4-материнские платы, выпущенные одновременно с первыми Threadripper, был заложен необходимый запас прочности.

Второй флагман среди Ryzen Threadripper второго поколения – это 16-ядерный Threadripper 2950X, процессор, приходящий на смену Threadripper 1950X. В отличие от Threadripper 2990WX эта новинка продолжает использовать в своей основе два 12-нм кристалла Zen+ Zeppelin, и поэтому она структурно близка к прошлогоднему Threadripper 1950Х. Но хотя вычислительных ядер и L3-кеша в новинке ровно столько же, выглядит она заметно лучше за счёт поднявшихся рабочих частот, которые теперь лежат в диапазоне 3,5-4,4 ГГц против 3,4-4,0 в 16-ядерном процессоре прошлого поколения. Кроме того, не стоит забывать, что характерной особенностью процессоров с микроархитектурой Zen+ выступают технологии Precision Boost 2 (PB2) и Extended Frequency Range 2 (XFR2), способные подстраивать частоту под имеющуюся нагрузку куда агрессивнее, чем это происходило ранее. В результате преимущество в производительности может оказаться даже более явным, чем это кажется при взгляде на паспортные характеристики. Вместе с тем никаких заметных изменений в тепловыделении Threadripper 2950X не произошло: характеристика TDP у нового 16-ядерника установлена в стандартную для платформы Socket TR4 величину 180 Вт.

Что же касается оснащённости Threadripper 2950X внешними интерфейсами, то в этом отношении 16-ядерник не отличается от 32-ядерного Threadripper 2990WX. Процессор предлагает те же четыре канала DDR4-2933 и 60 линий PCI Express 3.0. Но по сравнению с Threadripper 1950X появилась поддержка более скоростной памяти — раньше официально гарантировалась лишь совместимость с модулями DDR4-2666.

Несмотря на произошедшие перемены, процессоры Ryzen Threadripper второго поколения остаются совместимы с уже имеющейся платформой Socket TR4 без каких-либо ограничений. AMD специально подчёркивает, что все имеющиеся на рынке материнские платы, выпущенные для Threadripper 1920Х и 1950X, совместимы с новыми CPU после обновления BIOS. Иными словами, AMD придерживается выбранного курса на сохранение сквозной совместимости не только в массовой платформе Socket AM4, но и в системах класса HEDT. Но в отличие от массовых систем, где вместе с Ryzen двухтысячной серии появились улучшенные наборы системной логики, для процессоров Threadripper второго поколения продолжает предлагаться тот же чипсет X399, что и раньше.

Благодаря тому, что в Ryzen Threadripper поддерживается 60 линий PCI Express 3.0, большинство критически важных функций, таких как поддержка видеокарт и накопителей, реализуется без участия чипсета. Микросхема X399 фактически отвечает лишь за интерфейсы SATA и USB, а также за реализацию второстепенных линков PCI Express 2.0. Поэтому в обновлении она и не нуждается.

Зато за счёт программного обновления и старые, и новые материнские платы на базе X399 получили поддержку технологии StoreMI, которая позволяет строить производительные комплексные дисковые подсистемы, объединяющие в одном томе механические и твердотельные жёсткие диски, а также расположенный в оперативной памяти кеш. Прилагаемые к такому массиву интеллектуальные алгоритмы оптимизируют расположение файлов таким образом, чтобы гарантировать максимальную скорость доступа к наиболее часто используемым данным.

Оба новых флагманских HEDT-процессора, и Threadripper 2990WX, и Threadripper 2950X, поступят в продажу в самое ближайшее время: 32-ядерный чип можно купить начиная с сегодняшнего дня, а старший 16-ядерник серии X второго поколения поступит в магазины 31 августа. Что же касается двух других процессоров с 24 и 12 ядрами, то они выйдут несколько позднее, ориентировочно в октябре. Впрочем, по этому поводу вряд ли у кого-то возникнут особые переживания. Фактически Threadripper 2970WX и Threadripper 2920X представляют собой удешевлённые аналоги старших моделей Threadripper 2990WX и Threadripper 2950X, но с отключённой парой вычислительных ядер в каждом входящем в состав процессоров кристалле Zeppelin.

Отдельно стоит подчеркнуть, что 8-ядерная модель среди Threadripper второго поколения не предусмотрена. И это закономерно: продажи Threadripper 1900X были невысоки, и модернизировать эту модель не было никакого смысла. В конце концов, с ролью входного билета в платформу Socket TR4 вполне может справиться и недорогой процессор годичной давности.

⇡#Улучшения микроархитектуры

Как уже стало понятно к этому моменту, модельный ряд процессоров Threadripper второго поколения отличается двумя ключевыми признаками. Во-первых, в нём появились процессоры, которые собраны на основе четырёх, а не двух полупроводниковых кристаллов Zeppelin. И во-вторых, сами эти кристаллы получили более новый дизайн Zen+, который обзавёлся некоторыми усовершенствованиями. О том, чем Zen+ отличается от первоначальной микроархитектуры Zen, мы подробно говорили в обзоре Ryzen 7 2700X. Однако основные моменты заслуживают того, чтобы повторить их в контексте Threadripper.

Самое главное: Zen+ – это архитектура, получившаяся при переводе производства изначального дизайна Zen на более совершенный технологически процесс GlobalFoundries 12LP (Leading Performance) с 12-нм нормами. Однако в честь улучшения разрешения техпроцесса AMD не стала делать даже «оптический» редизайн своего кремния, поэтому и строение, и площадь, и компоновка полупроводникового кристалла остались ровно теми же, что и были до того. Тем не менее, даже несмотря на это, новая производственная технология позволила на 10-15 % улучшить производительность транзисторов, что стало хорошим фундаментом для корректировки зависимости тактовой частоты от напряжения питания.

В конечном итоге это позволило в среднем на 200 МГц поднять рабочие частоты новых процессоров, снизив им напряжение питания на 80-120 мВ. И в сумме же вышло так, что с новыми Threadripper более высокая производительность стала доступна без какого-либо роста практического энергопотребления и тепловыделения.

Вторая часть усовершенствований Zen+ затрагивает задержки подсистемы кеш-памяти. Правда, в случае Threadripper они не так заметны, как были заметны в процессорах Ryzen второго поколения.

Дело в том, что версия кристаллов, которая применялась в HEDT-процессорах первого поколения уже содержала часть улучшений относительно первоначальной версии дизайна. Поэтому для Threadripper имеют место лишь достаточно скромное сокращение задержек:

  • латентность L3-кеша снизилась на 15 %;
  • латентность L2-кеша снизилась на 9 %;
  • латентность L1-кеша снизилась на 8 %;
  • латентность памяти снизилась на 2 %.

К этому стоит добавить появление в Threadripper второго поколения официальной поддержки DDR4-2933, что отражает произошедший качественный скачок в оптимизации библиотек AGESA. И теперь AMD гарантирует, что на частоте 2933 МГц заработает любая память, установленная в количестве одного модуля на канал. Однако в случае использования в системе восьми модулей DIMM одновременно всё ещё действуют жёсткие ограничения, вплоть до того, что с двухранговыми модулями AMD гарантирует работоспособность памяти лишь в режиме DDR4-1866.

Кроме того, не стоит забывать и о появлении в Zen+ технологий динамического изменения частоты PB2 и XFR2. Они в полной мере присутствуют и в Threadripper второго поколения, что позволяет им очень гибко подстраивать свою частоту в зависимости от нагрузки. При этом PB2 – это достаточно самобытная реализация турборежима, которая не предусматривает никаких чётких рамок по частоте процессора в зависимости от нагрузки, а рабочий режим подбирается интерактивно с шагом в 25 МГц, исходя из показаний внутриядерных датчиков токов и потребления.

XFR2 же добавляет в формулу моментальной частоты ещё и температуру, позволяя процессору автоматически разгоняться на дополнительные 10-15 %, если его тепловой режим не внушает никаких опасений. По этой причине производительность процессоров Threadripper, как и Ryzen второго поколения, приобрела заметную зависимость от качества системы охлаждения. И этот момент необходимо иметь в виду.

⇡#Threadripper WX ≠ 2 × Threadripper X

Появление в семействе Threadripper двух различных классов процессоров, WX и X, – это отнюдь не вопрос маркетинга. Различия начинаются на уровне структуры и затрагивают как алгоритмы работы подсистемы памяти, так и схему взаимодействия ядер между собой, что в конце концов приводит к тому, что 32-ядерный и 16-ядерный Threadripper – это два принципиально различных по сути продукта.

Основной строительный блок в современных процессорах AMD – это полупроводниковый кристалл Zeppelin, в котором объединены восемь распределённых по двум CCX (CPU Complex) вычислительных ядер. Таким образом, для создания 16-ядерных процессоров достаточно двух таких чипов: этот подход использовался в Threadripper первого поколения, по такому же принципу построены и новые 16-ядерные решения серии X. Несмотря на то, что упаковка любых процессоров Threadripper унифицирована с серверными EPYC и рассчитана на размещение внутри четырёх кристаллов Zeppelin, в продуктах серии X лишь два кристалла рабочие, а два других представляют собой кремниевые заглушки, необходимые для обеспечения механической прочности конструкции.

Объединённые в одно целое на текстолитовой подложке кристаллы на логическом уровне соединяются посредством фирменной высокоскоростной шины AMD Infinity Fabric. В дизайне Zeppelin заложено четыре внешних двунаправленных линка Infinity Fabric шириной 32 бита, но в случае собранных из двух составных частей 16-ядерных процессоров для соединения кристаллов используется по два линка. Шина Infinity Fabric синхронизирована с контроллером памяти, и, при условии использования в системе DDR4-2933, соединение кристаллов в 16-ядерных Threadripper X получает суммарную пропускную способность 93,9 Гбайт/с.

В случае же Threadripper WX схема построения процессора приобретает более сложный вид. Для создания 32-ядерного процессора требуется уже четыре чипа Zeppelin, каждый из которых связывается тремя линками Infinity Fabric с тремя другими кристаллами. Это значит, что пропускная способность попарных соединений между кристаллами в Threadripper WX ниже, чем в Threadripper X, и при работе памяти в режиме DDR4-2933 достигает лишь 46,9 Гбайт/с.

Но главная причина, по которой Threadripper WX нельзя воспринимать как простое удвоение потенциала Threadripper X, заключается даже не в этом. Есть гораздо более значимый фактор, который делает из 32-ядерного CPU не совсем привычный для десктопного окружения продукт. Этот фактор – организация подсистемы памяти. AMD захотела вписать собранный из четырёх кристаллов 32-ядерный процессор в уже имеющуюся инфраструктуру Socket TR4, и это привело к тому, что подсистема памяти у Threadripper WX получилась неравномерной.

Дело в том, что платформа Socket TR4 изначально проектировалась под процессоры с числом ядер не больше 16, поэтому она предполагает наличие внешних интерфейсов только у двух кристаллов Zeppelin, составляющих процессор. В результате пара «дополнительных» кристаллов в Threadripper WX никаких связей с внешним миром не может иметь по определению. Для того чтобы убрать это ограничение, AMD могла бы перепроектировать платформу, сблизив её по свойствам с серверной Socket SP3, но выбор был сделан в пользу совместимости новых процессоров с уже имеющейся инфраструктурой. В результате в 32-ядерном процессоре фактически соседствуют две функционально различные разновидности кристаллов: два полноценных чипа и два кристалла с урезанной функциональностью, которые AMD называет вычислительными, – не имеющие собственной памяти и лишённые собственных линий PCI Express.

Получается, что память в системах на базе Threadripper WX распределена между ядрами неравноправно, и четыре канала DDR4 SDRAM относятся лишь к двум кристаллам Zeppelin – по два канала на кристалл. А это в свою очередь влечёт за собой невозможность реализации обычной для настольных систем однородной модели памяти с равноправным доступом UMA (Uniform Memory Access). Поэтому в то время как 16-ядерные Threadripper X по умолчанию работают со всей своей памятью в четырёхканальном режиме, синхронно раскладывая все обращения по двум контроллерам памяти в разных кристаллах, и за счёт этого всегда демонстрируют одинаковую скорость доступа, в Threadripper WX пришлось реализовать более сложную модель NUMA (Non-Uniform Memory Access), где память жёстко привязана к кристаллам и время доступа к ней зависит от местоположения данных по отношению к инициирующему обращение ядру.

По сути, Threadripper WX единым процессором с четырехканальной памятью и не является, он больше похож на собранную на единой текстолитовой подложке четырёхпроцессорную систему, в которой два узла имеют собственную двухканальную память, а два других – лишены памяти вовсе. И такая подсистема памяти работает не совсем очевидно. Пиковая пропускная способность памяти в 32-ядерных Threadripper WX в любом случае оказывается вдвое ниже, чем в 16-ядерных, где контроллеры памяти работают в комбинированном четырёхканальном режиме, но зато, если кристалл Zeppelin взаимодействует с собственным контроллером памяти, достигается заметный выигрыш в латентности. AMD даёт такую оценку: латентность памяти при работе ядра с собственным контроллером DDR4 SDRAM, находящимся в том же кристалле, составляет 64 нс, в то время как при обращениях к данным через контроллер соседнего кристалла она возрастает до 105 нс.

Такое различие в латентности не имело бы неприятных последствий, если бы данные находились поблизости от ядра, обращающегося к памяти, с высокой долей вероятности. Но к сожалению, гарантировать это невозможно, хотя планировщики в современных операционных системах, и в Windows в том числе, и стараются строить работу с NUMA-системами таким образом, чтобы создаваемые одним приложением вычислительные потоки оставались по возможности в рамках одного узла и не порождали необходимость в перекрёстном обмене данными между ядрами в разных кристаллах.

Но с Threadripper WX случай особый: половина его ядер своей памяти не имеет вовсе, поэтому, так или иначе, массово гонять данные по внутрипроцессорным линкам Infinity Fabric в этих процессорах всё равно приходится. Кроме того, напомним, речь идёт о решении для рабочих станций, и в такой среде приложения, которые бы не стремились занять нагрузкой более восьми вычислительных ядер одного кристалла Zeppelin и могли бы изолированно работать в рамках одного кристалла-узла, встречаются не так часто. Поэтому работа с памятью в Threadripper WX – катастрофически слабое место. Такой процессор целесообразно использовать либо для запуска армады малопоточных приложений, не требовательных к пропускной способности памяти, либо для задач, которые хорошо распараллеливаются, но не требуют для своей работы больших объёмов данных. В противном случае вся внутренняя структура процессора будет перегружена и станет узким местом, серьёзно ограничивающим производительность.

Кстати, подобная ситуация в Threadripper WX складывается не только с памятью, но и с распределением линий PCI Express. Они также относятся лишь к двум из четырёх процессорных кристаллов, и интенсивная работа с графическими картами или скоростными NVMe-накопителями тоже может стать для этого процессора определённой проблемой. Иными словами, любые пересылки данных для Threadripper WX противопоказаны. Полностью «забить» потоком данных внутренние линки Infinity Fabric могут не только обращения к памяти через контроллер соседнего кристалла, но и даже элементарные обращения ко внешним устройствам – видеокартам и NVMe-накопителям.

Именно поэтому Threadripper WX и позиционируется AMD особым образом. Этот процессор – решение не для всех не столько из-за высокой цены, сколько из-за того, что подходит он исключительно для определённых задач. В тех случаях, когда его несимметричная NUMA-архитектура плохо ложится на характер нагрузки, а это может происходить достаточно часто, производительность 32-ядерного монстра может оказаться категорически разочаровывающей. Располагающий 16 ядрами и подсистемой памяти с UMA-архитектурой Threadripper X подобных проблем решён, и универсальным многоядерным решением следует считать именно его, а не специфический Threadripper WX.

⇡#Ryzen Threadripper 2990WX в подробностях

Итак, Ryzen Threadripper 2990WX – это пусть и несколько своеобразный, но всё равно эпический процессор с 32 вычислительными ядрами и поддержкой SMT, дающей возможность одновременного исполнения 64 потоков. Как уже было сказано выше, этот процессор собран на основе четырёх кристаллов Zen+ Zeppelin, что означает, что в его конструкции принимает участие восемь модулей CCX, которые в общей сложности дают L3-кеш общим объёмом 64 Мбайт. Столь мощных по оснащению конфигураций, направленных на десктопы, мы ещё не видели, и было бы совершенно неудивительно, если бы подобный монстр не смог бы похвастать высокими тактовыми частотами.

Но ничего подобного: инженеры AMD смогли выжать из Threadripper 2990WX очень достойные частотные характеристики. Новый 12-нм техпроцесс, который используется в производстве строительных блоков Threadripper второго поколения, а также строгий отбор наиболее удачных кремниевых заготовок, из-за которого в них может попасть не более 5 процентов из сходящих с конвейера кристаллов, позволили определить номинальную частоту Threadripper 2990WX в 3,0 ГГц. Причём в большинстве случаев этот процессор будет работать гораздо быстрее: максимальная частота в турборежиме может доходить до 4,2 ГГц.

На следующем графике мы попытались отобразить, как выглядит реальная частота Threadripper 2990WX при нагрузке различной интенсивности. Выполняя тестирование производительности этого процессора в номинальном режиме в Cinebench R15 при задействовании различного числа вычислительных потоков, мы фиксировали выбранную процессором частоту. Её распределение в зависимости от загрузки процессора приобрело следующий вид.

Несмотря на то, что в качестве базового уровня для Threadripper 2990WX заявлена частота 3,0 ГГц, в реальности этот процессор почти всегда работает быстрее. И даже при рендеринге в Cinebench R15 на всех ядрах мы наблюдали частоту 3,2-3,3 ГГц, что как минимум на 10 % превосходит базовый уровень.

Threadripper 2990WX представляет собой NUMA-систему с четырьмя узлами, где каждый узел – это отдельный кристалл. При этом сами узлы различаются между собой: два – располагают двухканальными контроллерами памяти, а два – работают вообще без собственной памяти. В отличие от Threadripper прошлого поколения, совместную кооперативную работу двух контроллеров памяти в Threadripper 2990WX включить невозможно, и NUMA-архитектура для него – это навсегда.

Распределение ядер по узлам NUMA выглядит следующим образом.

К приведённой иллюстрации нужно добавить, что контроллеры памяти и PCI Express расположены в узлах с номерами 0 и 2, а узлы 1 и 3 – чисто вычислительные и внешних интерфейсов лишены. Именно поэтому ядра имеют не совсем естественную нумерацию: AMD присвоила первые 16 номеров тем ядрам, которые имеют возможность работать с памятью более быстро, в надежде на то, что планировщик операционной системы первоначально будет размещать нагрузку именно на них, а ядра без прямого доступа к памяти пойдут в дело лишь во вторую очередь.

Впрочем, на практике это помогает далеко не всегда. В Windows 10 порой случается, что приложения «уезжают» на дальние ядра, работающие с памятью через дополнительные линки Infinity Fabric. Поэтому иногда бывает так, что приложение раз за разом работает с разной производительностью в зависимости от того, получилось у него разместиться на ядрах, расположенных в кристаллах с контроллером памяти, или не получилось.

Чтобы проиллюстрировать сказанное, достаточно посмотреть на то, как меняется скорость работы с памятью в зависимости от того, идут ли обращения к ней через контроллер памяти, находящийся в том же кристалле Zeppelin, или же через соседний. В следующих таблицах приведена практическая латентность и пропускная способность, развиваемая NUMA-узлами при работе с собственной памятью и памятью соседних NUMA-узлов (процессор работает на фиксированной частоте 3,8 ГГц, в подсистеме памяти используется DDR4-3200, измерения выполнены при помощи Intel Memory Latency Checker).

Результаты весьма показательны. Задержки при обращении ядер одного процессорного кристалла к «чужой» памяти, относящейся к контроллеру памяти другого кристалла, вырастают сразу на 75 процентов, а пропускная способность из-за ограниченности полосы пропускания коммутирующей кристаллы Zeppelin шины Infinity Fabric оказывается меньше почти вдвое. Иными словами, работа с данными, находящимися вне одного NUMA-узла, происходит в Threadripper 2990WX с достаточно низкой эффективностью.

Для полноты картины стоит взглянуть и на задержки, возникающие при пересылках данных между ядрами.

Естественно, низкие задержки — на уровне 43-44 нс — обеспечиваются лишь при тех пересылках данных, которые происходят между ядрами в рамках одного CCX-модуля. Если же отправитель и получатель находятся в разных CCX, но в одном кристалле, то латентность всё равно сразу же возрастает в три с половиной раза. А если данные требуется передавать ещё дальше – в соседний кристалл, то латентность таких межъядерных обменов увеличивается до более чем 200 нс. Любопытно, что те вычислительные ядра, которые расположены в кристаллах без собственного контроллера памяти, порождают при пересылках данных дополнительные задержки, в результате чего латентность межъядерных обменов может доходить до внушительной величины в 245 нс. Очевидно, шина Infinity Fabric загружена в них сильнее, чем в обычных кристаллах Zeppelin.

Ещё одна тонкость, связанная с эксплуатацией Threadripper 2990WX, касается впечатляющего тепловыделения этого процессора. В официальной спецификации говорится о тепловом пакете в 250 Вт, и это вызывает сразу два вопроса: смогут ли потянуть 32-ядерник уже выпущенные TR4-материнские платы, изначально рассчитанные на 180-ваттные Threadripper первого поколения, и какой кулер потребуется для отвода такого количества тепловой энергии.

К счастью для потенциальных покупателей Threadripper 2990WX, никаких шокирующих ответов на эти вопросы AMD не даёт. Утверждается, что платы первого поколения с новым 32-ядерником вполне совместимы после обновления BIOS. И какие-то проблемы со схемами питания могут возникать разве только при разгоне. Впрочем, флагманские платформы вроде ASUS Zenith Extreme дадут возможность разогнать Threadripper 2990WX до максимума, несмотря на свой возраст. Единственное, что может потребоваться, — это дополнительное охлаждение схемы питания на материнской плате. Для тех же пользователей, которые всё же сомневаются в полной совместимости, производители подготовили несколько «усиленных» Socket TR4-материнок второго поколения. Например, MSI MEG X399 Creation, на базе которой мы проводили тесты для этого обзора.

MSI MEG X399 Creation

Не требуются для Threadripper 2990WX и никакие особенные системы охлаждения. Те кулеры, которые подходили для Threadripper первого поколения, скорее всего, справятся и с 32-ядерным флагманом. Более того, сама AMD по-прежнему рекомендует использовать с новым старшим HEDT-процессором системы жидкостного охлаждения, сделанные Asetek, и даже комплектует 2990WX совместимым креплением для стандартного цилиндрического водоблока.

Впрочем, жидкостное охлаждение необходимостью не является, вполне можно обойтись даже воздушным кулером. Например, вместе с Threadripper второго поколения AMD в сотрудничестве с Cooler Master выпустила специальный кулер Wraith Ripper, представляющий собой двухсекционную башню с одним 120-мм вентилятором и семью тепловыми трубками.

Но есть важный момент: этот кулер имеет большую подошву, которая покрывает крышку Threadripper полностью. И это, как показывает практика, заметно улучшает теплоотвод от процессора. В качестве примера мы сравнили максимальную температуру Threadripper 2990WX при прохождении нагрузочного тестирования в Prime95 при использовании нового Wraith Ripper, системы жидкостного охлаждения Corsair Hydro Series H115i с водоблоком стандартного размера и системы жидкостного охлаждения Enermax Liqtech 240 TR4 со специальным водоблоком для Threadripper, который полностью закрывает поверхность этого CPU.

AMD Ryzen Threadripper 2990WX
Температура Tdie в Prime95 (макс.), °C Частота в Prime95 (мин.), МГц
Cooler Master Wraith Ripper 64,3 3025
Corsair Hydro Series H115i 63,8 3050
Enermax Liqtech 240 TR4 54,9 3100

Как следует из проведённого экспресс-тестирования, полное покрытие системой охлаждения всей поверхности теплорассеивающей крышки процессора – очень весомый фактор. Благодаря большой площади основания воздушный кулер получает возможность сравниться по эффективности даже с достаточно неплохой системой жидкостного охлаждения. А система охлаждения с большим водоблоком выигрывает у «водянки» Corsair/Asetek с водоблоком стандартного размера почти десять градусов, несмотря на то, что она располагает радиатором меньшего размера.

Иными словами, вывод очевиден: для систем с 250-ваттным Threadripper 2990WX лучше подбирать такой кулер, который имеет большую подошву, подогнанную по размеру для Socket TR4-процессора. Это важно ещё и потому, что от температуры процессора зависит работа технологии XFR2, и лучшее охлаждение даёт процессору возможность автоматически выходить на более высокие частоты и показывать лучшую производительность.

⇡#Ryzen Threadripper 2950X в подробностях

Рассказ про 16-ядерный и 32-поточный Threadripper 2950X будет заметно короче. Этот процессор выступает простым инкрементным обновлением Threadripper 1950X годичной давности, а потому с точки зрения архитектуры ничего нового не приносит. Разница есть лишь в частотах, которые увеличились благодаря использованию 12-нм, а не 14-нм кремниевых кристаллов. Так, базовая частота Threadripper 2950X выросла на 100 МГц – до 3,5 ГГц, а максимальная частота в турборежиме увеличилась сразу на 400 МГц – до 4,4 ГГц.

В реальном использовании частоты в зависимости от нагрузки распределяются примерно так, как показано на следующем графике, на котором задокументировано поведение Threadripper 2950X в номинальном режиме в Cinebench R15 при задействовании различного количества ядер.

Как и в случае Threadripper 2990WX, хорошо прослеживается работа технологии PB2, которая тонко подстраивает рабочую частоту под параметры нагрузки и текущего энергопотребления. Не стоит забывать и про XFR2 – технологию, дополнительно наращивающую частоту процессора в благоприятном температурном режиме. Благодаря этому при условии качественного охлаждения Threadripper 2950X удаётся удерживать реальную частоту выше 4,0 ГГц при загрузке вплоть до 12 ядер.

Threadripper 2950X собран на основе двух, а не четырёх, как Threadripper 2990WX, полупроводниковых кристаллов Zen+ Zeppelin. Из-за этого у него не только вдвое меньше вычислительных ядер, но и вдвое меньше суммарный объём L3-кеша. Но большое преимущество заключается в том, что оба кристалла в нём равноценны, и благодаря этому никакой муторной и накладной для десктопного CPU реализации NUMA-архитектуры не требуется.

Threadripper 2950X использует более естественную модель памяти UMA, то есть вся установленная в системе память для всех ядер равнозначна. Физически это реализуется за счёт объединения двух имеющихся в кристаллах Zeppelin двухканальных контроллеров в один четырёхканальный и равномерного распределения по четырём каналам всех обращений к памяти. В результате Threadripper 2950X может предложить более высокую пропускную способность при работе с памятью. Однако если сравнивать с обычными процессорами Ryzen, то работа с памятью у Threadripper 2950X происходит с более высокими задержками, связанными с постоянной необходимостью переадресации части запросов в контроллер памяти соседнего кристалла.

Помимо модели памяти UMA, которая для Threadripper 2950X является основной, этот процессор можно переключить и в режим NUMA, что может быть интересно для каких-то чувствительных к латентности памяти малопоточных приложений, ярким примером которых выступают отдельные 3D-игры. Переключение осуществляется программно, при помощи утилиты AMD Ryzen Master, в которой предусмотрена специальная настройка.

Режим работы памяти: D (Distributed) = UMA; L (Local) = NUMA

В NUMA-режиме контроллеры памяти Threadripper 2950X разделяются, и каждый из кристаллов Zeppelin работает со своей собственной памятью независимо, обращаясь к соседнему контроллеру лишь по мере необходимости. Но, к сожалению, изменение модели работы с памятью происходит не «на лету». Для перехода от UMA к NUMA и обратно требуется перезагрузка, что делает пользование имеющимся в AMD Ryzen Master переключателем не слишком удобным.

Зато существование возможности переключения режимов позволяет нам наглядно показать разницу в пропускной способности и латентности памяти, возникающую при использовании Threadripper 2950X в конфигурации с NUMA- и UMA-памятью. Измерения сделаны при помощи утилиты Intel Memory Latency Checker, частота процессора – 3,8 ГГц, память работает в режиме DDR4-3200.

Результаты вполне логичны. В NUMA-режиме у Threadripper 2950X скорость работы с памятью в рамках одного узла (кристалла Zeppelin) похожа на ту скорость, которую обеспечивают обычные процессоры Ryzen. Однако если процессорному ядру требуется достучаться до памяти, подключённой к соседнему кристаллу, латентности возрастают на 75 процентов, а пропускная способность падает почти вдвое.

Чтобы не сталкиваться с подобным разбросом в скоростных параметрах, как раз и существует режим UMA. В нём пропускная способность памяти за счёт четырёхканальности заметно выше, чем у обычных Ryzen, но придётся смириться с высокими задержками, которые получаются даже выше, чем в самом худшем случае в NUMA-режиме. Впрочем, несмотря на это, AMD всё равно считает UMA-режим более подходящим вариантом для Threadripper 2950X: в приложениях для создания и обработки цифрового контента высокая пропускная способность важнее.

Поскольку Threadripper 2950X – более простой по сравнению с Threadripper 2990WX процессор, его тепловыделение типично для платформы Socket TR4 — 180 Вт. Это значит, что в случае 16-ядерного CPU никаких проблем с платами и системами охлаждения быть не должно. Для этого процессора заведомо сгодится то же самое оснащение, которое предлагалось производителями для предыдущего поколения процессоров Threadripper.

⇡#Разгон

Маловероятно, что пользователи процессоров класса Threadripper, нацеленных на применение в рабочих станциях, будут часто прибегать к разгону. Однако мы всё же не стали обходить эту тему стороной, ведь оверклокинг позволяет не только увидеть скрытый частотный потенциал, но и проверить запас прочности платформы в целом, который в случае появления процессоров с TDP 250 Вт вызывает некоторые опасения.

Однако начать эксперименты мы все же решили не с тяжеловеса Threadripper 2990WX, а более скромного в плане потребления энергетических ресурсов Threadripper 2950X. Подобный процессор первого поколения, Threadripper 1950X, мы в своё время смогли разогнать до 3,9 ГГц. Но Threadripper 2950X должен быть более податлив, ведь он собран на основе 12-нм кристаллов, главным преимуществом которых называется как раз увеличенный частотный потенциал. Тем более что процессоры Ryzen поколения Zen+ разгоняются до 4,0-4,2 ГГц, а для сборки процессоров класса Threadripper компания AMD отбирает наилучшие полупроводниковые кристаллы.

Кроме того, теперь в нашем распоряжении появилась новая система жидкостного охлаждения Enermax Liqtech 240 TR4, которая обладает водоблоком, полностью покрывающим теплораспределительную крышку Threadripper. А это, как мы уже убедились, позволяет существенно поднять эффективность теплоотвода, даже несмотря на сравнительно небольшой радиатор, который используется в этой системе охлаждения.

И в целом Threadripper 2950X не разочаровал. Полная стабильность тестового процессора была получена на максимальной частоте 4,1 ГГц.

После установки напряжения питания 1,3 В процессор, работающий на частоте 4,1 ГГц, успешно проходил тестирование в Prime95, а максимальные температуры ядер при этом не выходили за пределы 78 градусов. Энергопотребление разогнанного процессора во время теста, согласно данным внутреннего мониторинга, составляло порядка 290 Вт. Потребление же системы в целом достигало 390 Вт. Иными словами, с разгоном Threadripper 2950X всё оказалось вполне предсказуемо и прошло без каких-либо эксцессов.

Чего нельзя сказать о разгоне Threadripper 2990WX. Откровенно говоря, идея дополнительно увеличить частоту и напряжение процессору с расчётным тепловыделением 250 Вт без применения каких-либо продвинутых методов теплоотвода вызывает определённый скепсис. И как показала практика, совсем не зря. При оверклокерских экспериментах с Threadripper 2990WX возникает сразу две серьёзных проблемы. Во-первых, тепловыделение разогнанного процессора, построенного на четырёх кристаллах Zeppelin, лихо перешагивает через границу в 500 Вт, и отвести такое количество тепла на самом деле не так уж и просто даже с помощью системы жидкостного охлаждения. Во-вторых, в этом случае на конвертер питания на материнской плате ложится очень высокая нагрузка, в результате чего обеспечить его бесперебойную работу становится даже сложнее, чем совладать с тепловыделением процессора.

Например, оверклокерские тесты Threadripper 2990WX мы проводили в системе на базе новой Socket TR4-материнской платы MSI MEG X399 Creation, в которой реализован мощный 19-фазный преобразователь напряжения (16 каналов на процессор и 3 – на SoC). Но, даже организовав на тестовом стенде дополнительный обдув зоны VRM двумя 120-мм вентиляторами, мы всё равно столкнулись с перегревом преобразователя выше 110 градусов и срабатыванием его защиты. Похоже, что граница в 500 Вт – это тот критический предел энергопотребления процессора, после прохождения которого нужно серьёзно задумываться в том числе и о модернизации охлаждения на плате. А без этого разгон Threadripper 2990WX ограничивается скорее возможностями платформы, чем собственным потенциалом.

В конечном итоге, чтобы избежать срабатывания защиты в схеме преобразования питания, нам пришлось ограничить повышение напряжения на процессоре величиной 1,29 В. И в этом случае максимальная частота, при которой оказалась возможна стабильная работа Threadripper 2990WX, составила 3,9 ГГц. Впрочем, в любом случае работающий на такой частоте 32-ядерный процессор, — это настоящий монстр.

Никаких проблем с прохождением тестов стабильности в Prime95 работающим на 3,9 ГГц процессором Threadripper 2990WX не возникло. Максимальная температура процессора составила 84 градуса, его максимальное потребление – 458 Вт. Потребление тестовой системы целиком при нагрузочном тестировании не превышало 630 Вт.

⇡#Описание тестовых систем и методики тестирования

Для проведения тестирования мы получили от компании AMD оба флагманских процессора Threadripper второго поколения. И поскольку это – уникальные многоядерные продукты, какие CPU стоит выбрать для них в качестве соперников, долго думать не пришлось. Если исходить из объявленной официальной стоимости, 32-ядерный Threadripper 2990WX противопоставляется компанией AMD 18-ядерному Core i9-7980XE, а 16-ядерный Threadripper 2950X следует рассматривать как альтернативу 10-ядерному Core i9-7900X. Именно эта четвёрка и стала основным участником тестов.

А чтоб ей было не скучно, на диаграммы мы добавили результаты прошлого 16-ядерного Threadripper 1950X, а также показатели производительности флагманских процессоров для массовых платформ Socket AM4 и LGA1151v2.

В конечном итоге список задействованных в тестировании комплектующих получился таким:

  • Процессоры:
    • AMD Ryzen 7 2700X (Pinnacle Ridge, 8 ядер + SMT, 3,7-4,3 ГГц, 16 Мбайт L3);
    • AMD Ryzen Threadripper 1950X (Whitehaven, 16 ядер + SMT, 3,4-4,0 ГГц, 32 Мбайт L3);
    • AMD Ryzen Threadripper 2950X (Colfax, 16 ядер + SMT, 3,5-4,4 ГГц, 32 Мбайт L3);
    • AMD Ryzen Threadripper 2990WX (Colfax, 32 ядра + SMT, 3,0-4,2 ГГц, 64 Мбайт L3);
    • Intel Core i7-8700K (Coffee Lake, 6 ядер + HT, 3,7-4,7 ГГц, 12 Мбайт L3);
    • Intel Core i9-7900X (Skylake-X, 10 ядер + HT, 3,3-4,3 ГГц, 13,75 Мбайт L3);
    • Intel Core i9-7980XE (Skylake-X, 18 ядер + HT, 2,6-4,2 ГГц, 24,75 Мбайт L3).
  • Процессорные кулеры:
    • Corsair Hydro Series H115i;
    • Enermax Liqtech 240 TR4.
  • Материнские платы:
    • ASUS ROG Crosshair VII Hero (Socket AM4, AMD X470);
    • ASUS ROG Maximus X Hero (LGA1151 v2, Intel Z370);
    • ASUS Prime X299-Deluxe (LGA2066, Intel X299);
    • MSI MEG X399 Creation (Socket TR4, AMD X399).
  • Память:
    • 2 × 8 Гбайт DDR4-3200 SDRAM, 14-14-14-34 (G.Skill Trident Z RGB F4-3200C14D-16GTZR);
    • 4 × 8 Гбайт DDR4-3200 SDRAM, 14-14-14-34 (G.Skill Trident Z RGB F4-3200C14Q-32GTZR).
    • Видеокарта: NVIDIA Titan X (GP102, 12 Гбайт/384-бит GDDR5X, 1417-1531/10000 МГц).
    • Дисковая подсистема: Samsung 960 PRO 1TB (MZ-V6P1T0BW).
    • Блок питания: Thermaltake Toughpower DPS G RGB 1000W Titanium (80 Plus Titanium, 1000 Вт).

Текущие рекомендованные цены на процессоры, принявшие участие в тестировании, представлены в таблице, однако стоит иметь в виду, что процессоры AMD, особенно относящиеся к прошлому поколению, часто продаются дешевле официально обозначенных цен:

AMD Intel
$1 979 Core i9-7980XE
Ryzen Threadripper 2990WX $1 799
$989 Core i9-7900X
Ryzen Threadripper 2950X $899
Ryzen Threadripper 1950X $779
$359 Core i7-8700K
Ryzen 7 2700X $299

Тестирование выполнялось в операционной системе Microsoft Windows 10 Enterprise (v1709) Build 16299 с использованием следующего комплекта драйверов:

  • AMD Chipset Driver 18.10;
  • Intel Chipset Driver 10.1.1.45;
  • Intel Management Engine Interface Driver 11.7.0.1017;
  • NVIDIA GeForce 398.82 Driver.

Описание использовавшихся для измерения вычислительной производительности инструментов:

Комплексные бенчмарки:

  • Futuremark PCMark 10 Professional Edition 1.0.1275 – тестирование в сценариях Essentials (обычная работа среднестатистического пользователя: запуск приложений, сёрфинг в интернете, видеоконференции), Productivity (офисная работа с текстовым редактором и электронными таблицами), Digital Content Creation (создание цифрового контента: редактирование фотографий, нелинейный видеомонтаж, рендеринг и визуализация 3D-моделей). Аппаратное ускорение OpenCL в тестировании было отключено.
  • Futuremark 3DMark Professional Edition 2.4.4264 — тестирование в сцене Time Spy Extreme 1.0.

Приложения:

  • 7-zip 18.05 — тестирование скорости архивации. Измеряется время, затрачиваемое архиватором на сжатие директории с различными файлами общим объёмом 3,1 Гбайт. Используется алгоритм LZMA2 и максимальная степень компрессии.
  • Adobe After Effects CC 2018 15.1.0 – тестирование скорости рендеринга анимационного ролика. Измеряется время, затрачиваемое системой на обсчёт в разрешении 1920 × 1080@30fps заранее подготовленного видеоролика.
  • Adobe Photoshop CC 2018 19.1.3 — тестирование производительности при обработке графических изображений. Измеряется среднее время выполнения тестового скрипта, представляющего собой творчески переработанный Retouch Artists Photoshop Speed Test, который включает типичную обработку четырёх 24-мегапиксельных изображений, сделанных цифровой камерой.
  • Adobe Photoshop Lightroom Classic СС 7.3 – тестирование производительности при пакетной обработке серии изображений в RAW-формате. Тестовый сценарий включает постобработку и экспорт в JPEG с разрешением 1920 × 1080 и максимальным качеством двухсот 16-мегапиксельных изображений в RAW-формате, сделанных цифровой камерой Fujifilm X-T1.
  • Adobe Premiere Pro CC 2018 12.1.0 — тестирование производительности при нелинейном видеомонтаже. Измеряется время рендеринга в формат YouTube 4K проекта, содержащего HDV 2160p30 видеоряд с наложением различных эффектов.
  • Blackmagic DaVince Resolve Studio 15 Beta 8 – тестирование производительности при монтаже видеоконтента с его постобработкой. Измеряется время рендеринга в формат IMF (Interoperable Master Format) Dolby Vision UHD небольшого проекта, построенного на базе снятого на 8K-камеру видеоряда.
  • Blender 2.79b – тестирование скорости финального рендеринга в одном из популярных свободных пакетов для создания трёхмерной графики. Измеряется продолжительность построения финальной модели из Blender Cycles Benchmark rev4.
  • Corona 1.3 – тестирование скорости рендеринга при помощи одноимённого рендерера. Измеряется скорость построения стандартной сцены BTR, используемой для измерения производительности.
  • CryptoNightV7 – измеряется производительность расчёта хеш-функций при майнинге криптовалюты Monero с помощью программного обеспечения JCE Miner 0.32h.
  • Microsoft Visual Studio 2017 (15.1) – измерение времени компиляции крупного MSVC-проекта – профессионального пакета для создания трёхмерной графики Blender версии 2.79b.
  • Stockfish 9 – тестирование скорости работы популярного шахматного движка. Измеряется скорость перебора вариантов в позиции «1q6/1r2k1p1/4pp1p/1P1b1P2/3Q4/7P/4B1P1/2R3K1 w».
  • V-Ray 3.57.01 – тестирование производительности работы популярной системы рендеринга при помощи стандартного приложения V-Ray Benchmark;
  • VeraCrypt 1.22.9 – тестирование криптографической производительности. Используется встроенный в программу бенчмарк, задействующий тройное шифрование Kuznyechik-Serpent-Camellia.
  • x264 r2851 — тестирование скорости транскодирования видео в формат H.264/AVC. Для оценки производительности используется исходный 2160p@24FPS AVC-видеофайл, имеющий битрейт около 42 Мбит/с.
  • x265 2.4+14 8bpp — тестирование скорости транскодирования видео в перспективный формат H.265/HEVC. Для оценки производительности используется тот же видеофайл, что и в тесте скорости транскодирования кодером x264.

Игры:

  • Ashes of Singularity. Разрешение 1920 × 1080: DirectX 11, Quality Profile = High, MSAA=2x. Разрешение 3840 × 2160: DirectX 11, Quality Profile = Extreme, MSAA=Off.
  • Assassin’s Creed: Origins. Разрешение 1920 × 1080: Graphics Quality = Very High. Разрешение 3840 × 2160: Graphics Quality = Very High.
  • Kingdom Come: Deliverance. Разрешение 1920 × 1080: Overall Image Quality = Ultra High. Разрешение 3840 × 2160: Overall Image Quality = Ultra High.
  • The Witcher 3: Wild Hunt. Разрешение 1920 × 1080: Graphics Preset = Ultra, Postprocessing Preset = High. Разрешение 3840 × 2160: Graphics Preset = Ultra, Postprocessing Preset = High.
  • Watch Dogs 2. Разрешение 1920 × 1080: Field of View = 70°, Pixel Density = 1.00, Graphics Quality = Ultra, Extra Details = 100%. Разрешение 3840 × 2160: Field of View = 70°, Pixel Density = 1.00, Graphics Quality = Ultra, Extra Details = 100%.

Во всех игровых тестах в качестве результатов приводится среднее количество кадров в секунду, а также 0,01-квантиль (первая перцентиль) для значений fps. Использование 0,01-квантиля вместо показателей минимального fps обусловлено стремлением очистить результаты от случайных всплесков производительности, которые были спровоцированы не связанными напрямую с работой основных компонентов платформы причинами.

⇡#Производительность в комплексных бенчмарках

Вполне очевидно, что многоядерные процессоры, подобные Ryzen Threadripper, приобретаются отнюдь не для того, чтобы ускорить работу в обычных общеупотребительных приложениях. Они для этой цели практически бесполезны, и большой массив вычислительных ядер в таком случае – явно избыточный ресурс. Именно это и показывают результаты Futuremark PCMark 10: для типичной повседневной нагрузки лучше выбирать, во-первых, процессоры из массового сегмента и, во-вторых, решения серии Intel Core.

Немного иная картина наблюдается лишь в сценарии Digital Content Creation, для которого в бенчмарке используются творческие приложения. Здесь достаточно неплохо выступает новый 16-ядерный Ryzen Threadripper 2950X, которому удаётся обогнать и своего прямого конкурента Core i7-7900X, и почти все остальные процессоры, за исключением интеловского 18-ядерника.

А вот старший 32-ядерный Ryzen Threadripper 2990WX показывает низкую производительность даже здесь. Его тянет на дно NUMA-архитектура и ядра, не имеющие прямого доступа в память. Из этого можно сделать вывод о том, что старший HEDT-процессор компании AMD – несколько своеобразное решение, оценивать которое нужно, принимая во внимание особенности его внутреннего строения и не рассчитывая, что 32-ядерный массив сможет справиться с какой бы то ни было вычислительной нагрузкой.

В Futuremark 3DMark, где моделируется гипотетическая игровая нагрузка, мы пользуемся сценой Time Spy Extreme, которая отличается значительной ресурсоёмкостью и качественной оптимизацией под многопоточные процессоры. Поэтому гораздо более успешное, чем в PCMark 10, выступление Ryzen Threadripper второго поколения кажется здесь вполне закономерным. Особенно хорошее впечатление производит Ryzen Threadripper 2950X: при цене в $900 он может похвастать процессорным показателем производительности, почти вдвое превосходящим результат шестиядерного Core i7-8700K, и на четверть – результат 10-ядерного Core i9-7900X.

При этом Ryzen Threadripper 2990WX, к сожалению, столь же безукоризненной работой похвастать не может. Несмотря на то, что AMD позиционирует его как соперника 18-ядерного Core i9-7980XE, до интеловского флагмана он всё-таки не дотягивает. И на первом месте в 3DMark тем не менее оказывается флагманский HEDT-процессор Intel с 11-процентным отрывом от старшего 32-ядерного Threadripper второго поколения.

⇡#Производительность в ресурсоёмких приложениях

Уже по результатам тестов в синтетических бенчмарках было понятно, что Threadripper 2990WX и Threadripper 2950X – два процессора с принципиально различными повадками. И 32-ядерный монстр совсем не вдвое лучше, чем 16-ядерный HEDT-процессор. Изучение производительности в ресурсоёмких приложениях позволяет понять характер практического различия между флагманскими предложениями AMD глубже и оценить, где лучше подойдёт Threadripper серии X, а где – серии WX.

Если говорить о Threadripper 2950X, то это – действительно универсальный высокопроизводительный вариант для решения практически любых ресурсоёмких задач. Благодаря переходу на дизайн Zen+, он получил преимущество в размере 5-8 процентов по сравнению с первым 16-ядерным Threadripper 1950X. И в результате убедительное превосходство Threadripper 2950X над 10-ядерным процессором Core i9-7900X, который компания Intel предлагает за такую же цену, можно наблюдать почти во всех ситуациях. Средневзвешенное преимущество составляет внушительные 25 процентов, но в отдельных случаях, например при 3D-рендеринге, оно может достигать и 40 процентов.

В то же время 32-ядерный Threadripper 2990WX на фоне своего 16-ядерного собрата выглядит по меньшей мере странно. Системы с архитектурой памяти NUMA хорошо работают в серверах, но для рабочих станций широкого назначения – это крайне неоптимальный вариант. Действительно, если при решении той или иной задачи приложение начинает обращаться к заметным объёмам данных, производительность Threadripper 2990WX резко падает. И, судя по представленным результатам, происходит такое в реальной жизни очень и очень часто. Существует даже целый класс приложений, связанных с обработкой медиаконтента, в которых 32-ядерный Threadripper 2990WX проигрывает 16-ядерному Threadripper 2950X. Фактически новый 32-ядерник AMD смотрится достойно лишь в двух случаях: либо при финальном 3D-рендеринге, либо в несложных и хорошо распараллеливаемых счётных задачах вроде анализа шахматных позиций или майнинга.

Иными словами, если на Threadripper 2950X без каких-либо сомнений могут положиться все энтузиасты высокой производительности, то Threadripper 2990WX – это узкоспециализированная «числодробилка», принципиально проигрывающая интеловскому Core i9-7980XE в том случае, если от компьютера требуется нечто большее, чем просто рендерить 3D-сцены. Совершенно неудивительно, что AMD вынесла это предложение в отдельную серию WX. Как и видеокарты Radeon WX, Threadripper WX – очень дорогое, но совершенно бесполезное для подавляющего большинства пользователей решение.

AMD Ryzen 9 3900X vs AMD Ryzen Threadripper 1950X

Сравнительный анализ процессоров AMD Ryzen 9 3900X и AMD Ryzen Threadripper 1950X по всем известным характеристикам в категориях: Общая информация, Производительность, Память, Совместимость, Периферийные устройства, Технологии, Виртуализация. Анализ производительности процессоров по бенчмаркам: PassMark — Single thread mark, PassMark — CPU mark, Geekbench 4 — Single Core, Geekbench 4 — Multi-Core, 3DMark Fire Strike — Physics Score, CompuBench 1.5 Desktop — Face Detection (mPixels/s), CompuBench 1.5 Desktop — Ocean Surface Simulation (Frames/s), CompuBench 1.5 Desktop — T-Rex (Frames/s), CompuBench 1.5 Desktop — Video Composition (Frames/s), CompuBench 1.5 Desktop — Bitcoin Mining (mHash/s).

Преимущества

Причины выбрать AMD Ryzen 9 3900X

  • Процессор новее, разница в датах выпуска 1 year(s) 11 month(s)
  • Примерно на 114900% больше тактовая частота: 4600 MHz vs 4 GHz
  • Более новый технологический процесс производства процессора позволяет его сделать более мощным, но с меньшим энергопотреблением: 7 nm vs 14 nm
  • Кэш L3 в 2 раз(а) больше, значит больше данных можно в нём сохранить для быстрого доступа
  • Примерно на 71% меньше энергопотребление: 105 Watt vs 180 Watt
  • Производительность в бенчмарке PassMark — Single thread mark примерно на 20% больше: 2731 vs 2277
  • Производительность в бенчмарке PassMark — CPU mark примерно на 25% больше: 32860 vs 26219
  • Производительность в бенчмарке Geekbench 4 — Single Core примерно на 30% больше: 1276 vs 979
  • Производительность в бенчмарке Geekbench 4 — Multi-Core примерно на 15% больше: 12037 vs 10462
  • Производительность в бенчмарке 3DMark Fire Strike — Physics Score примерно на 34% больше: 12158 vs 9077
  • Производительность в бенчмарке CompuBench 1.5 Desktop — Face Detection (mPixels/s) примерно на 50% больше: 30.575 vs 20.348
  • Производительность в бенчмарке CompuBench 1.5 Desktop — Ocean Surface Simulation (Frames/s) примерно на 18% больше: 72.097 vs 60.995
  • Производительность в бенчмарке CompuBench 1.5 Desktop — T-Rex (Frames/s) примерно на 11% больше: 1.745 vs 1.579
  • Производительность в бенчмарке CompuBench 1.5 Desktop — Video Composition (Frames/s) примерно на 77% больше: 5.887 vs 3.322
Характеристики
Дата выпуска 7 July 2019 vs 31 July 2017
Максимальная частота 4600 MHz vs 4 GHz
Технологический процесс 7 nm vs 14 nm
Кэш 3-го уровня 64 MB vs 32 MB
Энергопотребление (TDP) 105 Watt vs 180 Watt
Бенчмарки
PassMark — Single thread mark 2731 vs 2277
PassMark — CPU mark 32860 vs 26219
Geekbench 4 — Single Core 1276 vs 979
Geekbench 4 — Multi-Core 12037 vs 10462
3DMark Fire Strike — Physics Score 12158 vs 9077
CompuBench 1.5 Desktop — Face Detection (mPixels/s) 30.575 vs 20.348
CompuBench 1.5 Desktop — Ocean Surface Simulation (Frames/s) 72.097 vs 60.995
CompuBench 1.5 Desktop — T-Rex (Frames/s) 1.745 vs 1.579
CompuBench 1.5 Desktop — Video Composition (Frames/s) 5.887 vs 3.322

Причины выбрать AMD Ryzen Threadripper 1950X

  • На 4 ядра больше, возможность запускать больше приложений одновременно: 16 vs 12
  • На 8 потоков больше: 32 vs 24
  • Кэш L2 примерно на 33% больше, значит больше данных можно в нём сохранить для быстрого доступа
  • Производительность в бенчмарке CompuBench 1.5 Desktop — Bitcoin Mining (mHash/s) примерно на 16% больше: 26.299 vs 22.686
Характеристики
Количество ядер 16 vs 12
Количество потоков 32 vs 24
Кэш 2-го уровня 8 MB vs 6 MB
Бенчмарки
CompuBench 1.5 Desktop — Bitcoin Mining (mHash/s) 26.299 vs 22.686

Сравнение бенчмарков

CPU 1: AMD Ryzen 9 3900X
CPU 2: AMD Ryzen Threadripper 1950X

AMD Ryzen Threadripper оказался вдвое мощнее топового Ryzen 7

На этой неделе AMD представила процессоры AMD Ryzen Threadripper (от рабочего названия Ryzen 9 компания отказалась) — прямого конкурента флагманских решений от Intel, в частности — Intel Core i9. Презентация состоялась в рамках выставки потребительской электроники Computex 2017. С каждым днём информации о 16-ядерных чипсетах становится всё больше. На днях в сеть попали официальные данные о производительности Ryzen Threadripper в приложении Blender. Как выяснилось, производительные показатели новинки на голову выше, чем у его предшественника в лице Ryzen 7.

Если у Ryzen 7 1800X (восемь ядер, 3,6 ГГц) в приложении Blender на отрисовку процессора и логотипа ушло 26 секунд, то новый Ryzen Threadripper осилил ту же задачу за 13 секунд. Процессор Intel Core i7-6900K с заданием справляется за 36 секунд.

Следует уточнить, что X399 ничем не отличается от X370. Отчего другое имя? Ответ прост: AMD присвоила тому же набору логики другое наименование дабы разделить платформы для старших и производительных систем. По части функциональных возможностей X399 идентичен X370. А потому будет чрезвычайно странно, если их ценники будут разными.

  • Назад
  • Вперед

174 комментария

B0RM0T0S,
Рузен лучше рузена! Инновации

Tirael4ik,
У других как-то иначе ?

Priizm,
В маркетинге у всах одинаково. Просто к чему эти сравнения с самим собой, я не понимаю. Хомяков собирать? Даешь тесты реальные с конкурентами чтоле

Tirael4ik,
в однопоточных бенчмарках желательно. а нет, тогда амд опять проиграют

Crimento,
Да в тех же играх, бенчмарках, многопоточных приложениях и прочем прочем.
Всяко лучше будет, чем вышел лысый жулик и скащал что они там посчитали и получилось 100500% прироста, которого обычно в итоге не найдешь

Tirael4ik,
У него тупо в 2 раза больше ядер, вот и прирост. И 4 канала памяти вместо двух.
Брать такой проц для игр глупо, он не для этого.

-WOLF-,
а для чего? Поясни плиз

andros9090,
Для работы. Обработка видео, рендер 3D сцен, компиляция больших программ.

А к чему там картинка про размер процыка? Кто знает, подскажите пожалуйста. Я лично не понял, новый процык будет в 2 раза больше, чем предыдущие?

Fler_Korona,
Он физически будет в два раза больше , так как там по сути 2 рузена восьмиядерных под капотом.

Fler_Korona,
Он в пол ладони размером, имеет другой сокет несовместимый с ам4 и соответственно требует соответствующую совместимую с ним материнку.

Tirael4ik,
самое интересное, что они опять многоядерный проц сравнивают со старым интелом — 6900k, у которого в 2 раза меньше ядер. Было бы очень странно, если бы в этом сравнении они проиграли. Но толку то.

Vitek_22,
И правильно сравнивают, ибо сравнивают по цене. Этот самый старый интел стоит едва ли не дороже нового райзена.

Crimento,
ну однопоточные бенчмарки нужны только не далеким людям, если для тебя важен 1 поток покупай себе пентиум 4 екстрим гони до 4.2 гц будет счастье. А по факту много поток рулит, в любой задаче кроме «ихор» на которые как то побарабану людям которые покупают топовые пк и рабочие станции. ( эти процессоры для игр это лютый идиотизм и из общей массы покупателей «для игр» их берет очень мало народу) Да и за многопотоком будущее все топовые приложения умеют в многопоток. Так что такое.

DX11, DX12, OpenGL4.5 и VulkanAPI давно используют цпу на многопотоке в играх

Когда везешь большой груз нужна упряжка из 5 лошадок, а когда везежь легкий груз тогда что 2 лошадки что 5 — быстрее не поедишь и гораздо лучше будеть иметь 1 более быстрого коня. С ядрами аналогично, бывают задача легкая и последовательная и однопоточнпя производительность важнее, а бывает массив и нужно побольше ядер.

Migifbug,
Вы мне сломали сейчас логику, получается для обычного автомобиля достаточно мощности двигателя в одну быструю лошадку, а все эти сотни лошадей маркетинг?

anshi3032,
Вспомнил тест Галилео, где 30—сильный трактор еле-еле сдвинул бревно, а один конь это сделал с лёгкостью

Migifbug,
Так не бывает. Все задачи изначально однопоточные. Чтобы сделать из них многопоток — надо думать. Но многим лень, поэтому производительность на ядро и «рулит». Правда, ей не долго осталось «рулить», процессоры уже очень слабо наращивают гигагерцы.

anshi3032 — 1 ядро — 1 автомобиль, от того что 1 прицеп повезут 3 авто быстрее прицеп не поедет. Распараллелить прицеп на 3 авто нужно только в том случае, если груз очень тяжелый, в остальных случаях рулит именно скорость 1 авто (1 ядра), так как многие задачи однопоточные и последовательные (когда нельзя распараллелить)
-WOLF- — как вы распараллелите последовательные операции? Когда последующая задача определяется результатом предыдущей? у вас процессор не пророк чтобы знать будущее и отправлять его на другие ядра. Многопоточные операции нужно когда большой объём вычислений который можно распределять на разные параллельные потоки, а там где последовательные операции там нужен быстрый конь (быстрое ядро с высокой частотой)

-WOLF-,
Все задачи изначально однопоточные
не все, например та же игра
там сразу много задач выполняется
просчет ИИ (искустрвенный идиот) просчет физики (не надо про физиксы и прочую чепуху используемую в полутора играх, физика все так же считается на ЦПУ, просчет геометрии и положения обьектов в кадре
работа ОС
работа драйвера, работа самого API
все это по сути разные потоки, во время выполнения одного — простаивает другая залача

Migifbug,
Да, не всё можно распараллелить или хорошо распараллелить. Но почитай про конвейер процессора, он один поток выполняет параллельно (хоть и не всегда ему это удаётся).

no_name8914,
В игре всё тоже последовательно:
1) Сначала надо посчитать ИИ
2) Зная его действия, посчитать физику (и для них тоже)
3) Зная физику посчитать положение объектов и геометрию
4) Зная физику и положение объектов посчитать звуки
И где здесь изначальная параллельность?

-WOLF-,
«В игре всё тоже последовательно:»
ИИ и просчет физики может выполнятся паралельно
положение звука — так же может считаться паралельно
геометрия может готовится тоже на отдельном потоке, пока остальные потоки готовят для нового кадра заготовки

no_name8914,
Окей, поясню, почему все потоки обязаны обрабатывать один и тот же кадр. Допустим, у тебя в игре 10 FPS. Ты сделал конвейер, т.е.
>> остальные потоки готовят для нового кадра заготовки
Допустим, ты сделал 8 ступеней конвейера, чтобы занять 8-ядерник. И получил 80 FPS! Круто? Нет. Почему? Потому что время кадра как было 0.1с так и осталось. Что это значит? Во всех играх цикл начинается с обработки ввода игрока, результат которого игрок увидит только через 8 кадров! Ты получил эффект «резинки», когда картинка плавная, но всё делается с запозданием.

YanTkach,
Поддерживать и использовать это две очень большие разницы )))

Or1s,
Вот тут на все тыща процентов поддерживаю)

YanTkach,
Не все игры используют эти АПИ). вот есть скажем старкрафт2 и там фиг поиграеш 4х4 по 200 лимита с каждой стороны. После такого зрелища Диафильмы покажутся суперплавными.

А смысл в том однопотоке? Софт давно использует много поток.

YanTkach,
Есть задачи которые не параллелятся в принципе, есть задачи которые параллелятся от части и есть программисты которым лень / нет бюджета реализовать хорошую многопоточность. Именно по этому apple в ифонах не гналась за ядрами и рвала всех в щепки. Априори 2 х 4ггц лучше чем 4 х 2ггц. А распаралелить задачу больше чем на 4 ядра за частую большое искусство, так что поддерживаю идею — рядовых пользователей должно интересовать именно сравнение в однопотоке.

Считаю что для домашнего ПК 4 или 8 ядер будет слишком избыточно, ибо 16 ил 24 ядра уже не нужно.
Лучше иметь 4 мощных чем 16 слабых ядра.
Тем кто занимается чем то профессиональным, тому конечно 16 и более ядер будет самое то.

Crimento,
рассмешил))) райзен нагнул интел и нагнёт еще раз )))), везде много поток)))

Crimento,
Мир развивается, а вы упорно сопротивляетесь. Так держать.

Crimento,
В однопоточных ? Ты застрял во временах третьих пеньков ?

Crimento,
В однопоточных? А разве мы стремимся к однопотоку? Ну раз так, зачем нам тогда эти многоядерные процессоры? Тогда давайте скупать одноядерные Athlo. пардон, Pentium-ы, они как раз под однопоток заточены да ещё и дешевле чем многоядерные процессоры.

Tirael4ik,
Тем более ясен пень что новое поколение чего либо будет лучше старого не смотря на маркетинг

Tirael4ik,
Согласна,и взяли для сравнения интел текущего прколения. але вы с коре ай9 сравнивайте.

Stivia,
Сомневаюсь, что i9 будет в 3 раза мощнее i7-6900K

-WOLF-,
Да может быть и будет, но и цена повысится. Так что амд все равно окажется лучшим выбором.

-WOLF-,
ну у 6900к 8/16, один из i9 анонсирован 18/36, учитывая, что частоты вроде как сравнимы, а архитектуру обещают производительнее, то раза в 2,5 преимущество в многопотоке будет точно. Но цена будет у амд куда привлекательнее)

Evils66,
Intel обещает, а AMD уже сделали.

-WOLF-,
да в общем-то интелы уже сто лет назад сделали, есть и поболее-ядерные решения — зионы. Оснований сомневаться, что они на это способны нет никаких, кому надо такой камушек, могут и зион поставить уже щас

Evils66,
Енто шо такое, поясни, Милок.

Evils66,
У AMD тоже будет серверный Napples с 32С/64Т.

-WOLF-,
амд обещает, а у интела уже есть) вашими же словами

Evils66,
Вроде как у Интела пока нет новых Зеонов. Что касается многоядерных серверных процов, то АМД не только обещает, но и уже давно имеет подобные решения.

-WOLF-,
дак у них старые уже давно есть, как и у амд) но насколько я знаю, на серверном рынке у амд дела еще хуже, чем на обычном были до райзенов)

-WOLF-,
i7-7820X не подойдёт? Все же 8/16 и 3.3/4.5 частота.

ChuvakN1,
Ядер столько же, частоты на 10-20% выше. Почему он должен быть в 3 раза мощнее?

Stivia,
Честно говоря сомневаюсь что интел отправляет конкурентам прототипы своих еще не вышедших в продажу чипов ))
Сравнивают с тем до чего могут дотянуться

Priizm,
пока другие растут по 15% в год. амд обгоняет сама себя на порядок в течении 1го месяца =)

ofecer007,
на порядок = в 10 раз. И вообще это не обгон самого себя, а анонс одной линейки растянутый на полгода.

Evils66,
в двоичной системе на порядок = в 2 раза XD

-WOLF-,
«на порядок» в повседневной речи — это устойчивое выражение, не имеющее никакого отношения ни к двоичной, ни к десятичной, ни к какой другой системе исчисления. И значения у этого, подчеркну, устойчивого выражения всего два — примерно в 10 раз и во много раз (словари в помощь).
А так играясь с системами исчисления и все такое, я могу написать, что амд выпускает в 2 раза более производительные решения каждый день.

Tirael4ik,
лучше рАйзен. но не рОузен. Роузен- это Rozen. ну или как минимум (в слове роузен) там должна быть О вместо У,
ну так просто

Tirael4ik,
и дороже!

B0RM0T0S,
850$ предполагаемая цена.
А что, неплохо за такого монстра.

Уильям Уоллес,
Новый i7-7820X с 8/16 ядрами/потоками интереснее будет чем этот утюг (600$ против 850$). На нем (амд) можно будет блины испекать после 20 минут рендера в Вегас-14 с 4К видео.

ChuvakN1,
Судя по спецификациям, особенно интересным решением должен быть Treadripper 1976x — 12 ядер 24 потока. максимальная частота модели Ryzen ThreadRipper 1976X достигнет 4,2 ГГц при TDP 125 Вт!
Я считаю, что предсказания бессмысленны. Надо дождаться финальных образцов.
Что касается нагрева, то 7700K уже вызвал шквал мата от пользователей, получающих 80 градусов в простое.
Припоя так и не появится.

Ссылка на основную публикацию