Процессоры haswell обзор. Архитектуры процессора intel за все время

Процессоры haswell обзор. Архитектуры процессора intel за все время

ВведениеТак уж повелось, что каждый год компания Intel обновляет микроархитектуру своих процессоров, нацеленных на использование в общеупотребительных персональных компьютерах. Этот график стал уже настолько привычен, что воспринимается как что-то само собой разумеющееся. Sandy Bridge были выпущены в начале 2011 года, Ivу Bridge появились в апреле 2012, а актуальные на данный момент Haswell были представлены 4 июня прошлого года. Учитывая сложившийся распорядок, рынок уже вовсю ожидает процессоры нового поколения – Broadwell. Однако с ними всё сложилось не слишком удачно. Внедрение нового 14-нм техпроцесса, который Intel должна использовать для производства Broadwell, натолкнулось на сложности производственного характера. Поэтому изначальный план, предполагавший появление нового поколения процессорного дизайна в середине этого года, пришлось пересмотреть. Согласно имеющимся актуальным данным, анонс мобильных энергоэффективных вариантов Broadwell произойдёт накануне Нового года, а основанные на этом дизайне процессоры для массовых настольных и мобильных компьютеров станут доступны лишь в следующем году.

В сложившейся ситуации Intel решила как-то скрасить незапланированное затянувшееся ожидание новинок и придумала акцию, получившую кодовое название Haswell Refresh. Её суть заключается в том, что вместо выхода новых процессоров Broadwell компания предлагает усовершенствованные модели старых, производительность которых улучшена не новой микроархитектурой, а увеличенными тактовыми частотами. Официальный анонс CPU, входящих во множество Haswell Refresh, был назначен на 11 мая, и он уже состоялся. В интеловском прайс-листе появилось 42 новые позиции, 24 из которых нацеливаются на настольные системы различных классов. В этом обзоре мы познакомимся с теми из обновлённых Haswell, которые предназначаются для ординарных десктопов и относятся к семействам Core i7, Core i5 и Core i3.

Подробнее о Haswell Refresh для десктопов

Итак, говоря о Haswell Refresh, Intel фактически имеет в виду простое повышение частот своих LGA 1150 процессоров семейства Haswell. В выходе таких обновлённых продуктов нет ничего необычного – компания постепенно повышала частоты своих процессоров между анонсами новых микроархитектур и раньше, просто до этого такие события были разрознены, и им не уделялось столько внимания. Отличительная же особенность Haswell Refresh в том, что рост частот происходит не у отдельных моделей, а у всей линейки целиком, снизу доверху.

Причём, столько внимания Haswell Refresh уделяется не из-за их какой-то новизны или заметного увеличения производительности. Вся шумиха – искусственна, её специально генерирует сама Intel, пытаясь создать впечатление непрекращающихся инноваций даже несмотря на перенос анонса Broadwell на более поздний срок. Другими словами, выход Haswell Refresh – вполне ординарное обновление, а свежие процессоры отличаются от старых, присутствующих на рынке уже почти год Haswell, только возросшей на смешные 100 МГц частотой. То есть, речь идёт о незначительном приросте в производительности, составляющем порядка 2-3 процентов, и не более того.

К счастью, за этот небольшой прирост быстродействия покупатели не должны ничего платить. Новые процессоры Haswell Refresh заняли старые позиции в прайс-листе, вытеснив оттуда Haswell образца прошлого года. Если говорить конкретно о предложениях для настольных компьютеров, то происходящая замена выглядит следующим образом:

Необходимо подчеркнуть, что рост тактовой частоты происходит в рамках установленных ранее тепловых пакетов: 84 Вт для Core i7 и Core i5 и 54 Вт – для Core i3. Однако при этом в основе Haswell Refresh остаются точно такие же полупроводниковые кристаллы, как и использовались ранее. Улучшение частотного потенциала обеспечивается исключительно совершенствованием интеловского 22-нм технологического процесса, ревизия же ядра в новинках не меняется и сохраняет номер C0. А это означает, что принципиальных улучшений в тепловых и электрических характеристиках, как и в каких-то иных нюансах работы новых процессоров, ожидать не следует.



Процессоры Haswell Refresh для настольных систем


Абсолютно также как предшественники выглядят процессоры Haswell Refresh и внешне.



Слева – обычный Haswell, справа – Haswell Refresh


Единственное связанное с выходом Haswell Refresh интересное и принципиально важное изменение коснётся оверклокерских процессоров K-серии, полной информации о которых пока нет в силу того, что они будут представлены несколько позже, предположительно 2 июня. Пока Intel продолжит предлагать для оверклокеров старые модели Core i7-4770K и Core i5-4670K, но те процессоры, которые придут им на смену, заслуживают отдельного рассказа.

Дело в том, что в разновидностях Haswell Refresh со свободными множителями, имеющих собственное собирательное кодовое имя Devil’s Canyon, мы увидим не только возросшие паспортные частоты. Intel собирается сделать эти процессоры более привлекательными для разгона, для чего планирует внести серьёзные изменения в их упаковку. Теплопроводящий материал, расположенный между процессорным кристаллом и крышкой-теплораспределителем будет заменён на более эффективный, а сама крышка будет изготавливаться из другого сплава с лучшей теплопроводностью. По предварительным данным, семейство Devil’s Canyon будет состоять из двух разблокированных LGA 1150 процессоров: Core i7-4790K и Core i5-4690K. Причём, они получат более высокий, чем у обычных Haswell Refresh, тепловой пакет и заметно повышенные тактовые частоты даже в номинальном режиме.

К сожалению, это пока всё, что известно о Devil’s Canyon, но когда образцы этих CPU появятся в нашей лаборатории, мы непременно поделимся исчерпывающей информацией о них в наших обзорах. Сегодня же речь будет идти только об обычных десктопных Haswell Refresh со стандартным уровнем тепловыделения, которые уже можно купить в магазинах.

В серии Core i7 новинка пока только одна:


Core i7-4790 повышает тактовую частоту старшей линейки процессоров для платформы LGA 1150 на 100 МГц, обгоняя, таким образом, и оверклокерский Core i7-4770K, и обычный Core i7-4771. В остальном, это типичный Core i7 поколения Haswell: он имеет четыре ядра, поддерживает Hyper-Threading, располагает вместительным кэшем третьего уровня объёмом 8 Мбайт. Графическое ядро, как и у предшественников, относится к классу GT2, то есть располагает 20 исполнительными устройствами. Следует отметить, что благодаря технологии Turbo Boost 2.0 типичной частотой работы для Core i7-4790 является 3.8 ГГц.



Core i7-4790


Полный набор технологий обеспечения безопасности, включая vPro, TXT и VT-d, этим процессором также поддерживается в полном объёме. Иными словами, Core i7-4790 – это новый флагман для платформы LGA 1150, но без поддержки разгона.

В серии Core i5 появилась три новых процессора Haswell Refresh:



У этих процессоров частоты по сравнению с предшественниками повысились тоже всего на 100 МГц. Но этого оказалось достаточно для того, чтобы старший Core i5-4690 стал быстрее Core i5-4670K и перехватил лидерство в этой линейке. Остальные же процессоры органично разместились в свободных ранее частотных слотах. Прочие их характеристики не поменялись. Hyper-Threading в серии Core i5 не поддерживается, L3-кэш сокращён до 6 Мбайт, используемое графическое ядро – GT2.



Core i5-4690



Core i5-4590



Core i5-4460


Младший процессор Core i5-4460 занимает в серии особое место: в нём отключены технологии обеспечения безопасности vPro и TXT, а также не поддерживаются инструкции для работы с транзакционной памятью. Технология Turbo Boost 2.0 делает типичной рабочей частотой для Core i5-4690 – 3,7 ГГц, для Core i5-4590 – 3,5 ГГц и для Core i5-4460 – 3,2 ГГц.

Серия Core i3 с выходом Haswell Refresh приросла ещё тремя модификациями:



Здесь также произошло 100-мегагерцовое увеличение тактовых частот при сохранении всех остальных характеристик. Процессоры Core i3, в отличие от старших моделей, двухъядерные, но они поддерживают технологию виртуальной многопоточности Hyper-Threading. За счёт этого они обладают меньшим расчётным тепловыделением на уровне 54, а не 84 Вт. Следует отметить, что в линейке Core i3 на момент анонса Haswell Refresh уже не было свободных частотных слотов, поэтому вышло так, что модель Core i3-4350 полностью совпала по характеристикам с Core i3-4340. Единственное отличие новой модификации – более низкая цена.



Core i3-4360



Core i3-4350



Core i3-4150


В процессорах Core i3-4360 и Core i3-4350 размер кэш-памяти третьего уровня составляет 4 Мбайт, а у Core i3-4150 кэш уменьшен до 3 Мбайт. Хуже во младшей модели и графическое ядро. Хотя формально все Core i3 снабжены графикой GT2, в Core i3-4150 количество исполнительных устройств GPU уменьшено с 20 до 16.

Любые LGA 1150 процессоры Haswell Refresh никаких дополнительных условий на материнские платы не накладывают. Несмотря на то, что к их появлению приурочено и обновление платформы с её переводом на новые наборы логики девятой серии (Z97 и H97), все новые CPU без проблем работают в старых LGA 1150-материнках с чипсетами восьмой серии. Для их правильного определения платами, выпущенными в прошлом году, требуется только обновление BIOS.

Что касается разгонных возможностей, то у Haswell Refresh, вышедших к настоящему моменту, их вообще нет ни в каком объёме. Увеличение частот выше номинальных сменой множителя невозможно, разгон же по шине крайне ограничен. Фактически, предел, до которого можно разогнать базовый тактовый генератор, составляет порядка 105-110 МГц. То есть, приобретение Haswell Refresh с целью эксплуатации их в нештатных режимах какого бы то ни было смысла лишено. Впрочем, разгон памяти до уровня DDR3-2400 неоверклокерские процессоры для платформы LGA 1150 всё же позволяют.

Как мы тестировали

Новые процессоры, относящиеся к множеству Haswell Refresh, мы сравнили с их предшественниками, ординарными Haswell, которые уже почти год доступны в продаже. В результате, список задействованных в тестировании аппаратных компонентов выглядит следующим образом:

Процессоры:

Intel Core i7-4790 (Haswell, 4 ядра + HT, 3,6-4,0 ГГц, 4x256 Кбайт L2, 8 Мбайт L3);
Intel Core i7-4770K (Haswell, 4 ядра + HT, 3,5-3,9 ГГц, 4x256 Кбайт L2, 8 Мбайт L3);
Intel Core i5-4690 (Haswell, 4 ядра, 3,5-3,9 ГГц, 4x256 Кбайт L2, 6 Мбайт L3);
Intel Core i5-4670K (Haswell, 4 ядра, 3,4-3,8 ГГц, 4x256 Кбайт L2, 6 Мбайт L3);
Intel Core i5-4590 (Haswell, 4 ядра, 3,3-3,7 ГГц, 4x256 Кбайт L2, 6 Мбайт L3);
Intel Core i5-4570 (Haswell, 4 ядра, 3,2-3,6 ГГц, 4x256 Кбайт L2, 6 Мбайт L3);
Intel Core i5-4460 (Haswell, 4 ядра, 3,2-3,4 ГГц, 4x256 Кбайт L2, 6 Мбайт L3);
Intel Core i5-4440 (Haswell, 4 ядра, 3,1-3,3 ГГц, 4x256 Кбайт L2, 6 Мбайт L3);
Intel Core i3-4360 (Haswell, 2 ядра + HT, 3,7 ГГц, 2x256 Кбайт L2, 4 Мбайт L3);
Intel Core i3-4350 (Haswell, 2 ядра + HT, 3,6 ГГц, 2x256 Кбайт L2, 4 Мбайт L3);
Intel Core i3-4340 (Haswell, 2 ядра + HT, 3,6 ГГц, 2x256 Кбайт L2, 4 Мбайт L3);
Intel Core i3-4150 (Haswell, 2 ядра + HT, 3,5 ГГц, 2x256 Кбайт L2, 3 Мбайт L3);
Intel Core i3-4130 (Haswell, 2 ядра + HT, 3,4 ГГц, 2x256 Кбайт L2, 3 Мбайт L3).

Процессорный кулер: Noctua NH-U14S.
Материнская плата: Gigabyte Z87X-UD3H (LGA1150, Intel Z87 Express).
Память: 2x8 Гбайт DDR3-2133 SDRAM, 9-11-11-31 (G.Skill F3-2133C9D-16GTX).
Видеокарта: NVIDIA GeForce GTX 780 Ti (3 Гбайт/384-бит GDDR5, 876-928/7000 МГц).
Дисковая подсистема: Intel SSD 520 240 GB (SSDSC2CW240A3K5).
Блок питания: Corsair AX760i (80 Plus Platinum, 760 Вт).

Тестирование выполнялось в операционной системе Microsoft Windows 8 Enterprise x64 с использованием следующего комплекта драйверов:

Intel Chipset Driver 10.0.13;
Intel Management Engine Driver 10.0.0.1204;
Intel Rapid Storage Technology 13.0.3.1001;
NVIDIA GeForce Driver 335.23.

Производительность

Общая производительность

Для оценки производительности процессоров в общеупотребительных задачах мы традиционно используем тестовый пакет Bapco SYSmark, моделирующий работу пользователя в реальных распространённых современных офисных программах и приложениях для создания и обработки цифрового контента. Идея теста очень проста: он выдаёт единственную метрику, характеризующую средневзвешенную скорость компьютера при повседневном использовании. Недавно этот бенчмарк в очередной раз обновился, и теперь мы задействуем самую последнюю версию – SYSmark 2014.



Результаты, отображённые на диаграмме, вполне ожидаемы. Учитывая, что в процессорах Haswell Refresh нет никаких усовершенствований и оптимизаций на уровне микроархитектуры, всё решает тактовая частота. А, поскольку в новых CPU она возросла всего на 100 МГц, отличия в показателях производительности старых Haswell и представителей множества Haswell Refresh, приходящих им на смену, составляет в среднем 2,5 процента. Конкретнее: Core i7-4790 обгоняет Core i7-4771 (он же Core i7-4770K) на 1,8 процента; Core i5-4690 превосходит Core i5-4670 на 2,3 процента; Core i5-4590 опережает Core i5-4570 на 2,3 процента, Core i5-4460 быстрее Core i5-4440 на 2,7 процента, Core i3-4360 превосходит Core i3-4340 на 3,1 процента, а Core i3-4150 обгоняет Core i3-4130 на 2,3 процента.

Более глубокое понимание результатов SYSmark 2014 способно дать знакомство с оценками производительности, получаемое в различных сценариях использования системы. Сценарий Office Productivity моделирует типичную офисную работу: подготовку текстов, обработку электронных таблиц, работу с электронной почтой и посещение Интернет-сайтов. Сценарий задействует следующий набор приложений: Adobe Acrobat XI Pro, Google Chrome 32, Microsoft Excel 2013, Microsoft OneNote 2013, Microsoft Outlook 2013, Microsoft PowerPoint 2013, Microsoft Word 2013, WinZip Pro 17.5 Pro.



В сценарии Media Creation моделируется создание рекламного ролика с использованием предварительно отснятых цифровых изображений и видео. Для этой цели применяются популярные пакеты Adobe Photoshop CS6 Extended, Adobe Premiere Pro CS6 и Trimble SketchUp Pro 2013.



Сценарий Data/Financial Analysis посвящён статистическому анализу и прогнозированию инвестиций на основе некой финансовой модели. В сценарии используются большие объёмы численных данных и два приложения Microsoft Excel 2013 и WinZip Pro 17.5 Pro.




Игровая производительность

Как известно, производительность платформ, оснащенных высокопроизводительными процессорами, в подавляющем большинстве современных игр определяется мощностью графической подсистемы. Именно поэтому при тестировании процессоров мы выбираем наиболее процессорозависимые игры, а измерение количества кадров выполняем дважды. Первым проходом тесты проводятся без включения сглаживания и с установкой далеко не самых высоких разрешений. Такие настройки позволяют оценить, насколько хорошо проявляют себя процессоры с игровой нагрузкой в принципе, а значит, позволяют строить догадки о том, как будут вести себя тестируемые вычислительные платформы в будущем, когда на рынке появятся более быстрые варианты графических ускорителей. Второй проход выполняется с реалистичными установками – при выборе FullHD-разрешения и максимального уровня полноэкранного сглаживания. На наш взгляд такие результаты не менее интересны, так как они отвечают на часто задаваемый вопрос о том, какой уровень игровой производительности могут обеспечить процессоры прямо сейчас – в современных условиях.





















Мы не стали загружать обзор большим количеством игровых тестов, так как прирост производительности, который обеспечивают процессоры семейства Haswell Refresh, не слишком заметен. Тем не менее, на приведённых графиках можно отметить несколько разнообразных вариантов того, как складывается игровая производительность.

Так, Batman: Arkham Origin – игра, в которой производительности любых интеловских процессоров оказывается достаточно для того, чтобы полностью загрузить флагманскую графическую карту NVIDIA GeForce GTX 780 Ti. В результате, в ней мы видим крайне незначительное влияние выбора CPU на результат, а новые Haswell Refresh вообще ничем не выделяются на фоне предшественников.

Civilization V: Brave New World – стратегическая игра, где выполняются активные расчёты на CPU, однако и здесь слишком мощные процессоры оказываются ни к чему. Начиная с Core i5-4570 и выше прирост производительности почти незаметный. Однако и ниже этой своеобразной границы преимущество Haswell Refresh над равноценными предшественниками составляет в районе 3 процентов.

Metro: Last Light – весьма процессорозависимый шутера, но при максимальных настройках качества (в первую очередь, из-за тесселяции), частота кадров всё равно упирается в мощность видеокарты. Зато при уменьшении разрешения можно увидеть небольшой эффект от увеличения частоты в свежеанонсированных Haswell Refresh. Его масштаб стандартен – около 2 процентов.

В Thief всё выглядит ещё интереснее. Эта – одна из немногих игр, отрицательно относящихся к технологии Hyper-Threading в четырёхъядерных процессорах. Она оптимизирована под четыре потока, и дополнительные виртуальные ядра в Core i7 только снижают производительность. Если же говорить об эффекте, который даёт подмена Haswell на Haswell Refresh, то он вновь незначителен: не более 3 процентов при пониженном разрешении и не более 1 процента при максимальных настройках графики.

Тесты в приложениях

В Autodesk 3ds max 2014 мы измеряем скорость рендеринга в mental ray специально подготовленной сложной сцены.



Производительность в новом Adobe Premiere Pro CC тестируется измерением времени рендеринга в формат H.264 Blu-Ray проекта, содержащего HDV 1080p25 видеоряд с наложением различных эффектов.



Измерение производительности в новом Adobe Photoshop CC мы проводим с использованием собственного теста, представляющего собой творчески переработанный Retouch Artists Photoshop Speed Test, включающий типичную обработку четырёх 24-мегапиксельных изображений, сделанных цифровой камерой.



Для измерения быстродействия процессоров при компрессии информации мы пользуемся архиватором WinRAR 5.0, при помощи которого с максимальной степенью сжатия архивируем папку с различными файлами общим объёмом 1,7 Гбайт.



Для оценки скорости перекодирования видео в формат H.264 использовался тест x264 FHD Benchmark 1.0.1 (64bit), основанный на измерении времени кодирования кодером x264 исходного видео в формат MPEG-4/AVC с разрешением 1920x1080@50fps и настройками по умолчанию. Следует отметить, что результаты этого бенчмарка имеют огромное практическое значение, так как кодер x264 лежит в основе многочисленных популярных утилит для перекодирования, например, HandBrake, MeGUI, VirtualDub и проч. Мы периодически обновляем кодер, используемый для измерений производительности, и в данном тестировании приняла участие версия r2431, в которой реализована поддержка всех современных наборов инструкций, включая и AVX2.



Никакие приложения не позволяют выявить заметные преимущества процессоров Haswell Rafresh над их предшественниками. Это вполне естественно. Единственное изменение в новых CPU – повышенная частота. Так что заметному приросту быстродействия взяться просто неоткуда. Результаты новых Core i7-4790, Core i5-4690, Core i5-4590, Core i5-4460, Core i3-4360, Core i3-4350 и Core i3-4150 лучше, чем у давно присутствующих на рынке предложений того же класса и той же стоимости максимум на 3 процента.

Энергопотребление

Изменения в производительности, преподнесённые Haswell Refresh, совершенно не впечатляют. Никаких же других улучшений в новых модификациях процессоров, исходя из того, что они основываются на полупроводниковом кристалле старой ревизии, быть не должно. Тем не менее, остаётся небольшая надежда на какие-то улучшения в тепловых и энергетических характеристиках, которые могли произойти за счёт совершенствования производственного технологического процесса. Проверим.

На следующих ниже графиках, если иное не оговаривается отдельно, приводится полное потребление систем (без монитора), измеренное на выходе из розетки, в которую подключен блок питания тестовой системы, и представляющее собой сумму энергопотребления всех задействованных в системе компонентов. В суммарный показатель автоматически включается и КПД самого блока питания, однако учитывая, что используемая нами модель БП, Corsair AX760i, имеет сертификат 80 Plus Platinum, его влияние должно быть минимально. Для правильной оценки энергопотребления мы активировали турбо-режим и все имеющиеся энергосберегающие технологии: C1E, C6 и Enhanced Intel SpeedStep.

В первую очередь измерению подверглось потребление в состоянии простоя.



Здесь все процессоры проявили редкостное единодушие. Оно и понятно: в простое Haswell переходят в энергосберегающие состояния и снижают своё энергопотребление практически до нулевых величин. Поэтому те числа, которые приведены на диаграмме, больше характеризуют потребление остальной части тестовой платформы.

Затем мы измерили максимальное потребление при нагрузке, создаваемой 64-битной версией утилиты LinX 0.6.5 с поддержкой набора инструкций AVX2, базирующейся на пакете Linpack.



Приведённая диаграмма очень явно демонстрирует отсутствие каких-либо улучшений в энергопотреблении у процессоров Haswell Refresh. Новые и более быстрые модели требуют электроэнергии больше, чем их предшественники. При этом проведённый в новых модификациях CPU 100-мегагерцовый разгон выливается примерно в 5-процентный рост энергопотребления. Заметим, что, несмотря на это, Intel не сочла нужным увеличивать для Haswell границы теплового пакета. Иными словами, тепловыделение любых Core i7 и Core i5 должно вписываться в 84-ваттные рамки, а Core i3 – в 54-ваттные.

Учитывая, что энергопотребление, инициируемое базирующейся на пакете Linpack утилитой LinX, сильно превышает средний реалистичный уровень, мы измерили потребление и при более «приземлённой» нагрузке – перекодировании видеоролика при помощи 64-битной версии кодека x264 версии r2431.



В целом, картина здесь точно такая же, как и при нагрузке, создаваемой LinX. Меньше лишь абсолютные значения энергопотребления. Тем не менее, процессоры Haswell Refresh потребляют больше своих предшественников одного класса на те же 5 процентов. Всё это означает лишь одно: никаких улучшений в потреблении новых моделей Haswell не сделано.

Нет никаких явных изменений и в температурном режиме новинок. Очевидно, что в обычных Haswell Refresh теплопроводящий материал под крышкой остался таким же неудачным, что и раньше. Температура ядер при возникновении нагрузки у новых процессоров возрастает практически моментально и держится на высоком уровне даже в том случае, если в системе установлен эффективный кулер. Например, в нашем случае, при использовании кулера Noctua NH-U14S, старший из Haswell Refresh, Core i7-4790 при работе утилиты LinX очень быстро нагревался до 84 градусов. И это без всякого разгона, в номинальном режиме!



Напомним, предельная температура, при которой процессоры семейства Haswell включают троттлинг, – 100 градусов.

Выводы

Подводя итог, мы вынуждены констатировать, что громкое название Haswell Refresh получили совершенно ординарные процессоры, которые своим выходом не привносят практически ничего нового. Для их выпуска Intel не стала проделывать никакой инженерной работы. Поэтому, потребительские качества свежих CPU для платформы LGA 1150 практически не отличаются от того, что предлагалось раньше. Количество ядер, объём кэш-памяти, тип встроенного графического ядра, набор поддерживаемых технологий – всё осталось неизменным. Не было сделано никаких оптимизаций и на уровне полупроводникового кристалла, поэтому тепловыделение и энергопотребление Haswell Refresh осталось на типичном для Haswell уровне.

Единственное, где можно увидеть хоть какое-то движение вперёд – это тактовые частоты. Однако, учитывая, что рост частот не подкрепляется никакими технологическими или инженерными улучшениями, а носит характер лишь простого разгона старых моделей, их увеличение оказалось крайне слабым. Фактически, в рамках Haswell Refresh Intel нарастила скорость работы своих процессоров на минимально возможную дельту – на 100 МГц. Соответственно точно такой же, минимальный, прирост в производительности мы увидели и в процессе тестирования. Новые процессоры Haswell Refresh оказались быстрее старых Haswell на 2-3 процента и не более того.

Всё это означает, что выход Haswell Refresh может быть интересен только в том случае, если вы ещё не мигрировали на платформу LGA 1150. Учитывая, что стоимость новых моделей не выше, чем у старых, при покупке нового компьютера теперь вполне естественно спрашивать в магазинах именно новые модификации процессоров. А если у вашего любимого поставщика Haswell Refresh в прайс-листе пока отсутствуют, лучше немного повременить с покупкой, но впоследствии получить чуть более высокую производительность за те же деньги.

И, кроме того, не забывайте, что примерно через три недели нас ожидает выход ещё пары процессоров, формально относящихся к числу обновлённых Haswell, Core i7-4790K и Core i5-4690K. Эти CPU, имеющие собственное кодовое имя Devil’s Canyon, в отличие от рассмотренных сегодня моделей, обещают стать отличным подарком для энтузиастов. В них появятся и заметно улучшенные тактовые частоты, и понизившиеся рабочие температуры, и лучший разгон. Но не будем забегать вперёд: полный обзор Core i7-4790K и Core i5-4690K вы сможете прочитать на нашем сайте несколько позднее.

Не стоит ожидать от мейнстримовых четырехядерников Haswell особого прироста производительности (если, конечно, ПО не адаптировано под новые наборы процессорных инструкций), их конек - уменьшенное энергопотребление и соотношение ценапроизводительность. Впрочем, когда речь заходит о топовом железе, то подход "победа любой ценой" по-прежнему актуален.

Мейнстримовые CPU Intel стали двухядерными в 2006 году, с пришествием Core 2 Quad. Четырехядерники “пошли в народ” в 2008 году, с переходом на Nehalem и LGA1156, и в ближайшее время количество ядер не изменится - по крайней мере до 2014 года, когда планируется выход чипов Broadwell, которые будут выпускаться по 14 нм техпроцессу. Это решение вполне оправдано, учитывая что преимущества, предоставляемые дополнительными ядрами, до сих пор не востребованы большинством программ - эффект от более мощного графического процессора или дополнительной кэш-памяти будет существенней. Однако с процессорами высшего ценового диапазона все было не так однозначно, т.к. ПО для рабочих станций и серверов отлично оптимизировано под многоядерные процессоры и как увеличение количества ядер, так и увеличение отдачи каждого ядра может принести результат.

Теперь же, благодаря нашим источникам в IDF, мы можем немного прояснить ситуацию. Как наши читатели уже знают, к середине следующего года топовый процессор для серверных систем, 10-ядерный 2.4 ГГц Xeon E7 4800 семейства “Westmere EX” будет заменен на представителя архитектуры “Ivy Bridge EX” Xeon E7 4800 v2, располагающего 15-ю ядрами и работающий на частотах от 2.2 ГГц, который будет устанавливаться в сокет LGA2011, но с другой распиновкой. В середине 2014 его можно будет заменить на 16-20 ядерный Xeon E7 4800 / 8800 v3 (архитектура Haswell EX), причем сокет останется прежним. За ним последует Xeon E7 4800 / 8800 v4 (архитектура Broadwell EX), который будет выпущен уже в 2015 году. Последние три модели имеют общую черту

В виде шины QPI с тремя линиями - Westmere располагает четырьмя - что негативно скажется на возможностям по взаимодействию с сопроцессорами Xeon Phi или возможности предоставления доступа к системной памяти на полной скорости, что может пригодиться при подключении FPGA.

Самый интересный случай - двухпроцессорная конфигурация, ведь у нее много общего (как минимум - сокет и чипсет) с железом, позиционируемым как домашний high-end. К настоящему моменту ситуация выглядит так:

Текущий 8-ядерник Xeon E5 2600 / 4600 (Sandy Bridge EP) будет заменен в середине следующего года 10-ядерным Xeon E5 2600 / 4600 v2 (Ivy Bridge EP), который будет использовать тот же сокет. Следующий апгрейд намечается уже на 2014 год - Xeon E5 2600 / 4600 v3 (Haswell EP) будет располагать аж 14-ю ядрами и 14-канальным контроллером DDR4-2133, заменяющим DDR3, использовавшийся в системах Ivy Bridge EP и двойные каналы QPI с пропускной способностью около 9,6 ГТ/с, чуть больше чем

Сейчас, который будет устанавливаться в сокет, аналогичный 2011 по размерам но с другой распиновкой. Но зачем увеличивать число ядер и дальше, если компоненты серии ЕХ и так являются эталоном производительности?


Приходят на ум две основные причины. Во-первых, прирост удельной производительности на ядро, который дает Haswell, не так велик - около 10% по сравнению с Ivy Bridge, если не адаптировать ПО под использование новых процессорных инструкций, которые могут быть использованы не во всех алгоритмах. Что неудивительно, так как основное внимание при проектировании Haswell уделялось снижению энергопотребления (ультрабуки!). Так откуда взять прирост производительности, который бы подстегнул продажи?

С другой стороны, понижение энергопотребления позволяет разместить больше ядер на одном кристалле при неизменном TDP. Таким образом 14-ядерный процессор укладывается в лимит 145 Вт (для серверов) и 160 (для рабочих станций), при этом объем L3-кэша на ядро остался прежним - 2,5 Мб. Оправданна ли такая стратегия экстенсивного роста - вопрос спорный. В пределах того же TDP я бы предпочел увидеть процессор с меньшим количеством ядер, но большим объемом кэша на ядро и более

Высокими тактовыми частотами, и значительное число владельцев high-end машин

Были бы со мной согласны, ведь способность ПО использовать большее число потоков за 5 сменившихся поколений процессоров Intel увеличилась незначительно. Так или иначе, даже с 14-ю ядрами новые модели должны иметь по меньшей мере такие же тактовые частоты как их предшественники на Ivy Bridge в пределах того же TDP, а это значит как минимум 3,2 ГГц для топовых моделей для рабочих станций.

На таких частотах теоретическая пиковая производительность на сокет будет равняться 3/4 терафлопс с двойной точностью, таким образом одна двухпроцессорная рабочая станция образца середины 2014 года будет выдавать “на гора” 1,5 терафлопс. Добавьте к этому 8-канальный контроллер памяти DDR4 и вы поймете, что у Nvidia Maxwell появился серьезный конкурент. В конце концов, если CPU обладает достаточной

Мощностью и под него не нужно переписывать ПО почти с нуля, то почему бы не использовать его? В любом случае, оптимизация приложений под GPGPU с их огромным количеством потоков также приведет к тому что ни одно ядро в многоядерных процессорах не будет простаивать. Также не стоит забывать, что Intel не единственная компания на рынке, и у его конкурента имеется опыт разработки комбинированных вычислительных блоков, которые в свете сближения CPU и GPU могут оказаться шансом AMD наверстать упущенное. Ждем Opteron APU?

Если на процессорном фронте AMD уже давно занимается партизанской борьбой, то что касается рынка видеоадапторов ей пока что приходилось бороться только с “заклятым другом” Nvidia. Но ситуация может вскоре измениться.

Следующее поколение архитектуры Intel, под кодовым названием Haswell, это не просто очередной «тик» в мерном такте совершенствования технологий компанией Intel, это новый этап в ее деятельности. Этап, на котором она становится серьезной угрозой как для AMD так и Nvidia. Впервые Intel готова бросить вызов им обоим на рынке массовых графических решений одновременно подрывая позиции Nvidia в бизнесе GPGPU. В то же время маломощные и энергоэффективные решения (ULV-версии процессоров имеют TDP в 10 Вт) станут серьезными конкурентами для SoC на платформе Brazos второго поколения от AMD (кодовое название Kabini), а также любых ноутбуков на базе ARM-процессоров на основе Windows 8 какие могут вывести на рынок такие компании, как Qualcomm.

Давайте рассмотрим эту архитектуру повнимательнее, начиная с CPU.


Шире, больше, быстрее.

Haswell является логическим продолжением микроархитектурных улучшений, впервые представленных Intel в Sandy Bridge. Новый чип получил поддержку второго поколения набора процессорных инструкций Advanced Vector Extensions (AVX2), которые удваивают пиковую пропускную способность FPU ядра. Пропускная способность кэша L1 и L2 была удвоена, чтобы обеспечить загруженность работой исполняющих блоков, а регистровые файлы целочисленных вычислений и FPU были увеличены. Эффективность прогнозирования ветвления также была повышена. Производительность Haswell на один поток в реальных задачах на неоптимизированном коде, по ожиданиям, должна повыситься на 10-15%. Если же оптимизация под AVX2 есть, разрыв будет намного больше - алгоритмы AVX2 включают поддержку векторизации целочисленных значений, что нет в первой версии.

Наращивание мощности FPU и дополнительная функциональность AVX2 будут иметь огромное значение для увеличения производительности в операциях с плавающей точкой. Процессор способен выполнять до 32 операций с плавающей точкой стандартной точности на одном ядре и 16 с двойной точностью. То есть вдвое больше чем Sandy Bridge; теоретически восьмиядерный процессор на архитектуре Haswell с тактовой частотой 3.8 ГГц будет выдавать 972,8 гигафлопс при стандартном уровне точности и 486,4 гигафлопс при удвоенном. И хотя GPU текущего поколения показывают даже лучшие результаты, в рукаве Intel есть козырь - х86 совместимость. Intel отправил на свалку истории поставщиков RISC-суперкомпьютеров в 1990-х и начале 2000-х просто благодаря тому, что их процессоры были «достаточно хороши», и сейчас то же самое угрожает Nvidia и ее концепции GPGPU. Пропускная способность кэша L1/L2 увеличилась радикально, пропускная способность шины L1 также удвоена. Весь дополнительный объем пропускной способности предназначен для того, чтобы блоки AVX2 не простаивали; ожидается, что Haswell покажет достаточно близкое соответствие теоретических значений производительности к скорости выполнения реальных задач.

И хотя у команда под зеленым флагом скорее всего сохранит преимущество в чистой производительности, четырехъядерник Haswell, достигающий 4 ГГц в турборежиме будет выдавать 256 гигафлопс для операций удвоенной точности (512 гигафлопс при стандартной точности). Такой уровень производительности для операций со стандартной точностью находится очень близко к Nvidia GT 640. А так как производительность операций с удвоенной точностью у карт потребительского сектора Nvidia всегда хромала, четырехъядерные процессоры Haswell вполне могут превзойти GTX 680 от Nvidia и, возможно сровняться с GTX 580 в операциях с удвоенной точностью.

Nvidia может выиграть битву за high-end пользователей, но ценой проигрыша на других направлениях - если Intel решит конкурировать с ней серьезно. Хуже того, не стоит забывать про факт, что каждый ПК, оборудованный видеокартой от Nvidia поставляется с ускорителем Intel по умолчанию. Несомненно, Intel собирается сыграть на потенциальной связи с Xeon Phi, учитывая, что три семинара компании на IDF обращались к проблеме векторизации и касались как Haswell так и Xeon Phi.


GPU Haswell усиливает давление на Nvidia, AMD.

GPU Haswell - по сути модифицированная версия ядер, в настоящее время используемых в Ivy Bridge. Главные изменения наблюдаются в шейдерном массиве - Intel будет предлагать Haswell в версиях с блоком, включающим 10, 20 или 40-шейдеров (GT1, GT2, GT3 соответственно). Чип также будет предлагаться в вариантах, которые включают до 128 Мб встроенной памяти - такой вариант предоставляет каждому GPU небольшой выделенный объем памяти. Intel не особо распространяется о изменениях, внесенных в GPU, но компания заявила, что прирост производительности, демонстрируемый новой конфигурацией GT3 в сравнении с производительностью графического ядра HD 4000, встроенного в Ivy Bridge составляет до 200%.

Даже если рассматривать эту информацию со здоровой долей скептицизма, она все равно не предвещает ничего хорошего для AMD и Nvidia. По данным Anandtech, GPU Trinity в среднем на 18% быстрее, чем Liano в играх. По сравнению с Sandy Bridge, Trinity почти на 80% быстрее. Если же сравнить ее с Ivy Bridge, преимущество уменьшается до 20%. Учитывая то, что уже известно о GPU Haswell и его прогнозируемой производительности, для Intel будет не слишком сложно обеспечить прирост производительности в реальных играх в 30-50%. Если это произойдет, Trinity потеряет статус быстрейшего интегрированного GPU на рынке, переходя в разряд середняков, а AMD теряет свой козырь на рынке видеокарт, который она разыгрывала с момента запуска чипсета AMD 780G четыре года назад.


Таким образом у Саннивейла практически не остается места для маневра. 28 нм APU Kaveri, оснащенный графическим ядром следующего поколения на базе Radeon HD 7000 и новые процессоры на архитектуре Steamroller до сих пор не получили даты анонса. Это означает, что мы можем не увидеть их до конца 2013, и это если производство пойдет без запинок. AMD, скорее всего, предложит обновление - что-нибудь вроде Trinity 2.0, чтобы сдержать натиск со стороны Haswell, но слегка повышенные частоты едва ли спасут ситуацию для AMD.

Последними бастионами AMD остаются рынки, которые Intel в общем-то и неинтересны. Это неустойчивое положение для любой компании, которая мечтает бросить вызов лидеру рынка; AMD просто не может позволить себе тратить на НИОКР достаточно чтобы догнать своего давнего соперника. И едва ли Nvidia стоит почивать на лаврах. Планы Intel недвусмысленно дают понять, что компания абсолютно намерена свести к минимуму ценность отдельных графических процессоров за счет использования интегрированных решений там, где это возможно и поддерживать переход на все меньшие форм-факторы, там где это (пока) невозможно.

Таким образом, если Haswell не будут полным провалом, именно он, а не Kaveri станет новой точкой отсчета для энтузиастов. Этот чип с энергопотреблением в 10 Вт не сможет напрямую конкурировать с потенциальными конкурентами - планшетами на базе Tegra 4 - это задача Bay Trail, 22 нм SoC на базе Atom.

Нет, Haswell не обанкротит AMD или напугать Nvidia до такой степени, что та бросит Tesla, - но если план Intel не будет полным провалом, обе компании будут выдавливаться на рынки узкоспециализированных нишевых продуктов. AMD этот ход берет за живое - ее выдавливают на рынки low-end продуктов, которые не представляют ценности для Intel. Nvidia же теперь придется очень постараться, чтобы убедить OEM-производителей найти место для отдельного GPU в их компьютеров, хотя маркетинговая политика Intel и предпочтения покупателей тянут в другую сторону. Предпочтения энтузиастов, исторически слабая поддержка драйверов Intel, и сила бренда Nvidia поможет, но свалка истории IT-индустрии полна компаний, которые считали, что их бренд будет держать пользователей, даже если технические характеристики их продукции хуже чем у конкурентов. Энтузиастов интересует только производительность, а не то, какая компания за ней стоит.

Однако пока что мы поговорили только о решениях для энтузиастов и настольных решений, что немного нелогично, учитывая растущую не по дням а по часам рыночную долю ноутбуков и ультрабуков. Многие усовершенствования архитектуры Haswell были направлены именно на оптимизацию под них. Какие именно? Давайте разберемся.

Интеграция


Haswell для ультрабуков будет иметь TDP 15 Вт, почти как Sandy Bridge, на котором основываются ультрабуки сегодня. Главной новостью здесь является то, что Intel переместит PCH (хаб контроллера платформы) на ту же подложку, что и процессор благодаря чему версия Haswell для ультрабуков будет содержать все компоненты платформы в едином чипе. Sandy Bridge состоял из двух компонентов, поставляемых Intel - процессора и PCH, Haswell же будет единым MCP (многочиповым пакетом). Это означает что на одной подложке будут размещены два вычислительных кристалла, что зачастую явлется предпосылкой к объединению и самих кристаллов (возможно, после перехода на 14 нм техпроцесс?). Единый MCP будет занимать меньшую площадь, чем связка CPU + PCH которая используется сейчас сегодняшний день, что позволит сделать компоновку материнских плат менее плотной (или сделать сам платы меньше), и, возможно, ставить в ультрабуки еще большие батареи. Это значительный шаг который демонстрирует, что грань между железом для планшетов и ультрабуков начинает размываться.

Стоит отметить, что Haswell для ультрабуков может располагать двумя ядрами максимум, хотя версии для ноутбуков и настольных систем могут иметь и больше.

Энергоэффективная память и новый сокет

Список поддерживаемой памяти также скорректирован в сторону оптимизации энергопотребления. Все три версии Haswell будут поддерживать DDR3L, хотя настольное исполнение дополнительно может использовать обычную DDR3, а версия для ультрабуков - LPDDR3. Все три варианта оснащены двумя каналами памяти.

Важно отметить, что, несмотря на фокусирование Haswell на энергоэффективности, архитектура, масштабируется ничуть не хуже, чем Sandy Bridge (будут доступны компоненты для настольных систем с TDP в 95 Вт, хотя прямое сравнение тепловых пакетов может быть не вполне корректным). Что логично, так как единая эффективная архитектура, как правило, может охватывать широкий спектр TDP, не теряя в эффективности.

Другие особенности Haswell включают встроенные регуляторы напряжения (что должно упростить компоновку материнских плат), поддержку набор инструкций AVX 2.0 ну и, разумеется, AES-NI и Hyper-Threading. Выход Haswell также повлечет за собой смену сокета: на настольных компьютерах пропишется LGA-1150.


Заключение

В действительности, удивительного тут мало. Все знали встроенные графические ядра будут становиться все быстрее, хотя по-прежнему неясно, насколько именно мощным будет вариант GT3. Настоящей проверкой его возможностей будет решение компаний-производителей, продолжать ли устанавливать в свои продукты дискретные видеоадаптеры (весьма показательным был бы пример Apple в отношении, скажем, Macbook Pro). Насколько нам известно, планы Intel по усилению своих позиций в сегменте интегрированной графики были встречены с полным одобрением в Купертино.

Продолжение интегрирования новых функций в одном чипе - значительный шаг в области x86 CPU высокого класса, и все указывает, что в грядущем 2013 году разница между планшетами и ноутбуками будет размываться и дальше.

Достойна ли архитектура Haswell называться новой и переработанной?

Более пяти лет Intel придерживается стратегии «тик-так», чередуя перевод конкретной архитектуры на более тонкие технологические нормы с выпуском новой архитектуры.

В итоге каждый год мы получаем либо новую архитектуру, либо переход на новый техпроцесс. На 2013 год был запланирован «так», то есть выпуск новой архитектуры - Haswell. Процессоры с новой архитектурой выпускаются по тому же техпроцессу, что и предыдущее поколение Ivy Bridge : 22 нм, Tri-gate. Техпроцесс не поменялся, при этом количество транзисторов увеличилось, а значит, и конечная площадь кристалла нового процессора тоже увеличилась - а вслед за ней и энергопотребление.

Придерживаясь традиций, Intel в день анонса Haswell представила только производительные и дорогие процессоры линеек Core i5 и i7. Анонс двухъядерных процессоров младших линеек как всегда идет с задержкой. Стоит заметить, что цены на новые процессоры остались на том же уровне, что и у Ivy Bridge.

Сравним площади кристаллов разных поколений четырехъядерных процессоров:

Как видим, четырехъядерный Haswell имеет площадь всего 177 мм², при этом в него интегрирован северный мост, контроллер оперативной памяти и графическое ядро. Таким образом, количество транзисторов увеличилось на 200 миллионов, а площадь подросла на 17 мм². Если же сравнить Haswell с 32-нанометровыми Sandy Bridge, то количество транзисторов увеличилось на 440 миллионов (38%), а площадь за счет перехода на техпроцесс 22 нм сократилась на 39 мм² (18%). Тепловыделение все эти годы держалось практически на одном уровне (95 Вт у SB и 84 Вт у Haswell), а площадь уменьшалась.

Всё это привело к тому, что с каждого квадратного миллиметра кристалла приходится отводить больше тепла. Если раньше с 216 мм² надо было забирать 95 Вт, то есть 0,44 Вт/мм², то теперь с площади в 177 мм² надо забирать 84 Вт - 0,47 Вт/мм², что на 6,8% больше, чем раньше. Если эта тенденция сохранится, то скоро будет просто физически сложно отводить тепло с таких маленьких площадей.

Рассуждая чисто теоретически, можно предположить, что если в Broadwell, который будет производиться по техпроцессу 14 нм, количество транзисторов возрастет на 21%, как при переходе с 32 на 22 нм, а площадь при этом сократится на 26% (на ту же величину, что и при переходе с 32 на 22 нм), то мы получим 1.9 млрд. транзисторов на площади 131 мм². Если при этом тепловыделение также упадет на 19%, то у нас получится 68 Вт, или 0,52 Вт/мм².

Это теоретические расчеты, на практике будет иначе - переход техпроцесса с 32 на 22 нм также был ознаменован введением 3D-транзисторов, которые снизили токи утечки, а с ними и тепловыделение. Однако про переход с 22 нм на 14 нм пока ничего такого не слышно, так что на практике значения тепловыделения скорее всего будут еще хуже, и на 0,52 Вт/мм² надеяться не стоит. Тем не менее, даже если уровень тепловыделения будет 0,52 Вт/мм², проблема локального перегрева и сложность отвода тепла с маленького кристалла обострятся еще больше.

Кстати, именно сложности с отводом тепла при тепловыделении на уровне 0,52 Вт/мм² могут лежать в основе желания Intel перейти на BGA или попыток упразднить сокет. Если процессор будет распаян на материнской плате, то тепло будет непосредственно передаваться от кристалла к радиатору без промежуточной крышки. Это выглядит еще более актуальным в свете замены припоя на термопасту под крышками современных процессоров. Можно снова ожидать появления «голых» процессоров с открытыми кристаллами по примеру Athlon XP, т. е. без крышки как промежуточного звена в теполоотводе.

На видеокартах давно уже делается именно так, а опасность сколоть кристалл нивелируется железной рамкой вокруг него, поэтому у видеокарт нет таких «актуальных проблем», как термопаста под крышкой процессора. Тем не менее, разгон станет еще более сложным занятием, а правильное охлаждение «более тонких» процессоров - чуть ли не наукой. И всё это нас ожидает совсем скоро, если, конечно, не произойдет чудо…

Но опустимся на землю и вернемся к разговору о Haswell. Как мы знаем, Haswell получил ряд «улучшений/изменений» относительно Sandy Bridge (и, соответственно, Ivy Bridge, являвшегося, по большому счету, переводом SB на более тонкий техпроцесс):

  • встроенный регулятор напряжения;
  • новые энергосберегающие режимы;
  • увеличение объемов буферов и очередей;
  • увеличение пропускных способностей кэшей;
  • увеличение количества портов запуска;
  • добавление новых блоков, функций, API в интегрированном графическом ядре;
  • увеличение количества конвейеров в графическом ядре.

Таким образом, обзор новой платформы можно разделить на три части: процессор, встроенный графический ускоритель, чипсет.

Процессорная часть

Изменения в процессоре включают добавление новых инструкций и новых режимов энергосбережения, встраивание регулятора напряжения, а также изменения в самом процессорном ядре.

Наборы инструкций

В архитектуре Haswell появились новые наборы инструкций. Их можно условно разделить на две большие группы: направленные на увеличение векторной производительности и направленные на серверный сегмент. К первым относятся AVX и FMA3, ко вторым - виртуализация и транзакционная память.

Advanced Vector Extensions 2 (AVX2)

Набор AVX был расширен до версии AVX 2.0. Набор AVX2 предоставляет:

  • поддержку 256-битных целочисленных векторов (ранее была поддержка только 128-битных);
  • поддержку gather-инструкций, которые снимают требование непрерывного расположения данных в памяти; теперь данные «собираются» с разных адресов памяти - интересно будет посмотреть, как это повлияет на производительность;
  • добавление инструкций манипуляций/операций над битами.

В целом, новый набор больше ориентирован на целочисленную арифметику, и основной выигрыш от AVX 2.0 будет виден лишь в целочисленных операциях.

Fused Multiply-Add (FMA3)

FMA - это операции совмещенного умножения-сложения, при которых умножаются два числа и складываются с аккумулятором. Данный тип операций достаточно распространен и позволяет более эффективно реализовывать умножение векторов и матриц. Поддержка данного расширения должна значительно увеличить производительность векторных операций. FMA3 уже поддерживается в процессорах AMD с ядром Piledriver, а FMA4 - в Bulldozer.

FMA представляет собой комбинацию операции умножения и сложения: a=b×c+d.

Что касается FMA3, то это трехоперандные инструкции, то есть запись результата производится в один из трех участвующих в инструкции операндов. В итоге мы получаем операцию типа a=b×c+a, a=a×b+c, a=b×a+c.

FMA4 - это четырехоперандные инструкции с записью результата в четвертый операнд. Инструкция приобретает вид: a=b×c+d.

К слову об FMA3: данное нововведение позволит увеличить производительность более чем на 30% при условии адаптации кода под FMA3. Стоит заметить, что когда Haswell еще был далеко на горизонте, Intel планировала внедрять FMA4, а не FMA3, но впоследствии изменила решение в пользу FMA3. Скорее всего, именно из-за этого Bulldozer вышел с поддержкой FMA4: дескать, не успели переделать под Intel (а вот Piledriver вышел уже с FMA3). Причем изначально Bulldozer в 2007 году планировался именно с FMA3, но после обнародования планов Intel внедрить FMA4 в 2008 году AMD свое решение переиграла, выпустив Bulldozer с FMA4. А Intel затем сменила в планах FMA4 на FMA3, поскольку выигрыш от FMA4 по сравнению с FMA3 небольшой, а усложнение электрических логических схем - значительное, что также увеличивает транзисторный бюджет.

Выигрыш от AVX2 и FMA3 проявится после адаптации ПО под эти наборы инструкций, так что роста производительности «здесь и сейчас» ждать не стоит. А поскольку производители ПО достаточно инертны, то с «дополнительной» производительностью придется подождать.

Транзакционная память

Эволюция микропроцессоров привела к увеличению количества потоков - современный десктопный процессор имеет их восемь и более. Большое количество потоков создает все больше сложностей при реализации многопоточного доступа к памяти. Необходим контроль за актуальностью переменных в оперативной памяти: требуется вовремя блокировать данные для записи для одних потоков, разрешать чтение или изменение данных для других потоков. Это сложная задача, и для поддержки актуальности данных в многопоточных программах была разработана транзакционная память. Но до сегодняшнего дня она реализовывалась программно, что снижало производительность.

В Haswell появилось новое расширение Transactional Synchronization Extensions (TSX) - транзакционная память, которая предназначена для эффективной реализации многопоточных программ и повышения их надежности. Данное расширение позволяет реализовать «в железе» транзакционную память, тем самым повысив общую производительность.

Что такое транзакционная память? Это такая память, которая имеет внутри себя механизм управления параллельными процессами для обеспечения доступа к совместно используемым данным. Расширение TSX состоит из двух компонентов: Hardware Lock Elision (HLE) и Restricted Transaction Memory (RTM).

Компонент RTM представляет собой набор инструкций, с помощью которого программист может начать, закончить и прервать транзакцию. Компонент HLE вводит префиксы, которые игнорируются процессорами без поддержки TSX. Префиксы обеспечивают блокировку переменных, позволяя другим процессам использовать (считывать) заблокированные переменные и исполнять свой код до тех пор, пока не произойдет конфликт записи заблокированных данных.

На данный момент уже появились приложения с использованием данного расширения.

Виртуализация

Важность виртуализации постоянно растет: все чаще множество виртуальных серверов расположены на одном физическом, да и облачные сервисы распространяются все шире. Поэтому увеличение скорости работы технологий виртуализации и виртуализированных сред является очень актуальной задачей в серверном сегменте. В Haswell содержатся некоторые улучшения, направленные именно на увеличение производительности виртуализированных сред. Перечислим их:

  • улучшения, позволяющие сократить время перехода из гостевых систем в host-систему;
  • добавились биты доступа в Extended Page Table (EPT);
  • уменьшилось время доступа к TLB;
  • новые инструкции вызова гипервизора без выполнения команды vmexit;

В итоге время перехода между виртуализированными средами сократилось и составляет менее 500 тактов процессора. Это должно приводить к сокращению общих потерь производительности, связанных с виртуализацией. А новые Xeon E3-12xx-v3 предположительно будут быстрее в этом классе задач, чем Xeon E3-12xx-v2.

Встроенный регулятор напряжения

В Haswell регулятор напряжения переехал с материнской платы под крышку процессора. Ранее (Sandy Bridge) к процессору требовалось подводить различные напряжения для графического ядра, для системного агента, для процессорных ядер и др. Теперь к процессору через сокет подводится только одно напряжение Vccin 1,75 В, которое поступает на встроенный регулятор напряжения. Регулятор напряжения представляет собой 20 ячеек, каждая ячейка создает 16 фаз с общей силой тока в 25 А. В сумме мы получаем 320 фаз, что значительно больше, чем даже у самых навороченных материнских плат. Такой подход позволяет не только упростить разводку материнских плат (а значит, и снизить их стоимость), но и более точно регулировать напряжения внутри процессора, что, в свою очередь, ведет к большей экономии электроэнергии.

Это одна из основных причин, по которым Haswell физически не может быть совместимым со старым сокетом LGA1155. Да, можно говорить о желании Intel зарабатывать деньги, каждый год выпуская новую платформу (новый чипсет) и каждые два года - новый сокет, но в данном случае для смены сокета есть объективные причины: физическая/электрическая несовместимость.

Однако за все приходится платить. Регулятор напряжения - еще один заметный источник тепла в новом процессоре. А учитывая, что Haswell производится по нормам того же техпроцесса, что и его предшественник Ivy Bridge, стоит ожидать, что процессор будет горячее.

Вообще, это улучшение больше пользы принесет в мобильном сегменте: более быстрое и точное изменение напряжения позволит снизить энергопотребление, а также более эффективно управлять частотой процессорных ядер. И судя по всему, это не пустое маркетинговое заявление, потому как Intel собирается анонсировать мобильные процессоры со сверхнизким потреблением энергии.

Новые энергосберегающие режимы

В Haswell появились новые состояния сна S0ix, которые похожи на состояния S3/S4, но только с гораздо меньшим временем перехода процессора в рабочее состояние. Также было добавлено новое состояние простоя С7.

Режим С7 сопровождается выключением основной части процессора, при этом изображение на экране остается активным.

Минимальная частота процессоров в простое составляет 800 МГц, это также должно снизить энергопотребление.

Архитектура процессора

Фронт-энд

Конвейер Haswell, как и в SB, имеет 14–19 стадий: 14 стадий при попадании в µop-кэш, 19 - при промахе. Объем µop-кэша не изменился по сравнению с SB - 1536 µop. Организация кэша мопов осталась такой же, как и в SB - 32 набора по восемь строк, в каждой из которых по шесть мопов. Хотя в связи с увеличением количества исполнительных устройств, а также последующих после кэша мопов буферов можно было бы ожидать увеличения кэша мопов - до 1776 мопов (почему именно такой объем - будет сказано ниже).

Декодер

Декодер, можно сказать, не изменился - остался четырехпутным, как у SB. Он состоит из четырех параллельных каналов: одного сложного транслятора (complex decoder) и трех простых (simple decoder). Сложный транслятор может обрабатывать/декодировать сложные инструкции, порождающие более одного мопа. В трех остальных каналах декодируются простые инструкции. К слову, благодаря наличию слияния макроопераций, инструкции загрузки с исполнением и выгрузки порождают, например, один моп и могут быть декодированы в «простых» каналах декодера. Инструкции SSE тоже порождают один моп, поэтому могут быть декодированы в любом из трех простых каналов. Учитывая появление 256-битных AVX, FMA3, а также увеличенное количество портов запуска и функциональных устройств, такой скорости декодера может попросту не хватить - и он может стать узким местом. Частично данное узкое место «расшивает» кэш мопов L0m, но все равно, имея процессор с 8 портами запуска, Intel следует задуматься о расширении декодера - в частности, не помешало бы увеличить количество сложных каналов.

Планировщик, буфер переупорядочивания, исполнительные устройства

После декодера следует очередь декодированных инструкций, и вот тут мы видим первое изменение. В SB было две очереди по 28 записей - одна очередь на один виртуальный поток Hyper-Threading (НТ). В Haswell две очереди объединили в одну общую для двух потоков HT на 56 записей, то есть объем очереди не изменился, но изменилась концепция. Теперь весь объем в 56 записей доступен одному потоку при отсутствии второго - следовательно, можно ожидать прироста как в малопоточных приложениях, так и в многопоточных (это связано с тем, что единую очередь два потока могут использовать более эффективно).

Изменению подвергся также буфер переупорядочивания - он был увеличен со 168 до 192 записей. Это должно повысить эффективность HT за счет большей вероятности наличия «независимых» друг от друга мопов. Очередь декодированных микроопераций увеличена с 54 до 60. Физические регистровые файлы, которые появились в SB, также были увеличены - со 160 до 168 регистров для целочисленных операндов и со 144 до 168 для операндов с плавающей запятой, что должно положительно сказаться на производительности векторных вычислений.

Сведем все данные об изменениях в буферах и очередях в единую таблицу.

В принципе, изменения параметров в Haswell выглядят вполне ожидаемыми, учитывая общую логику развития процессорной архитектуры Intel. Исходя из этой же логики, можно предположить, что в следующем поколении Core размеры буферов и очередей увеличатся не более чем на 14%, то есть размер буфера переупорядочивания будет в районе 218. Но это уже чисто теоретические предположения.

Следом за очередью декодированных операций располагаются порты запуска и прикрепленные к ним функциональные устройства. На этом этапе остановимся более подробно.

Как мы знаем, у Sandy Bridge было шесть портов запуска, которые он унаследовал от Nehalem, а тот, в свою очередь, от Conroe. То есть с 2006 года, когда Intel добавила еще два порта к имевшимся в распоряжении Рentium 4 четырем, количество портов запуска не менялось - только добавлялись новые функциональные устройства. Правда, стоит оговориться, что P4 имел своеобразную самобытную архитектуру NetBurst, в которой два его порта могли выполнять по две операции за один такт (хотя и далеко не со всеми операциями). Но наиболее правильным будет проследить эволюцию количества портов запуска не на примере P4, а на примере PIII, так как P4 имеет и длинный конвейер, и порты запуска с «удвоенной» производительностью, и кэш трасс, да и вся его архитектура заметно отличается от общепринятной. А Pentium III очень близок по функциональной схеме портов запуска к Conroe, и также имеет короткий контейнер. Так что в общем и целом можно сказать, что Conroe является прямым наследником PIII. Исходя из этого можно заявить, что в 2006 году был добавлен лишь один порт запуска по сравнению с PIII, который имел пять портов запуска.

Таким образом, количество портов запуска растет достаточно медленно, а если уж добавляются новые, то по одному. В Haswell же добавили сразу два, суммарно получив целых восемь портов - еще чуть-чуть, и дойдем до Itanium. Соответственно, Haswell показывает теоретическую производительность на исполнительном тракте в 8 моп/такт, из которых 4 мопа расходуются на арифметические операции, а остальные 4 приходятся на операции с памятью. Напомним, что у Conroe/Nehalem/SB было 6 моп/такт: 3 мопа арифметических операций и 3 мопа операций с памятью. Данное улучшение должно поднять показатель IPC, и, таким образом, в архитектуре Haswell действительно присутствуют очень серьезные изменения, которые вполне оправдывают его место «так» в плане развития Intel.

Изменения ФУ в Haswell

Количество исполнительных устройств также было увеличено. Новый шестой (седьмой по счету) порт добавил два дополнительных исполнительных устройства - устройство целочисленной арифметики и сдвига и устройство предсказания переходов. Седьмой (восьмой) порт отвечает за выгрузку адреса.

Таким образом, мы получаем четыре исполнительных устройства целочисленной арифметики, тогда как Sandy Bridge нам предоставлял только три. Следовательно, можно ожидать увеличения скорости целочисленной арифметики. Кроме того, теоретически это должно нам позволить одновременно выполнять и расчеты с плавающей запятой, и целочисленные расчеты, что, в свою очередь, может увеличить эффективность НТ. В SB вычисления с плавающей запятой осуществлялись на тех же портах, где использовались целочисленные функциональные устройства, поэтому по большому счету происходила блокировка, т. е. нельзя было иметь «разнородную» нагрузку. Также следует отметить, что добавление дополнительного устройства перехода в Haswell позволит предсказывать переход без «блокировки» при арифметических вычислениях - ранее при целочисленных вычислениях единственный предсказатель перехода блокировался, т. е. была возможна работа либо арифметического исполнительного устройства, либо предсказателя. Порты 0 и 1 также претерпели изменения - в них появилась поддержка FMA3. Седьмой (восьмой) порт Intel ввела для увеличения эффективности и снятия «блокировки» - когда второй и третий порты работают на загрузку, седьмой (восьмой) порт может заниматься выгрузкой, что раньше было просто невозможно. Данное решение необходимо для обеспечения высокого темпа исполнения AVX/FMA3-кода.

Вообще, такой широкий исполнительный тракт вполне может привести к изменению HT - сделав ее четырехпоточной. В сопроцессорах Intel Xeon Phi с гораздо более узким исполнительным трактом HT является четырехпоточной, при этом, как показывают исследования и тесты, сопроцессор достаточно хорошо масштабируется. То есть даже более узкий исполнительный тракт в принципе позволяет эффективно работать с четырьмя потоками. А уж тракт с восемью портами запуска вполне эффективно может выполнять четыре потока, и более того, наличие четырех потоков сможет лучше загрузить восемь портов запуска. Правда, для большей эффективности необходимо будет увеличить буферы (в первую очередь - буфер переупорядочивания) для большей вероятности «независимых» данных.

Также в Haswell вдвое увеличили пропускную способность L1-L2, при этом остались прежние величины задержки. Такая мера была просто необходима, так как 32-байтной записи и 16-байтного чтения попросту не хватило бы при наличии восьми портов запуска, а также 256-битных AVX и FMA3.

Sandy Bridge Haswell
L1i 32k, 8-way 32k, 8-way
L1d 32k, 8-way 32k, 8-way
Латентность 4 такта 4 такта
Скорость загрузки 32 байта/такт 64 байта/такт
Скорость записи 16 байт/такт 32 байта/такт
L2 256k, 8-way 256k, 8-way
Латентность 11 тактов 11 тактов
Пропускная способность между L2 и L1 32 байта/такт 64 байта/такт
L1i TLB 4k: 128, 4-way
2M/4M: 8/thread
4k: 128, 4-way
2M/4M: 8/thread
L1d TLB 4k: 128, 4-way
2M/4M: 7/thread
1G: 4, 4-way
4k: 128, 4-way
2M/4M: 7/thread
1G: 4, 4-way
L2 TLB 4k: 512, 4-way 4k+2M shared: 1024, 8-way

TLB L2 был увеличен до 1024 записей, появилась поддержка двухмегабайтных страниц. Увеличение TLB L2 повлекло за собой и увеличение ассоциативности с четырех до восьми.

Что касается кэша третьего уровня, то с ним ситуация неоднозначная: в новом процессоре задержка доступа должна увеличиться из-за потерь при синхронизации, ведь теперь кэш L3 работает на собственной частоте, а не на частоте процессорных ядер, как было раньше. Хотя доступ по-прежнему осуществляется в 32 байта за такт. С другой стороны, Intel говорит об изменениях в System Agent и улучшениях блока Load Balancer, который может теперь обрабатывать параллельно несколько запросов к кэшу L3 и разделять их на запросы к данным и «не-данным». Это должно повысить пропускную способность кэша L3 (некоторые тесты подтверждают это, ПС кэша L3 оказывается чуть выше IB).

Принцип работы кэша L3 в Haswell чем-то схож с Nehalem. У Nehalem кэш L3 находился в Uncore и имел собственную фиксированную частоту, а в SB кэш L3 привязали к процессорным ядрам - его частота стала равна частоте процессорных ядер. Из-за этого возникали проблемы - например, когда процессорные ядра работали на сниженных частотах при отсутствии нагрузки (и LLC «засыпал»), а GPU была необходима высокая ПС LLC. То есть это решение ограничивало производительность GPU, и к тому же требовалось выводить процессорные ядра из состояния простоя лишь для того, чтобы разбудить LLC. В новом процессоре для улучшения ситуации с энергопотреблением и повышения эффективности работы GPU в вышеописанных ситуациях кэш L3 работает на собственной частоте. Наибольшую пользу из этого решения должны извлекать мобильные, а не настольные решения.

Стоит заметить, что объемы кэшей имеют определенную зависимость. Кэша третьего уровня приходится два мегабайта на ядро, кэша второго уровня - 256 КБ, что в восемь раз меньше объема L3 на ядро. Объем кэша первого уровня, в свою очерердь, в восемь раз меньше L2 и составляет 32 КБ. Кэш мопов прекрасно вписывается в эту зависимость: его объем в 1536 мопов в 7-9 раз меньше L1 (точно это определить невозможно, так как битовый объем мопа неизвестен, а Intel вряд ли будет распространяться на эту тему). В свою очередь, буфер переупорядочивания в 168 мопов ровно в восемь раз меньше кэша мопов в 1536 моп, хотя, исходя из повсеместного увеличения буферов и очередей, следовало ожидать увеличения кэша мопов на 14%, то есть до 1776. Таким образом, объемы буферов и кэшей имеют пропорциональные размеры. Это, наверное, еще одна причина, почему Intel не увеличивает кэши L1/L2, считая такие пропорции в объемах наиболее эффективными с точки зрения увеличения производительности на увеличение площади. Стоит заметить, что в процессорах со встроенным топовым графическим ядром присутствует промежуточная быстрая память с широкой шиной доступа, которая кэширует все запросы к оперативной памяти - как процессора, так и видеоускорителя. Объем этой памяти составляет 128 МБ. Для процессорных ядер, если расценивать эту память как кэш L4, объем должен был быть 64 мегабайта, а с добавлением еще и графического ядра использование 128 МБ выглядит вполне логичным.

Что касается контроллера памяти, то он не получил ни увеличения числа каналов, ни увеличения частоты работы с оперативной памятью, то есть это всё тот же контроллер памяти с двухканальным доступом на частоте 1600 МГц. Такое решение выглядит довольно странно, ведь переход с SB на IB увеличил частоту функционирования ИКП с 1333 МГц до 1600 МГц, хотя это был всего лишь переход архитектуры на новый техпроцесс. А сейчас мы имеем новую архитектуру, при этом частота функционирования памяти осталась на прежнем уровне.

Еще более странным это выглядит, если вспомнить об улучшениях в графическом ядре - ведь мы помним, что даже младшая видеокарта HD2500 в IB полностью утилизировала пропускную способность в 25 ГБ/с. Теперь же подросла и производительность ЦП, и производительность графики, а пропускная способность памяти осталась на прежнем уровне. Если взглянуть более широко, то конкурент постоянно увеличивает пропускную способность памяти в своих гибридных процессорах, и она выше, чем у Intel. Логично было ожидать в Haswell поддержку памяти с частотой 1866 МГц или 2133 МГц, что повысило бы пропускную способность до 30 и 34 ГБ/с соответственно.

Как итог, данное решение Intel не совсем понятно. Во-первых, конкурент ввел поддержку более быстрой памяти без особых проблем. Во-вторых, стоимость модулей памяти, функционирующих на частоте 1866 МГц, ненамного выше по сравнению с 1600-мегагерцовыми модулями, к тому же никто не обязывает покупать 1866-мегагерцовую память - выбор оставался бы за пользователем. В-третьих, никаких проблем с поддержкой не то что 1866 МГц, но и 2133 МГц быть не может: с самого анонса Haswell были поставлены мировые рекорды разгона оперативной памяти, то есть ИКП без проблем «потянул» бы более быструю память. В-четвертых, в серверной линейке Xeon E5-2500 V2 (Ivy Bridge-EP) заявлена поддержка 1866 МГц, а ведь Intel обычно внедряет поддержку более быстрых стандартов памяти на этом рынке много позже настольных решений.

В принципе, можно было бы предположить, что в отсутствие конкуренции Intel нет необходимости «просто так» наращивать мускулы и еще больше увеличивать превосходство, но данное предположение абсолютно некорректно, так как увеличение пропускной способности памяти, как правило, увеличивает производительность встроенного графического ядра и почти не увеличивает производительность процессора. При этом Intel пока отстает от AMD именно в производительности графики, и в последние годы сама же Intel всё больше и больше уделяет внимание именно графике, и темпы улучшений для нее гораздо выше, чем для процессорного ядра. Кроме того, если опираться на результаты тестирований встроенного графического ядра предыдущего поколения HD4000, которые показали, что увеличение ПСП приводит к увеличению производительности графики до 30%, а также учитывая, что новое графическое ядро HD4600 заметно быстрее, чем HD4000, то зависимость производительности графического ядра от ПСП становится еще более явной. Новое графическое ядро будет еще больше упираться в «узкую» пропускную способность памяти. Суммируя все факты, решение Intel совершенно непонятно: компания собственноручно «задушила» свою графику, а ведь увеличение ПСП могло бы подтянуть ее производительность.

Возвращаясь к архитектуре кэшей, выскажем просто мысль в пустоту: раз уж был добавлен промежуточный кэш (кэш мопов), то почему бы не добавить еще промежуточный кэш данных объемом порядка 4-8 КБ и с меньшей задержкой доступа между кэшем L1d и исполнительными устройствами, как у P4 (раз уж концепция кэша мопов была взята именно у Netburst)? Напомним, что в P4 этот промежуточный кэш данных имел время доступа в два такта, причем один такт Р4 был равен примерно 0,75 тактам обычного процессора, то есть время доступа было около полутора тактов. Впрочем, может быть, мы еще увидим что-то подобное - Intel любит вспоминать хорошо забытое старое.

Как можно было заметить, большинство архитектурных изменений Intel направила на увеличение производительности кода AVX/FMA3: это и увеличение пропускной способности кэшей, и увеличение количества портов, и увеличение темпа выгрузки/загрузки в исполнительном тракте. В итоге, основной выигрыш в производительности должен быть именно в ПО, написанном с использованием AVX/FMA3. В принципе, судя по результатам тестов, похоже, что так оно и есть. Сухая производительность на одинаковой частоте в «старых» приложениях получила прирост около 10% по сравнению с предыдущим ядром, а приложения, написанные с использованием новых наборов инструкций, показывают прирост более 30%. Так что преимущества архитектуры Haswell будут раскрываться по мере оптимизации приложений под новые наборы инструкций. Вот тогда превосходство Haswell над SB станет очевидным.

Основной выигрыш от значительной части нововведений получат мобильные устройства. Им помогут и новый подход к кэшу L3, и встроенный регулятор напряжения, и новые режимы сна, и более низкие минимальные частоты функционирования процессорных ядер.

Заключение (процессорная часть)

Чего можно ожидать от Haswell?

В связи с увеличением количества портов запуска можно ожидать увеличения показателя IPC, поэтому небольшое преимущество у новой архитектуры Haswell над Sandy Bridge на одинаковой частоте будет уже сейчас, даже при неоптимизированном программном обеспечении. Инструкции AVX2/FMA3 - это задел на будущее, и это будущее зависит от разработчиков ПО: чем быстрее они адаптируют свои приложения, тем быстрее конечный пользователь получит прирост производительности. Однако не стоит рассчитывать на рост всего и везде: SIMD-инструкции в основном используются в работе с мультимедийными данными и в научных расчетах, так что роста производительности стоит ожидать именно в этих задачах. Основной выигрыш от увеличения энергоэффективности получат мобильные системы, где этот вопрос действительно важен. Таким образом, два основных направления, по которым новая архитектура Intel Haswell существенно выигрывает - это увеличение SIMD-производительности и увеличение энергоэффективности.

Что касается применимости новых процессоров Haswell, то стоит разобрать несколько разных вариантов их применения: в настольных компьютерах, в серверах, в мобильных решениях, для геймеров, для оверклокеров.

Десктоп

Энергопотребление не является ключевым аспектом для десктопного процессора, поэтому даже в Европе с ее дорогой электроэнергией вряд ли кто-то будет переходить на Haswell с предыдущих поколений только из-за этого. Тем более, что TDP у Haswell выше, чем у IB, так что экономия будет лишь в случае минимальных нагрузок. При такой постановке вопроса сомнений быть не может - оно того не стоит.

С точки зрения производительности переход тоже не выглядит таким уж выгодным делом: максимальный прирост скорости в процессорных задачах сейчас составит не более 10%. Переход на Haswell с Sandy Bridge или Ivy Bridge будет оправдан только в том случае, если вы планируете использовать приложения с грамотной поддержкой FMA3 и AVX2: поддержка FMA3 может дать прирост в некоторых приложениях от 30% до 70%. Улучшения, связанные с виртуализацией и внедрением транзакционной памяти, для десктопа малоинтересны и малополезны.

Серверы и рабочие станции

Учитывая, что серверы работают непрерывно все 24 часа в сутки и имеют достаточно высокую постоянную нагрузку на процессор, по чистому энергопотреблению Haswell вряд ли будет лучше IB, хотя по производительности на ватт и может дать некоторый выигрыш. Поддержка AVX2/FMA3 вряд ли пригодится в серверах, а вот в рабочих станциях, занимающихся научными расчетами, данная поддержка будет весьма и весьма полезна - но лишь при условии поддержки новых инструкций в применяемом ПО. Транзакционная память - вещь достаточно полезная, но тоже не всегда: она может дать прирост в многопоточных программах и в программах, работающих с базами данных, но для ее эффективного использования также необходима оптимизация ПО.

А вот все улучшения, связанные с виртуализацией, скорее всего дадут неплохой эффект, так как виртуальные среды сейчас используются очень активно, и на большинстве физических серверов работает по несколько виртуальных. Причем распространенность виртуализации объясняется не только заметным снижением издержек виртуальной среды в плане производительности, но и экономической эффективностью: содержать много виртуальных серверов на одном физическом и дешевле, и позволяет более эффективно использовать ресурсы, в том числе ресурсы процессора.

Так что на серверном рынке появление Haswell должны встретить положительно. После смены серверов на базе Xeon E3-1200v1 и Xeon E3-1200v2 на серверы с Xeon E3-1200v3 (Haswell) вы сразу получите прирост эффективности, а после оптимизации ПО под AVX2/FMA3 и транзакционную память производительность подрастет еще сильнее.

Мобильные решения

Основной выигрыш от внедрения Haswell в мобильном сегменте, конечно же, лежит в сфере улучшенного энергопотребления. Судя по презентациям Intel, а также результатам тестов, которые уже появляются в Сети, эффект действительно есть, и заметный.

Что касается чистой производительности, то переход с Ivy Bridge на Haswell не представляется таким уж обоснованным мероприятием: чистый прирост должен быть отностительно небольшим, а улучшения в отдельных компонентах (те же виртуализация или мультимедийные инструкции) вряд ли много дадут пользователю мобильной системы, так как на ноутбуках и планшетах редко занимаются созданием сред или сложными научными расчетами.

В общем и целом, с точки зрения процессорной производительности многого ждать не стоит, зато в мобильных системах наверняка будет востребован рост производительности графического ядра. Поэтому если вопросы энергопотребления для вас не критически важны, то серьезно рассматривать вопрос апгрейда с Sandy Bridge или Ivy Bridge не стоит - лучше продолжать эксплуатировать имеющиеся системы, пока они окончательно не устареют. Если же вы часто работаете от батарей, то Haswell способен обеспечить существенный прирост времени автономной работы.

Геймеры

Вопрос энергопотребления у геймеров в России, как правило, не стоит - да и с чего бы ему стоять, когда геймерские видеокарты потребляют по 200 и более ватт? Виртуализация и транзакционная память геймеру тоже не нужны. Не факт, что AVX2/FMA3 будут востребованы именно для игр, хотя они могут пригодиться в расчетах физики. Остается чистая производительность процессора, а тут разница с тем же Ivy Bridge невелика. Как итог, для этой категории пользователей прямой переход с SB или IB на Haswell также не выглядит актуальным. Зато разумно переходить на новые процесоры с Nehalem и Lynifield, и уж тем более Conroe.

Оверклокеры

Для оверклокеров новый процессор (но, конечно, лишь его «разблокированная» K-версия) может быть интересен, особенно если удастся его «скальпировать», то есть снять металлическую крышку и охлаждать кристалл напрямую. Если этого не сделать, то результаты по разгону выглядят еще более скромными, чем у Ivy Bridge. Плюс, сдерживающим фактором может стать интегрированный регулятор напряжения. Подробнее об этом читайте

Типы процессоров intel многочисленны. Haswell – название четвертого поколения оборудования, в котором применялась инновационная архитектура.

Специально для них разработано семейство новых чипсетов восьмой серии. Работа с SSD оптимизирована. Релиз архитектуры состоялся в начале июня 2013 года.

Обзор Haswell

С 2013 – го года разработано множество моделей процессоров. Автономный процессор позиционировался разработчиками для использования в ноутбуках, ультрабуках и планшетах, благодаря низкому энергопотреблению. Производительность повысится, что позволяет разработчикам представлять Haswell как лучшие процессоры intel для мобильных устройств в настоящий момент. Двухядерные процессоры Core i3 haswell представлены в трех разновидностях:

  1. i3-4340;
  2. i3-4330;
  3. i3-4130.

Различаются тактовой частотой, которая для трех моделей составляет соответственно 3,6, 3,5, 3,4 ГГц. Новое графическое ядро для первых двух моделей представлено HD Graphics 4600, а для третьей — HD Graphics 4400. Частота это ядра у всех 1150 МГц. LЗ – кэш 4, 4 и 3 Мбайта соответственно. Цена отличается несильно – для первого варианта – $160, для второго – $150 и для третьего $130.

Четырехядерные i5 haswell оснащены ядром графики HD Graphics 4600. Тактовая частота 3,2 ГГц, при турбоускорении – 3,6. Кэш объемом 6 Мбайт. Теплоотделение низкое, так что и при активном использовании не требуется дополнительный куллер.

Но процессор i7 превосходит i3 или i5. Представлен рядом i7-4770K, i7-4770, i7-4770S, i7-4770T и i7-4765T. Первые два работают на четырехядерном процессоре в 8 потоков, тогда как остальные – в четыре.

Тактовая частота ниже всего у последней модели и равна 2 ГГц, самая высокая у первой – 3,5 ГГц. Кэш 8 Мб

Особенности Haswell

Haswell – название новой архитектуры процессоров, процессоры, основанные на ней, называются также. Вычислительное ядро устройства претерпело изменения по сравнению с предыдущей версией. Предпроцессор почти не изменен. Декодер ядра четырехканальный, а так как средняя длина команды составляет 4 байта, может одновременно обрабатывать до 16 – ти байт. Состоит из четырех простых декодеров и одного сложного. Инструкции декодируются по технологиям Macro – Fusion и Micro – Fusion.

8-миканальный кэш декодированных операций хранит 1500 микроопераций в 4 байта. Каждый из 8-ми банков по 32 кэшстроки, в которые входит по 6 микроопераций в каждую. Смысл такого банка в том, чтобы не выполнять повторное декодирование, а вытаскивать уже декодированную операцию непосредственно из кэша.

Изменены исполнительные блоки в ядре. Количество портов увеличено до 8. Теперь за один такт выполняется до 8-ми микроопераций. Введен новый набор инструкций.

Тесты устройства на производительность проводились на основе Windows и Андроид. Тестирование intel core i7 – 4770 проводилось базовыми процессами и приложениями, а за показатель бралось время выполнения заданной операции. В результате теста на неигровых приложениях индексы процессоров intel Haswell оказались выше, чем в предыдущих моделях.

Наибольший прирост по показателю в приложениях Photoshop, Adobe Premier Pro и др

С помощью 3DMark Professional проводился тест на работу игровых приложений. По результатам видно, что есть прогресс в работе графической подсистемы. Игра без применения дискретной графической видеокарты невозможна. Встроенная графика процессора не годится.

Преимущества процессора Haswell

Haswell – поколение Intel Core, имеющее довольно много противников. Они находят в нем недостатки, такие как завышенная цена или необходимость слишком часто обновлять платформу. Однако у данного оборудования есть ряд плюсов. Это и высокие эффективность и производительность, и функциональная платформа и др.

  • Главный же плюс, которым обладает процессор – интегрированное ядро графики. Оно стало конкурентоспособным. Появилась возможность поддержки нескольких мониторов и значительный прирост производительности;
  • Устройство обладает повышенной эффективностью по энергопотреблению. По сравнению с прошлыми версиями удалось снизить его на 5 Ватт в режиме бездействия. Это не столь большая разница для настольного ПК, но значительная, если Вы выбираете ноутбук или ультрабук. Потребление электроэнергии под нагрузкой низкое;
  • Производительность повысилась на 5 – 10 % в сравнении с прошлыми поколениями. Отличается в зависимости от условий теста. В отдельных случаях может быть выше или ниже. Разница не столь значительная, чтобы проводить апгрейд существующей системы предыдущего поколения, однако значительная, если Вы выбираете процессор haswell взамен значительно устаревшего;
  • Система разгона процессора через базовую частоту стала более гибкой. Тем самым разработчики ответили на претензии пользователей предыдущих версий устройств.

Процессоры intel pentium haswell разрабатываются, в большей степени, для применения в ноутбуках. Мощное оборудование для настольных ПК пока не выпускается, а в ноутбуках же не удается достичь высочайших тактовых частот, огромных кэшей и использования полноценных 8 – ми ядер. Таким образом, любителям стационарных ПК придется подождать иных разработок.

Итак, свершилось. После месяцев ожидания энтузиасты, оверклокеры и требовательные пользователи смогут получить в своё распоряжение новейшие процессоры Haswell-E, представленные сегодня корпорацией Intel.

Как уже неоднократно сообщалось, чипы Haswell-E рассчитаны на настольные компьютеры класса high-end. Линейка включает три изделия: это модели Core i7-5960X, Core i7-5930K и Core i7-5820K. Все они производятся по 22-нанометровой технологии с применением транзисторов с объёмной структурой. Поддерживается функция Hyper-Threading, позволяющая каждому ядру обрабатывать одновременно два потока инструкций, и система динамического повышения производительности Turbo Boost.

Старший процессор в семействе Haswell-E — чип Core i7-5960X. Это первое изделие Intel с восемью вычислительными ядрами, нацеленное специально на десктопы высшего уровня. Процессор работает на номинальной частоте в 3,0 ГГц с возможностью динамического повышения до 3,5 ГГц. Восьмиядерный кристалл Haswell-E имеет площадь в 356 мм 2 , а число содержащихся в нём транзисторов достигло 2,6 млрд. Объём кеша третьего уровня равен 20 Мбайт. Чип позволяет задействовать до 40 линий PCI Express.

Модель Core i7-5930K располагает шестью ядрами. Но по сравнению со старшим собратом номинальная и форсированная частоты выше — 3,5 и 3,7 ГГц соответственно. Размер кеша L3 равен 15 Мбайт; поддерживается 40 линий PCI Express.

Наконец, процессор Core i7-5820K имеет шесть ядер с частотой 3,3/3,6 ГГц и 15 Мбайт кеша третьего уровня. Однако поддерживается только 28 линий PCI Express, а поэтому в системах с несколькими графическими ускорителями будут ощущаться определённые ограничения.

Все представители Haswell-E характеризуются разблокированным множителем. Важно отметить, что процессорная крышка припаивается к полупроводниковому кристаллу с применением специального припоя на основе индия с высокой теплопроводностью (в обычных Haswell-изделиях между кристаллом и крышкой проложена термопаста с достаточно посредственными характеристиками). Применение припоя должно повысить разгонный потенциал. Кстати, в дополнение к разгону путём изменения коэффициента умножения допускается разгон и частотой шины: процессорами поддерживаются её базовые значения в 100, 125, 167 и 250 МГц.

Чипы обладают максимальным значением рассеиваемой тепловой энергии (TDP) в 140 Вт.

Ещё одна особенность Haswell-E — четырёхканальный контроллер оперативной памяти DDR4-2133. Это означает, что память нового поколения с пониженным напряжением питания и увеличенным быстродействием, наконец, приходит в сегмент настольных компьютеров.

Процессоры рассчитаны на работу с материнскими платами на наборе логики Intel X99 Express, оснащёнными разъёмом LGA 2011-3. Платформа обеспечивает поддержку десяти портов SATA 3.0 (6 Гбит/с), интерфейсов SATA Express и M.2. В наборе логики присутствует высокоскоростной контроллер шины USB: из 14 доступных портов шесть могут работать не только в режиме USB 2.0, но и в режиме USB 3.0, обеспечивая пропускную способность до 5 Гбит/с. Кроме того, в чипсете есть встроенный генератор тактовой частоты, что избавляет производителей системных плат от необходимости использования дополнительных электронных компонентов и упрощает дизайн платформы. Материнские платы на основе Intel X99 подготовили все ведущие производители.

И о ценах. Модель Core i7-5960X обойдётся в $999, в то время как за модификации Core i7-5930K и Core i7-5820K придётся заплатить соответственно $583 и $389.

Ознакомиться со всеми особенностями новинок можно из нашего подробного материала за авторством Ильи Гавриченкова.