|
23.09.2009 03:34 |
| |
Memtest86+ 4.00 - лучшее средство для тестирования и диагностики оперативной памяти |
|
«Переселение» контроллера памяти непосредственно в современные процессоры достаточно сильно сказывается на общей логике тестирования компьютерных систем. Главным фактором тут является исчезновение привычного «посредника» между процессором и памятью в лице северного моста чипсета. Соответственно, с одной стороны, работа несколько упрощается — производительность процессора больше не зависит от используемого чипсета и, как правило, вообще от системной платы, т.е. последняя превращается просто в объединительную панель. Да, разумеется, конкретные контроллеры чипсета продолжают оказывать влияние на производительность дисковой системы или периферийных интерфейсов, но вот процессор от этого влияния теперь освобожден. С другой стороны, усложняется само по себе тестирование центральных процессоров — производительность их в зависимости от выбранной конфигурации системы памяти может меняться совершенно не линейным образом. Просто потому, что контроллер памятитеперь неотъемлемая составляющая самого процессора, так что на него могут влиять другие компоненты. И он сам на них влиять может — например, кого ранее заботило энергопотребление или тепловыделение чипсета (при условии, что нормальное охлаждение ему можно обеспечить удавалось)? Да никого — стоит себе на плате микросхема и стоит. Больше или меньше потребляет — неважно: скорость ее работы от этого не изменится, а ЦПУ от всего этого физически удален. Теперь же «лишние» ватты и градусы добавляются к процессору, что вполне может сказаться и на пороге тротлинга, уменьшая, тем самым, и производительность вычислительных блоков. Плюс к тому возросла роль задержек — естественно, время доступа всегда сильно сказывалось на итоговой производительности, однако ранее эффект сильно нивелировала сложная схема доступа к памяти. Т.е. пока запрос к ней доходил от процессора, он успевал на каждом этапе «обрасти» дополнительными задержками. ИКП весьма эффективнос ними борется, существенно снижая общую латентность, однако тем большее значение начинают иметь собственные задержки модулей памяти. Или самого контроллера — «посредники» отсутствуют, общее время снижается в разы, так что уже каждая наносекунда на счету. В общем, упрощая изучение роли одних компонентов, усложняем тестирование других.
Нельзя сказать, что все это явилось откровением какого-то позднейшего времени — в процессорах AMD интегрированный контроллер памяти используется уже более шести лет, так что те, кто этим вопросом уже интересовался, достаточное количество информации накопить успели. Однако для процессоров Intel, занимающих куда большую долю рынка (а следовательно и для большинства пользователей) актуальным изменение характера работы системы памяти становится только сейчас — вместе с выходом действительно массовых процессоров компании с интегрированным контроллером памяти. Семейство под LGA1366 со своей долей рынка в единицы процентов (т.е. на порядок меньше, чем тех же Athlon/Phenom разных модификаций) таким поворотным моментом послужить никак не могло, а вот внедрение LGA1156 — вполне. Поэтому не будет откладывать в долгий ящик вопросы изучения особенностей работы системы памяти на этой платформе, а займемся ими прямо сейчас.LGA1156 и LGA1366 — отличия подсистемы памяти
Если внимательно посмотреть на материнские платы для обеих платформ, отличий видимых глазом практически не наблюдается: и те, и другие снабжены четырьмя или шестью слотами памяти типа DDR3. На самом же деле использовать их они могут по-разному. Что касается систем на базе LGA1366 то тут все шесть слотов можно «забивать» любыми модулями, вплоть до имеющих емкость 4 ГБ, получая общий объем до 24 ГБ. Но не ждите таких подвигов от младшей платформы, даже если вам досталась плата с шестью слотами (например, используемая нами Gigabyte P55-UD6). По три модуля на канал ИКП процессоров в исполнении LGA1156 поддерживает, но при очень жестком условии — суммарное количество поддерживаемых банков не может превышать восемь. Т.е. если устанавливать двухбанковые модули, то заполнять можно только четыре слота из шести, а вот если вам попадутся однобанковые — можно задействовать все. Нам вот не попались: все обнаруженные в лаборатории модули (даже гигабайтные) оказались двухбанковыми.Итак, какой можно сделать вывод? Во-первых, гнаться за шестью слотами на плате не стоит — с очень большой долей вероятности вы все равно будете использовать не больше четырех. Да и на максимальный объем наличие шести слотов не повлияет — по очевидным причинам однобанковые модули имеют меньшую емкость, чем двухбанковые, отличаясь как раз в эти самые два раза. В общем, пока максимум для данной платформы — 16 ГБ памяти. Если же использовать недорогие модули по 2 ГБ, то и вообще всего 8 ГБ.
Против 12 или 24 ГБ на LGA1366 — казалось бы, как раз полуторократное отличие, продиктованное тем, что в одних процессорах контроллер памяти трехканальный, а в других двухканальный. Но не спешите с выводами — на самом деле ИКП процессоров под 1366 поддерживает не 12, а все 18 банков памяти. С весьма жестким ограничением — максимально «нагруженная» конфигурация памяти поддерживает только DDR3 800. Вот если ограничиться двумя модулями на канал (что обладателям десктопных плат на Х58 и приходится делать — девять слотов на них как-то не рвутся ставить производители), получаем мы уже DDR3 1066, а то и 1333. А при одном модуле на канал гарантированно стабильно будет работать DDR3 1333 и вполне возможно более скоростные модули — на 1600 МГц, а то и выше.
Из всего этого можно сделать вывод, что контроллер памяти в процессорах под LGA1366 очень мощный и сложный: такие объемы-то тянуть — вдвое больше, чем у нового настольного конкурента. А вот в LGA1156 не только каналов меньше, но и вообще вся структура проще. И, кстати, очень может быть, что и работает она быстрее. Так часто бывает — двигатели карьерных самосвалов нередко по мощности одинаковы с двигателями спорткаров, но у первых вся эта мощность тратится на высокую грузоподъемность, а по скорости на шоссе они редко способны соревноваться даже с бюджетной современной малолитражкой. Аналогичная картина может оказаться и при сравнении процессоров для разных платформ. Но что там на самом деле — стоит проверить на практике. Объект тестирования
В качестве основного испытуемого мы взяли Core i7 860. Данный процессор имеет стартовую частоту ядра 2,8 ГГц и частоту блока UnCore 2,4 ГГц, официально поддерживая память типа DDR3 1333 (а неофициально — и большие частоты последней). Тестирование, в основном, шло по нашей стандартной методике, подробные результаты тестов собраны в единую таблицу (там же можно полюбоваться и другими процессорами, привлеченными нами для сравнения).
Главное отличие тестовых конфигураций — разная память. В качестве базовой мы взяли такую, в которой процессоры для этого разъема и тестировались — два модуля из трехканального кита Kingston KVR1333D3N9K3/6G, работающие в тестах на частоте 1333 МГц с относительными таймингами 9-9-9-24. Однако 4 ГБ по нынешним временам для высокопроизводительного компьютера это лишь стартовый уровень, так что мы поэкспериментировали и с емкостью.
Добавили к вышеупомянутым модулям еще пару из комплекта от Walton Chaintech — получили 8 ГБ DDR3 1333 с теми же таймингами.
Решено было проверить и емкий, но не быстрый вариант — в пару к модулям Chaintech поставили пару гигабайтных модулей от Apacer, что нам дало 6 ГБ. Для более корректного сравнения с системами на LGA1366 частота памяти в последнем случае была установлена на 1066 МГц, а тайминги — 9-8-8-20. Просто потому, что основной объект для сравнения, а именно Core i7 920, в прошлый раз был протестированс 4 и 6 ГБ памяти (соответственно, два и три модуля в двухканальном и трехканальном режиме) Kingston KVR1333D3N9K3/6G на частоте 1066 МГц и с таймингами 8-8-8-19. Эти результаты мы взяли и для данной статьи — для сравнения.Пристрелка
Но для начала мы решили проверить производительность каждого из вариантов в синтетическом приложении, в роли которого сегодня выступал Everest 4.6 (да, это далеко не последняя версия популярного тестового пакета, однако и «реальный» софт обновляется далеко не мгновенно, так что эти результаты нам весьма интересны даже если предположить слабую оптимизированность 4.6 под Nehalem). В качестве дополнительного испытуемого мы привлекли Core i5 750, работающий с той же парой модулей, что и 860 в одном из режимов. Зачем? У Core i7 860 частота UnCore 2,4 ГГц, у i5 750 и i7 920 она меньше — 2,13 ГГц, вот и посмотрим: как и на что это влияет (и влияет ли вообще).
Видно, что при чтении данных мы упираемся в частоту памяти. Не в том смысле, конечно, что ограничением является теоретическая ПСП (о приближении к ней можно говорить, разве что, в одноканальном режиме, но не в двухканальном, а 30 ГБ/с в трехканальном вообще лишь красивая и заманчивая сказка), а в том, что результаты от нее зависят. DDR3 1066 демонстрирует одинаковый результат и на 860, и на 920, DDR3 1333 ее заметно быстрее. Причем на 860 она немного быстрее, чем на 750, что можно было предполагать, а вот что режим с двумя модулями на канал окажется еще более быстрым, оказалось немного неожиданным.
А вот уже и интересные результаты: можно утверждать, что скорость записи в памяти не зависит от частоты памяти, а напрямую связана с частотой UnCore! Так что вот вам очевидный способ увеличения производительности Core i7/i5: разгонять этот блок надо для хороших результатов в «памятелюбивых» приложениях. Впрочем, в отличие от процессоров для LGA1366 особой свободы нам теперь производитель процессоров не дает — в ЦПУ для новой платформы множитель UnCore жестко зафиксирован, так что единственным способом увеличения частоты этого блока является увеличение опорной тактовой частоты. Однако именно это и нужно делать при разгоне процессоров с зафикисированным множителем для ядер (а других в исполнении LGA1156 не выпускается), так что частоты всех блоков растут синхронно. Ну а предположить, что, даже при наличии некоторой свободы, кто-то будет на практике заниматься разгоном лишь части компонентов, игнорируя все остальные, все равно очень сложно.
Для наилучшего результата требуется высокочастотная память и высокая частота UnCore, причем важны оба компонента. Ну и количество модулей на канал желательно небольшое. Поэтому абсолютный лидер — Core i7 860 с двумя модулями DDR3 1333. C четырьмя модулями (два на канал) латентность увеличивается, однако не очень заметным образом — Core i5 750 даже с парой модулей медленнее. Но быстрее, чем Core i7 920 в двухканальном режиме, в чем заслуга частоты памяти 1333 МГц против 1066 у последнего. А вот если поставить процессору под LGA1156 по два модуля на канал, да еще и памяти на частоте 1066 МГц, латентность уже выйдет за границу 40 нс, и единственное, что такой режим спасает — трехканальный режим процессоров под LGA1366 еще более медлительный. Причем замечу, что на этой платформе мы использовали один модуль на канал — при двух все будет еще хуже процентов на пять.
Итак, какие можно сделать выводы на основании низкоуровневых тестов? Уже видно, что скорость работы с памятью у процессоров под LGA1156 действительно несколько лучше, чем это свойственно их старым коллегам под LGA1366. При этом применение памяти типа DDR3 1333 (вполне официально поддерживаемой) совершенно оправданно, хотя и 1066 не сильно хуже, а выше — просто не лучше, поскольку полноценно «переварить» столько в штатном режиме эти процессоры не могут.
Для дальнейших тестов мы немного изменили состав участников — поскольку с Core i5 750 и без того все уже ясно, производительность в приложениях мы будем также сравнивать вместо него с Phenom II X4 965. Последний тестировался также с двумя конфигурациями памяти — один модуль на канал (т.е. 4 ГБ) 1333 с таймингами 7-7-7-20 и два модуля на канал (суммарно — 6 ГБ) DDR3, опять же, 1333, но уже с таймингами 8-8-8-24 (режим для контроллера памяти более жесткий, поэтому для стабильности работы системы пришлось пойти на такое сознательное ухудшение работы памяти).3D-визуализация
В данной группе приложений есть такие, которым недостаточно 4 ГБ памяти, поэтому ухудшение таймингов (для Phenom II) и даже снижение частоты памяти (для Core i7 860) вполне компенсируется увеличением объема памяти до 6 ГБ. Однако у Core i7 920 в трехканальном режиме латентность возрастает слишком сильно, поэтому на 6 ГБ он проиграл. Самым же быстрым режимом на LGA1156 оказались 1333 МГц, но при 8 ГБ суммарно. Рендеринг трёхмерных сцен
Рендеринг — задача маловосприимчивая к таймингам или объему памяти, поэтому результаты зависят в первую очередь от самого процессора. Для одного процессора — обычно одинаковые с точностью до погрешности измерения, благодаря которой «медленная» конфигурация памяти кажется даже более предпочтительной, чем прочие.Научные и инженерные расчёты
Картинка сходна с визуализацией: иногда нужно больше 4 ГБ памяти, но у процессоров под LGA1366 латентность в трехканальном режиме возрастает резко, посему выигрыша нет, а есть проигрыш. В остальных случаях выигрыш от использования большего количества памяти (пусть даже более медленной) есть. Растровая графика
Опять небольшой прирост производительности при увеличении объема памяти (основным виновником чего является Adobe Photoshop) для AM3 и LGA1156 и небольшое падение в трехканальном режиме для LGA1366.
Что касается Photoshop — мы опять приведем подробные данные по самой показательной операции (Convert) для четырех конфигураций Core i7 860:4 ГБ 1333
|
|
|