绝对渲染利器!英特尔32nm六核CPU评测
[泡泡网CPU频道8月13日] 通过之前的新闻,我们对Intel最新的32nm六核处理器性能有了一定的了解(参考:超强24线程! Intel 32nm六核性能曝光),不过上面文章中的测试环境为服务器主板,并采用双颗六核对比Xeon,测试项目较少,对我们玩家而言没有任何意义,不过今天文章中所测试的为单颗六核Gulftown搭配X58来进行比较完整的测试,让我们可以近距离的了解下代Intel最强处理器的威力。之前一直有消息表明:这颗最新32nm六核处理器Gulftown将会命名为Core i9,但现在看来可能依旧沿用i7系列,预计将会在明年第二季度发布。
目前,这款核心代号为「Gulftown」基于全新32nm的Intel处理器已经准备就绪,尽管在微架构上没有大幅改动,但在32nm工艺的辅助下,凭着工艺上的进步,在相同的芯片大小下能容纳更多的物理核心,而且核心频率提升空间又进一步扩大,同时功耗表现也得到改善。Intel计划于2010年第二季中推出首款六核心DT处理器,香港著名IT网站HKEPC首先抢先找来了号称全港首颗Gulftown六核心工程样本,并与Bloodfield四核处理器作了详细的对比测试:
1、回顾Nehalem架构处理器的技术进步
为拉开与对手之间的技术距离,2006年下半年Intel宣布推出全新规则律动工艺年与架构年(Tick-Tock)的发展战略,于每年推出新处理器技术时,皆具备改良微架构的全新制程,全新或大幅改良的微架构设计,以迎合未来十年甚至更远的处理器市场。每个代表推出具有增强微架构的新一代矽制程技术,与代表推出全新微架构,而每个工艺年/架构年周期大约为2年。
按照Tick-Tock规划,Intel在去年第四季发布了代号为Nehalem全新微架构处理器,这名字来自美国俄勒冈州波特兰市的一个小小的卫星城,它是基于Core 微架构作出大幅改良,加入了更多有关提高性能,节能控制,多处理器扩展能力以及效能均衡的设计,主要分为运算内核及非运算内核部份:
运算内核改动方面:
1.再次加入HT技术,第三代超线程技术,可让四核多达8个线程。
2.支持VT虚拟化技术,增加虚拟化输入/输出设备,并提高虚拟机效率。
3.加入Turbo Mode ,在相同功耗下,提升较简单线任务的执行效率。
4.新增SSE 4.2指令集,提升XML 、字串及文本处理能力。
非运算核心改动方面:
1.采用了三级缓存设计,二缓采用了超低延迟设计,而三缓采用共享设计。
2.内建内存控制器,3通道设计并支持DDR3规格,频率提升最高达3倍。
3.全新QPI取代传统的FSB,最高可达25.6GB/s带宽。
4.模块化设计,可按需要新增及减少核心元件,以迎合不同市场。
2、改良Nehalem架构,全新32nm处理器
Nehalem微架构是最近的一次架构年改变,当然紧接着即将登场的是下一代工艺年的改变 ,具备改良的微架构的全新制程,代号为Westmere的32nm处理器,基本上它的架构沿自Nehalem处理器并加入了7条全新的指令,但改用了入第二代high-k的32nm制程,采用全新的193浸没式微影技术于重要的金属层并配搭193nm或248nm干式微影技术于非重要的金属层,处理器采用9层内部连结层,并辅以无铅和无卤素封装,而芯片尺寸将约为45nm产品的70%而已。
据Intel总裁Paul Otellini指出,全新32nm不仅有效降低所需功耗,同时也能提升核心频率,而且也缩小处理器核心面积,令处理器能容纳更多的运算核心或者内置GPU核心、PCI-E接口及内存控制器,并且令芯片组简化为单芯片,可进一步缩小PC体积,可切换GPU支持功能,能在内置显示核心及独立显卡之间作出实时切换,达至节能省电效果。
为迎接32nm工艺的来临,Intel将会把美国制造设施升级,采用新一代32nm芯片技术,2009至2010年间,预计投入约70亿美元于32nm工艺技术上,美国境内32nm工艺投资总额,在该期间内将达到约80亿美元,并可提供7000个工作岗位。现时位于Oregon的Fab D1D已经在试产32nm处理器,同样位于Oregon的Fab D1C将会于2009年第四季正式投产32nm制程,紧接位于Arizona的Fab 32及New Maxcico的Fab 11X ,将会于2010年完成32nm制造设施升级,预计将会于2010年下半年进行制程世代交换。
根据Intel处理器最新规划,32nm Westmere处理器将会于2009年第四季开始量产,核心代号为Clarkdale的32nm入门至主流级处理器,将会于2010年第1季初出货,紧接2010年第二季中推出代号为Gulftown的32nm高端六核处理器,2010年第四季将会再推出全新微架构的32nm处理器代号Sandy Bridge,延续工艺年发展战略。
3、改良45nm High-K + Metal Gate电晶体技术
2007年Intel首次在代号为P1266的45nm工艺中使用上High-K配搭Metal Gate技术,令芯片漏电情况大幅降低,因此Intel 45nm处理器在功耗及发热表现上,拥有很高水平,而直至目前为止,也只有Intel把45nm High-K + Metal Gate电晶体技术用于量产之中。由于High-K材料配搭Metal Gate电晶体技术带来优秀表现,Intel 45nm研发至量产是Intel历史中最快完成的,所需的研发时间仅为65nm的一半。
代号为P1268的全新Intel 32nm工艺,主要基于现有的45nm High-K + Meta Gate电晶体技术,并作出了大幅度的改良,包括High-K的等效氧化层厚度,由45nm制程的1nm降低至32nm制程只有0.9nm,并且闸极长度缩少至只有30nm,闸极距离继续以每两年缩少0.7x的目标发展中,Intel的32nm是现时所有相同制程中其闸极距离最窄小的。
透过了降低High-K的等效氧化层厚度及闸极距离,Intel 32nm的NMOS及PMOS电晶体性能相较上45nm提升14%及22% ,漏电比较上代45nm制程,NMOS电晶体减少超过5x,PMOS电晶体减少漏电超过10x,以上的改善令处理器工程师在电路设计时规限大幅减少,也令核心可以更小,当然处理器核心频率及功耗表现也能大幅减少。
Intel 32nm制程同时改用了第四代应变矽技术,用矽锗、双应力应变矽以及先进的应变记忆技术,能够有效提高晶体管的开关速度和电源效率,此一改变将可在运作频率及功耗表现在获益重大改善。
4、针对加密/解密运算全新AES指令集
Intel Westmere处理器是代表推出具有增强微架构的新一代矽制程技术,因此技术改良主要集中于矽制程上,而微架构设计完全则基于Nehalem微架构,今代在微架构改良仅加入了六组针对加密及解密运算,即AES指令集。
Intel AES指令集提供了快速及保密的资料加密及解密运算功能,AES是block cipher(块密码)运算的最主流规格,因此全新Intel AES指令集能应用十分广泛并能为不少应用程序进行加速。
Intel AES指令集共有六组指令提供硬体AES运算加速,包括四组AES加密及解密(AESENC、AESENCLAST、AESDEC、AESDECLAST) ,另外两组为AES金钥产生(AESIMC、AESKEYGENASSIST) ,相较单纯以软体运算效能可高出4倍以上。 此外, Intel AES指令集不仅支援3种AES官方规格金钥长度(ASE128、ASE192、ASE256)及所有AES官方规格运算模式,并支持数种AES非官方定义规格。
除了性能上的提升外,采用Intel AES指令集让资料以data-independent time运算及不需要采用lookup Table,Cache Attacks的攻击无法再成功,而且难以采用Software Side Channel Attacks破解,大大提高了资料的安全性及保密性。
此外,Intel Westmere处理器还加入了一组Carryless multiply指令(PCLMULQDQ) ,让处理器可以在一个周期内处理两个64Bit Carry-less Multiplication(无携带乘法) ,它是大部份加密标准所必要处理的元件,采用伽罗瓦计数器模式(GCM) 。
GCM模式在2006年4月得到美国政府批准及支持,与AES规格混及使用,并成为NSA Suite B.的一部分,它也是IEEE 802.1ae标准,并建议使用于转发率高于10 Gbps的应用中,包括IPsec (IPsec RFC 4106)协定及ISO T11标准光纤通道存储标准的P1619安全协定。
有了Intel AES指令集,日后PC的OS Level Disk可完全加密形以提升保安性,而且不会把系统效能拖垮,不仅在商业应用上令保密性大幅提高,一般PC用户的个人资料亦得到更好的保障。
5、CPU+GPU先到:解读Intel全线32nm布局
根据intel原定规划,内置显示核心的45nm Havendale桌面处理器及Auburndale笔记本处理器应于今年年底量产,但由于32nm第二代Hi-K制程已十分成熟的关系,最终决定取消量产Havendale及Auburndale处理器,直接由32 nm版本Clarkdale处理器及Arrandale处理器取代,量产日期与上市时间将会不变,但内置GPU核心部份仍会是45nm生产,但功耗表现将可进一步改善,预计于2010年第一季初上市。代号为Clarkdale桌面处理器及代号为Arrandale移动处理器,两者均为双核心设计并内置显示核心,主要针对入门至主流级市场。值得注意的是,Intel并不打算为32nm Westmere处理器推出完整的产品线,而是与45nm Nehalem处理器并存于市场上,直至再下一代Sandy Bridge微架构才会全线导入32nm工艺。
因此Intel 32nm Westmere将不会有四核处理器,代号为Lynnfield桌面处理器及Clarksfield移动平台处理器将继续留守市场,直至下代Sandy Bridge微架构产品才会退场。此外,受惠于全新32nm工艺的优秀功耗表现,今天评测的首款六核桌面处理器,Intel将会于2010年第二季推出,代号为Gulftown,主要针对更高端玩家市场。
低端市场方面将由45nm Penryn微架构产品支撑大局,直至下一代Sandy Bridge微架构产品推出后,Clarkdale及Arrandale处理器将向下移至低端市场,因此Socket 775在2010年仍不会退场。
&nb
6、六核12线程Gulftown处理器工程样本
下图为Intel 32nm Westmere六核处理器工程样本,核心代号为Gulftown,采用32nm无铅、无卤制程,LGA 1366封装,兼容现有的Intel X58平台主板,但需要更新主板BIOS更新。尽管Intel还未决定Gulftown出货频率及Turbo Boost频率,但FMB将会采用08规格及最高TDP为130W,与45nm四核心Bloomfield相同。
Intel Gulftown六核心工程样本,A1版本频率为2.4GHz
Intel Gulftown六核仍支持HT技术,该技术可在1个执行内核中同时处理2条线程,透过4个执行引擎,多核处理器中的同步多线程能力可将同时运行于所有内核的整体线程的潜在数量提高1倍,也就是说Gulftown处理器可同时执行12条线程。
根据Intel所提供的数据指出,HT出色的能耗表现显著提升了处理器的性能,处理器只需消耗极低的电量,便可将应用性能提升20-30%,在能源日渐短绌的今日,HT提供了高效能又节能的处理器表现。
7、六核Gulftown默认2.4G,三缓高达12MB
Intel Gulftown处理器支持QPI技术,最高连接速度仍为6.4GT/s,总带宽高达25.6GB/s,按照核心数目的提升,三级缓存由上代Bloomfield的8MB增加至12MB,但仍保持16-Ways设计。
左为45nm Bloomfield四核心,右为32nm Gulftown六核心
与Bloomfield四核一样,Gulftown六核内建三通道DDR3内存控制器,最高可支持48GB容量,不过令人失望的是, Gultown六核仍然官方支持DDR3-1066速度,最高频宽为25.6GB/s。
Gulftown六核将支持Intel VT-x、Intel VT-d、Intel 64技术及Intel EIST技术,但不会支持Intel TXT技术。此外,尽管32nm Westmere核心支持新一代Intel AES指令集,但Intel暂定不会在最高阶的Gulftown六核心中开放AES功能,但我们手上的工程样本中仍能使用AES指令。
根据Intel向主板业者透露,Intel Gulftown六核最终命名,很大机会不会采用Core i9家族,而是Core i7-1000家族,因为Gulftown并没有微架构上的改动,仅有核心数目的增长,不足以构成全新品牌。
&nb
7、CPU综合性能测试 一
测试平台
◎ PC Mark05/Vantage性能测试
PCMark Vantage 是Futuremark发布的新一代基准测试软件,并比较完美的对多核心处理器进行了优化,而且是专为Windows vista 32/64-bit打造的,不再支持Windows 2000/XP。
尽管六核Gulftown处理器相较四核Bloomfield处理器多出两个核心,但却没有在PC Mark测试中性能增长,主要原因在于PC Mark大部份测试均只需要同时处理四核运算,从上面运行截图中可以看到,大部份情况下Gulftown的负载率仅有34%-50% ,并无法完全反映出六核优势。
以上测试意味着,如果使用者并不需要同时执行很多应用软件,或是所执行的软件并没有为多核进行优化,没有支持超过四个以上线程的话, Gulftown六核根本毫无用武之地。
8、CPU综合性能测试 二
◎ CineBench R10性能测试
CineBench R10是著名的OpenGL运算测试软件,并可支持多线程运算,Cine Bench R10执行多核心测试,可把Gulftown六核及12个执行线程能力完全发挥,性能大幅超越Bloomfield四核。
◎ Sandra 2009性能测试
Sandra 2009主要是测试处理器的运算最大吞吐量,因此得出的结果都是最大理论值,而性能理论值所得出的差距,则要视乎软件对多线程的优化功力。笔者采用Sandra 2009测试软件,除了要证实这颗Gulftown六核所有核心均正常运行外,更重要的是测试Intel AES指令集的威力,从Cryptographic Bandwidth、AES256 Bandwidth及SHA256 CPU Hashing Bandwitdh测试中可以看到,新一代32nm Westmere在AES运算性能有着明显的突破。
◎ ScienceMark 2.0性能测试
ScienceMark 2.0虽然能认出Gulftown六核支持12个线程,但事实并无法完全运用这颗六核的线程,证明软件设计将左右多核心的性能提升幅度。
9、CPU综合性能测试 三
◎ Microsoft Excel 2007
Microsoft曾经表示Excel 2007针对多核心运算作出了完全优化,因此我们采用了两个用于金融业的算式,计算美国国库债卷现价及计算期权现价的程式作测试,可以看到Gulftown六核心大幅超频Blommfield四核心。
◎ Microsoft office 2007
同样是Microsoft Office的一员,但笔者采用两个50MB的Word文件进行Word Merge ,然后把一个304MB的PowePoint档案列印成向量的XPS档案,但多核心的优势并未为Gulftown带来漂亮的成绩单。
◎ Microsoft Windows Vista
◎ Adobe Photoshop CS4
◎ Mainconcept H.264 Encoder
我们找来Microsoft Windows Vista内建的2款软件、Adobe Photoshop CS4的两个插件及Mainconcept H.264 Encoder作测试,看来并不是所有软件均能为六核带来领先优势,所以消费者在选择处理器时,如果要求提升执行单一软件性能,则较高频率的四核很大机会较六核更明显。
10、3D基准/3D游戏性能测试
在3D游戏测试方面,由于要降低显卡性能瓶颈以达至处理器性能差别最大化,我们采用了现在最强的GeForce GTX 295显卡,并把分辨率设定于1024x 768及效果设定为Low,以测试核心数目对游戏FPS的影响。结果是大部份3D游戏均未有对六核进行优化,处理器核心数目的提升并没有为FPS带来明显增幅。
11、处理器功耗及温度测试:
功耗及温度测试方面,采用32nm的Gulftown六核表现令人惊喜,虽然核心数目相较45nm的Bloomfield四核多出两个,但闲置及完全负载的功耗及温度表现均低于Bloomfield四核,证明新一代32nm工艺已经十分成熟。
编辑总结:
Westmere处理器如期现身,每年推出具备改良微架构的全新工艺,全新或大幅改良的微架构设计的承诺顺利达成,虽然Westmere在微架构上改动不大,但制程技术提升后不仅功耗、温度下降,更为Intel带来更大的频率提升空间及核心数目提升空间,而且核心尺寸进一步缩少令成本更低,竞争力进一步提升。
本次测试的Intel Gulftown桌面六核,其技术宣布意义大于实际,由于是针对最高端的玩家市场,一般普通玩家是无法尝试了,不过,就算是高端玩家,由于大部份桌面应用软件及3D游戏仍未有对六核作出优化,根本难以体现六核的真正威力,只有用于工作站或服务器环境才有实际意义。除非得到软件厂商的配合,针对六核作出优化,否则Intel Gulftown六核心就像一台F1赛车车在一般路面上,完全浪费了应有的运算能力。 ■<