革命即将开始!Core i7 965性能详测
前言:集众多先进技术于一身的K8曾一度让AMD风光无限,但Intel的卧薪尝胆之作Conroe,再度使英特尔占据上峰,随后由两颗Conroe组成的四核心处理器给了AMD致命一击,虽然AMD在同价位的产品中,性价比依旧是强势,而在高端产品中,AMD暂时还没有能绝对击败Intel的利器。
即便领先优势十分明显,但巨人Intel仍未放缓脚步,给AMD可乘之机,继续按照“工艺年-架构年”的预定计划推陈出新,代号为Nehalem的全新架构处理器已是万事俱备只欠发布,这颗集所有尖端技术于一身的处理器能带给我们什么样的惊喜呢?本文将为大家献上Intel新旧王者Core 2 Extreme QX9770与Core i7 Extreme 965之间的巅峰对决!
Nehalem处理器架构的七大改变:
◎ 革命性的动态管理核心数量,线程,缓存,核心可以通过系统负载,在单逻辑核心到八逻辑核心动态转换,以达到节能的效果。
◎ 超线程(SMT)技术的加入,可以在同样的功耗情况下有效提升CPU性能。SMT技术可以是一个物理核心同时运行两个线程,即模拟出两个逻辑核心。最高可双路4物理核心处理器模拟16逻辑处理器。
◎ SSE4指令集再提高,并新加入7条指令集,有效提升XML,sring和文本处理的性能。
◎ 一二级超低延时缓存设计,共享式三级缓存设计可有效配合CPU的运算。
◎ 三通道内存技术,有效提高内存带宽,相比前代精品提高4倍带宽。
◎ 由于内存控制器集成在CPU中,可以降低延时,提高系统性能。
◎ 革命性的架构下带来的能耗比表现,在更少的电力需求情况下得到更强的性能表现。并从Nehalem开始,未来处理器微架构都会根据这个理念设计。
● 跟随Tick-Tock节奏 架构再度升级
自2006年INTEL发布了革命性的酷睿2处理器,凭借着高效能的特点,将AMD苦心经营的性能宝座重新握在手中,重新挽回了自己的颜面。对AMD的一系列胜利,INTEL并没有冲昏头脑,继续按照自己的钟摆tick-tock(即英特尔芯片技术与微体系结构创新发展步调模式)节奏稳步发展。
进入07年底,钟摆tick-tock的摆针摇到了tick这一侧,INTEL也按计划推出了改进工艺制造的Penryn处理器,随着45nm工艺产能的提高,INTEL迅速将45nm工艺处理器推向主流市场,将AMD牢牢压制在自己脚下。
步入08年底,在老对手AMD窘态频出,为注入资金频于奔命,45nm技术迟迟不见上马的情况下,INTEL的钟摆tick-tock节奏继续着自己的脚步运转。摆针这次摇到了TOCK一侧,架构升级的Nehalem降临了!
Core i7 920 | Core i7 940 | Core i7 Extreme Edition 965 | |
产品编码 | BX80601920 | BX80601940 | BX80601965 |
制程 | 45nm | 45nm | 45nm |
接口 | LGA 1366 | LGA 1366 | LGA 1366 |
晶体管数 | 7.31亿 | 7.31亿 | 7.31亿 |
核心线程数 | 4核8线程 | 4核8线程 | 4核8线程 |
主频 | 2.66GHz | 2.93GHz | 3.2GHz |
二级缓存 | 4x256KB | 4x256KB | 4x256KB |
三级缓存 | 8MB | 8MB | 8MB |
QPI总线 | 4.8GT/s | 4.8GT/s | 6.4GT/s |
内存控制器 | 三通道DDR3-1066 | 三通道DDR3-1066 | 三通道DDR3-1066 |
TDP | 130W | 130W | 130W |
售价 | 284美元 | 562美元 | 999美元 |
Nehalem架构处理器的产品代号为Bloomfield,有别于之前的命名,英文品牌名为CORE i7,但中文品牌名字还叫“酷睿”。初期上市的产品有三款,分别是Core i7-920、Core i7-940和Core i7-965 XE。
从规格来看,酷睿2四核处理器QX9770配备的1600MHz前端总线对普通用户来说已经完全够用了,但对服务器应用却完全不够。QPI总线解决了这个问题,它的每一条连接支持6.4GT/s带宽,而由于它的方向的位宽可以为5、10、20bit,因此每一个QPI连接可以提供12.8GB带宽,而一个单一的QPI连接则足以提供25.6GB/s带宽。而为了细分市场,首批上市的Core i7处理器仅有965XE具备6.4GT/s QPI总线,另外两款产品则缩减为4.8GT/s。
小贴士:tick-tock模式就是每隔两年就会推出新的制程技术,然后隔年推出新的微构架,如英特尔在05年推出65nm工艺酷睿处理器以及酷睿微构架,07年推出的45nm工艺Penryn处理器以及Nehalem微构架,以及即将在09年推出的32nm工艺Westmere处理器和Sandy Bridge微构架,都是符合tick-tock研发模式。tick-tock研发模式将处理器技术不断推向新的高度,也是英特尔保持活力和市场占有率的重要战略。
● 核心智能管理 单核多核按需定
Nehalem作为英特尔第一款原生4核处理器, 采用45纳米制造工艺,内置内存控制器,拥有4x256KBbytes二级高速缓存,8M三级共享缓存。通过SMT技术,可将物理4核虚拟成8逻辑核心、三通道DDR3内存通过QPI连接,同时新增7条的SSE 4指令集。
拥有原生4核物理核心,并通过SMT技术可以模拟出逻辑8核心,但对目前的应用来说,大多情况下,多核心不可能同时运行,用户的大多情况下,只需要少量核心运行即可满足需要。有鉴于此,INTEL此次对节能技术再度进行升级。核心可以通过系统负载,在单逻辑核心到八逻辑核心动态转换。
这项节能技术称之为Turbo Mode,CPU可以自动开启此功能,即CPU识别用户的当前负载情况,彻底关闭其中两个物理核心,减低功耗,同时自动加压超频另外两个物理核心,提高CPU频率,进而降低CPU的总体功耗,并可在一定条件下提高CPU整体效率。
● 系统带宽质的飞跃 超线程得以回归
当年酷睿架构诞生之初,由于架构设计原因,毅然放弃了HT超线程技术,而此次英特尔原生4核的Nehalem,作为处理器微架构升级的产物,性能提升是必然的。由于微架构的变化,并发多线程技术Simultaneous Multi-Threading(SMT)得以回归,可有效提升多线程工作负载的性能,多线程运算效能比上代酷睿Penryn性能高出不少。Nehalem微构架的SMT功能支持每内核同时运行两条线程,照此计算,一个四核处理器可同时运行8条线程。
但需注意的,引入的并发多线程技术,和当年P4时代HT超线程技术一样,并非真正意义上的核心加倍。举个例子来说,一个物理核心通过SMT技术模拟出两个逻辑处理器,处理器处理多线程运算时,每个逻辑处理器均独立运行,一个逻辑处理器运行线程时,另外一个逻辑处理器运行其它线程。为避免资源冲突,负责运算第二个线程的处理器,使用的还是第一个线程运行时闲置的处理单元。通俗来讲就是一人挑两担。
该技术的初衷是好的,但任何事物都不是完美的,超线程技术也有局限性。尽管多加入了一个逻辑处理器,4物理核心处理器可以模拟成8核心逻辑处理器,但处理器的整数运算单元,浮点运算单元以及CPU缓存仍旧是8个核心分享从前4个核心的资源。这样的话,当两个逻辑处理器有需要处理数据时,不可避免地会发生争抢资源的现象,其中一个逻辑处理器必须暂定运算让出宝贵的资源,直到资源闲置后再行运算。
由于逻辑处理器争抢资源的问题,在P4时代,同时执行两个线程容易使CPU运算产生延时,换句话说,要想超线程技术的优势得以体现,内存带宽的要求就要很高,进入酷睿架构后,因为内存带宽没有任何提高,所以放弃超线程技术成了理所当然的事情,而Nehalem由于内置三通道内存控制器,内存带宽相当惊人,并且延时超低,所以拾起超线程技术是顺理成章的事情。
小贴士:超线程技术的理论基础是:通过每核心内的闲置资源进行运算,进而提高运算效能。
● CPU集成内存控制器 内存进入三通道时代
CPU中集成内存控制器,是一把双刃剑,虽然能提高系统的性能,主要是降低系统延时,但CPU的频率提升因此变得很难,还有不小的制造成本。也正因此,集成内存控制器一直是个大家乐于讨论的问题,孰优孰劣,一直争论不休。不可否认的是,当AMD集成内存控制器,并通过HT总线连接系统的时候,已经缩小与INTEL之间的技术差距。
在AMD推出集成内存控制器近5年后,英特尔终于将推出了集成内存控制器的CPU,而为了压制竞争对手,保持技术领先者的姿态,一上来就引入了3通道DDR3,引领内存带宽达到新的高度。
根据英特尔的资料,Nehalem的内存控制器为Integrated Memory Controller,简称IMC。规格上支持三通道DDR3内存,初期最高支持到1333MHz,不过像华硕P6T-Dexlue等高端主板支持oc到1600MHz的规格。同时,IMC支持乱序读取可以有效降低延迟,而且每通道均可独立运行,无疑在一定程度上提高了兼容性问题。但稍感遗憾的是,INTEL似乎没有照顾低端用户的意思,IMC仅支持目前价格昂贵的DDR3。
● 放弃传统FSB 引入QuickPath技术
既然集成了IMC内存控制器,那么就需要能与之匹配连接到CPU核心的高速连接。英特尔将此技术命名为QPI(Quick Path Interconnect),和之前AMD的HT(Hyper Transport)颇为相像。
英特尔QPI技术提供点到点的高速链路来分配共享内存,从而充分释放下一代英特尔® 45纳米微架构(代号为Nehalem和Tukwila)的并行处理性能。这些全新设计的微架构将首次采用英特尔的QuickPath互联系统,在整体性能上实现了重大改进。
不仅如此,现在QPI还有很大的升级弹性,未来的Nehalem和Tukwila微架构整合新的英特尔QuickPath技术之后,每个处理器核心都将拥有集成的内存控制器和高速互联,把处理器和其他组件连接起来,动态可扩展的互联带宽,可以全面释放Nehalem、Tukwila和未来英特尔多核处理器的性能。
● 指令集再升级 提高文本处理CPU中的指令集,虽然不起眼,但是在CPU的运算中有重要加速作用,若使用的软件对CPU的指令集有优化,那么CPU的运算效能较无指令集优化运行速度有很大提升。
英特尔的Core2架构处理器的SSE4(流式单指令多数据扩张)指令集包含了54条新指令,其中的47条指令在Wolfdale/Penryn上实现,被称作SSE 4.1,SSE4除了扩展Intel EMT64指令外,还针对高清编码、播放、图形渲染、三维渲染、3D游戏应用进行了多方面的改进,使得产品的性能在更大范围内得到提升。
SSE指令集作为INTEL的顶梁柱,重要些不言而喻。每次的SSE指令集升级,都牵动着英特尔不少心血,除了自身研发指令集外,如何能让众多软件支持新指令集是更为关键的问题。
那么,此次Nehalem架构的SSE4指令集再度扩展为SSE4.2 ,由于Penryn中的SSE4.1占据了大部分指令,所以Nehalem中的SSE4.2仅是小幅升级,新加入的7条指令集,有效提升XML,sring和文本处理的性能,可以说是对SSE4.1的修补。
介绍了Nehalem众多令人期待的地方,45nm工艺下凤凰涅磐的架构革新,并附加了众多先进的技术,Turbo Mode,SSE4.2等新功能。试想用户一定对其有莫大的期待。
从正面看,Core i7 Extreme Edition 965 3.2GHz处理器和INTEL传统处理器有些许区别,正面的两侧金属触电就是一大区别,而且处理器的表面积较之前大了一圈有余。但依旧延续了INTEL惯用的顶盖封装方法,采用铜质顶盖保护CPU核心(DIE),加强核心热量传递。
从背面看,CPU上的电容和排阻相比之前QX9770,排阻变密,并且排阻体积更小,焊点间隙也更密。
通过前文的介绍大家可以了解到,笔者所拿到的CPU为nehalem中的Core i7 Extreme Edition 965 3.2GHz,也就是Nehalem Bloomfield中最高端的型号。历史是惊人的相似,这个频率恰好和45nm酷睿2 Penryn架构下的最高型号Extreme 9770频率一致。因此,我们在测试Core i7 Extreme Edition 965之外,重点也在对比同频率下两代帝王的性能差异。
硬件系统配置 | |
处理器 | Core 2 Extreme X9770 (四核/3.2GHz/6M L2) Core i7 Extreme Edition 965 (四核/3.2GHz/4x256KBytes L2/8M L3) |
主板 | 华硕 P6T Dexlue |
硬盘 | 西部数据 velociraptor (300GB, 10,000 RPM, 16M,SATA300) |
内存 | 金士顿 KHX110000D3LLK2/2GX 3X1G DDR3 1800×2 (7-7-7-20) |
显卡 | 华硕HD 4870 |
电源 | 酷冷RS-850-EMBA |
显示器 | ASUS 24寸 |
软件系统配置 | |
操作系统 | Windows VISTA Ultimate SP1 64BIT |
显示驱动 | 催化剂8.9 |
为了不使测试平台的其它部分作为瓶颈,选用了华硕P6T dexlue搭配HD4870进行辅助测试,为了不使内存带宽成为瓶颈,使用海盗船统治者14400组成三通道加强内存带宽,同时存储方面使用目前在SATA硬盘中的神器velociraptor,将平台性能发挥到最大。
● CPU理论运算对比测试
◎ SuperPI性能测试
Super PI是由东京大学Kanada Lab.所制作的一款通过计算圆周率的来检测处理器性能的工具,在测试里面可以有效的反映包括CPU在内的运算性能。在玩家群中,Super PI更是一个衡量CPU性能的标尺之一。
在Super Pi的测试中,得益于架构的改变,缓存的类型升级,在4M pi的测试较量中,领先的幅度打15秒之多,若运算量再增加,差距还会拉的更大。这又一次证明,决定CPU性能是核心架构,缓存只起辅助作用。在缓存更小的情况下,效能还是相当的高,这也让我们对接下来的测试充满期待。
◎ EVERST 内存性能测试
我们采用了EVERST Ultimate软件中的内存测试项目考验双款平台的内存性能。这样可以测试出CPU集成内存控制器对内存性能的影响。
看到成绩结果后,我们只能用惊艳一词来形容Nehalem的内存带宽。相比于老对手AMD成熟的集成内存控制器经验,初次涉水集成内存控制器的INTEL的成绩绝对可以得满分。内存在1066MHz CL7的设置下,三通道内存读取带宽达到了惊人的1W5 MB。要知道对比对象QX9770在FSB 1600MHz的前提下内存带宽仅有9656MB。两代王者间的对决在内存带宽这项上分出了决定性的胜负。
◎ Fritz 10 Benchmark 性能测试
这是一款国际象棋测试软件,但它并不是独立存在的,而是《Fritz9》这款获得国际认可的国际象棋程序中的一个测试性能部分。由于国际象棋的运算大致仍旧是依靠电脑CPU的高速处理能力,将每一个可能的走法以穷举算法预测,从中选择胜算最大的非常好的走法。所以用它来衡量对比不同的PC系统中CPU的多线程运算能力也是有参考价值的。
架构的升级再次给我们带来了惊喜,国际象棋的运算能力较量上,同频率下nehalem比9770提高了30%之多,在此超线程模拟出8个逻辑处理器也功不可没,关闭超线程的请看下,排除软件兼容性原因,nehalem得分仅有7377分,比9770还低,看来nehalem的执行上还是存在命中失败的问题,这也能反应nehalem回归超线程技术的一个重要原因。
◎ CineBench R10 性能测试
CineBench使用针对电影电视行业开发的Cinema 4D特效软件引擎,可以测试CPU和显卡的性能。Maxon公司表示,相对于之前的9.x版,R10版更能榨干系统的最后一点潜能,准确体现系统性能指标。最新R10版,支持XP、Vista、MAC等,最高支持16核。
在CineBench对比测试中,由于是多线程的测试软件,依托超线程技术的nehalem再次占到了不少便宜,领先高达5000多分。
◎ 高清X264编码压缩
在高清视频流行的今天,有多少人知道欣赏的720P高清电影是通过压缩1080P视频得来的,而关乎压缩速度的最有效途径就是使用的CPU以及支持的指令集。所以,笔者采用X264的编码测试,来大体估算CPU的编码能力。
从测试结果看,成绩的提升应该是多方面原因产生的结果,除了核心架构的升级,缓存结构的变化也功不可没,不过将近7帧左右的提升,可谓相当的强悍,若以45nm Penryn架构换算,7帧左右的提升至少需要提升1.5GHz的主频才能达到。
◎ 压缩软件性能测试
WINRAR作为目前最常用的压缩软件备受大家喜爱,基本是每台电脑的必备软件。而大家也知道,WINRAR的压缩效率和CPU的性能成等比关系,CPU运算能力越强,压缩及解压文件的速度就越快。
从测试结果看,由于WINRAR并没有对CPU的指令集做优化,仅考验的是CPU的解压缩能力,同时对内存带宽要求较高。这样的话,拥有全新架构,三通道内存的nehalem,占尽了优势,性能上将近提升了2倍左右。
&nb
◎ 3D Mark Vantage CPU测试
3DMark Vantage2008年4月28日发布,是业界第一套专门基于微软DX10 API打造的综合性基准测试工具,并能全面发挥多路显卡、多核心处理器的优势,能在当前和未来一段时间内满足PC系统游戏性能测试需求。和3DMark05的DX9专用性质类似,3DMark Vantage是专门为DX10显卡量身打造的,而且只能运行在Windows vista SP1操作系统下。
由于此款软件是针对3D性能的测试,所以只选用了测试项目中的CPU选项的得分进行对比。设置为性能模式,采用1280X1024进行测试。
从测试结果看,nehalem性能提升非常之大,得分高达20413分,若以45nm Penryn架构换算,达到此得分至少需要5GHz以上的4核处理器,而nehalem仅用3.2GHz就做到了。
◎ PCMark Vantage 性能测试
PCMark Vantage 是Futuremark发布的新一代基准测试软件,并比较完美的对多核心处理器进行了优化,而且是专为Windows vista 32/64-bit打造的,不再支持Windows 2000/XP。
PCMark Vantage可以衡量各种类型PC的综合性能,主要分为三大部分进行:1、处理器测试:基于数据加密、解密、压缩、解压缩、图形处理、音频和视频转码、文本编辑、网页渲染、邮件功能、处理器人工智能游戏测试、联系人创建与搜索。2、图形测试:基于高清视频播放、显卡图形处理、游戏测试。3、硬盘测试:使用Windows Defender、《Alan Wake》游戏、图像导入、Windows vista启动、视频编辑、媒体中心使用、Windows Media Player搜索和归类,以及以下程序的启动:Office Word 2007、Adobe Photoshop CS2、Internet Explorer、Outlook 2007。
PCmark Vantage的测试中,测试的是整机的性能,CPU在得分中占据一定的比重,所以整体得分上,提升幅度并没有其它测试软件那么大。
● DX9游戏CPU性能测试—《半条命2:第2章》
半条命2:第2章引擎在HDR和室外场景的渲染方面有所增强,树叶渲染上将采用Alpha覆盖技术,提供更好的树叶细节和反锯齿效果。此外还引入全新的粒子系统,将提供动态软阴影效果。物理引擎也经过重新设计,提供大场景大范围的物理效果。
测试方法:自制一段Demo,调用游戏命令行回放Demo,得到精确的平均FPS。
作为一款DX9游戏,可以很好地代表DX9游戏对CPU的负载要求,在3D性能上对现今的显卡要求不高,这样的情况下,要想帧数更高,负担就落在CPU身上。在1680 4AA 16AF分辨率设置下,两款CPU的性能表现在伯仲之间,可以说之前的QX9770也能很好地满足DX9的要求。
● DX10游戏CPU性能测试—《孤岛危机》
作为年度DX10游戏巨作Crysis的游戏画面达到了当前PC系统所能承受的极限,超越了次世代平台和之前所有的PC游戏,即便是搭配优异的显卡,在采用大分辨率开抗锯齿的情况下,也只能勉强“浏览”游戏。
测试方法:Crysis Demo内置了CPU和GPU两个测试程序,我们使用CPU测试程序,这个程序会自动切换地图内的爆炸场景,激烈的爆炸场面严格的考验着CPU渲染性能,运行一段时间得到稳定的平均FPS值作为测试依据。
在低分辨率情况下,显卡已经不是瓶颈,而仅仅在于CPU的运算能力。Crysis的两个CPU测试场景,得出的结果表现基本一致。这点就让人匪夷所思,Nehalem的性能提升是毋容置疑的,但为什么在对硬件要求甚高的crysis中无明显作用呢?
笔者经过测试其它几款游戏,结果都惊人的相似,成绩无提升,甚至小幅下降,在此笔者猜测,有可能是初期上市X58主板的PCI-E接口有问题,并不能保证足够的带宽,当然,这个问题目前还不能确定,后期笔者会进一步证实这个事情。
通过以上我们对这两代最强CPU的对比测试,不难看出Nehalem架构处理器具备如此强大的多核心多线程处理能力,同时也为桌面应用程序带来效能的提升。在一系列的测试之后,Nehalem酷睿 i7 965相对同频率的四核酷睿2 QX9770大约会带来20%-30%总体性能的提升,其中视频编码,3D渲染部分,性能提升也非常明显。
此外,Nehalem虽然看上去内存带宽很大,但实际上真正提高内存带宽的并非是三通道内存,而是集成内存控制器所带来的低延时。一二三级缓存的全新设计,可以说是CPU设计的一大回归。并且在测试中,内存带宽的测试提升更为明显,达到了50%-100%的飞跃。
事实上,英特尔技术最大的革新并不是Nehalem,而是在处理器设计思想上的革命。以前为了提高处理器的性能,只是简单的增加处理器的时钟频率。现在为了提高处理器的效能,采用了多核心,多线程的思想,进一步提高处理器的执行效率,而不是运行频率,同时很好的控制功耗,推崇的是一种处理器的执行效能。
从英特尔产品路线图来看,下月正式推出的三款Core i7处理器,分别是Core i7 920、Core i7 940和Core i7 965,面向的全是高端用户群体,而最便宜的i7 920也要2000元,短期内还难进入主流市场,而且面向售价在千元级的i7处理器将要在明年的第三季度才会上市,相信到那时X58主板和DDR3内存也进入主流市场,从而将正式拉开更新换代的序幕。<