三通道+DDR3能普及吗?内存变革进行时
内存(memory),作为协调CPU和存储间的中转站,一直在系统中扮演着重要角色。硬件领域的几次整体架构升级,都和内存有着莫大的关系,无论是SDRAM到DDR,再从DDR到DDR2,以及即将普及的DDR3,升级的本质都是为了提高内存带宽,可见内存对系统性能的有着至关重要的作用。
谈到内存架构升级,不得不提及Intel,也许有些人会说,intel不就是个造CPU的厂商吗?和内存有什么关系!在硬件领域中,也许只有intel这样一个厂商可以推行根据自身发展需要推行硬件设备的新规范新标准。大多情况下,在intel的领导下,整个硬件产业都要跟随intel的脚步前进。
看看我们现在常见的硬件规范,从大家常见的USB,SATA2,PCI-E标准,哪个不是英特尔力主的,现今PC上的硬件标准几乎都是intel设计的,其它厂商不过是跟随和生产而已。不过内存的规范上,intel失败过,也许是仅有的一次失败——DDR内存标准(下文中会对此进行说明),此后,intel再没有给别人机会,DDR2就是在intel的领导下推广开来,而现在,随着集成了支持DDR3内存控制器的nehalem即将发布,内存的架构也会掀开新的一页!
CPU中集成内存控制器,是一把双刃剑,虽然能提高系统的性能,主要是降低系统延时,但CPU的频率提升因此变得很难,还有不小的制造成本。也正因此,集成内存控制器一直是个大家乐于讨论的问题,孰优孰劣,一直争论不休。不可否认的是,当AMD集成内存控制器,并通过HT总线连接系统的时候,已经缩小与Intel之间的技术差距。
在AMD推出集成内存控制器近5年后,英特尔终于将推出了集成内存控制器的CPU,而为了压制竞争对手,保持技术领先者的姿态,一上来就引入了3通道DDR3,引领内存带宽达到新的高度。
根据英特尔的资料,Nehalem的内存控制器为Integrated Memory Controller,简称IMC。规格上支持三通道DDR3内存,初期最高支持到1333MHz,不过像个别一线厂商的高端主板支持oc到1600MHz的规格。同时,IMC支持乱序读取可以有效降低延迟,而且每通道均可独立运行,无疑在一定程度上提高了兼容性问题。但稍感遗憾的是,Intel似乎没有照顾低端用户的意思,IMC仅支持目前价格昂贵的DDR3。
●FSB生命进入倒计时,学会生活在QPI时代
当我们习惯了FSB——前端总线(Front SIDE Bus,简称FSB),面对QPI时代的到来,以后再谈论CPU连接到北桥芯片的总线时,QPI将是一个崭新的朋友,作为取代FSB,成为新一代CPU和CPU、CPU与芯片组(CPU与内存)之间的连接总线,QuickPath Interconnect(简称QPI)的总线技术,Nehalem成为了推动FSB生命终结的死亡使者。
让FSB去死的关键理由,就是总也喂不饱内存所需要带宽,即使是配备再强的CPU,将前端总线频率超至新高,用户也不会明显感觉到计算机整体速度的提升。即使是弱小的phenomX4,也依靠HT总线技术缩小其与酷睿2 yorkfield的性能差距,所以说QPI的诞生具有革命性的意义。
小提示:目前Intel处理器主流的前端总线频率有800MHz、1066MHz、1333MHz几种,进入2007年后,Intel在11月又将处理器前端总线提升至1600MHz(默认外频400MHz),这比2003年最高端的800MHz FSB总线频率整整提升了一倍。这样高的前端总线频率,其带宽有多大呢?前端总线为1333MHz时,处理器与北桥之间的带宽是10.67GB/s,而提升到1600MHz能达到12.80GB/s,增加了20%。
在测试3通道内存性能前,笔者有必要介绍下内存的发展史。DDR内存作为近十年来最为重要的内存技术,想当初,一个传奇版的技术差点就被intel扼杀在摇篮中,要不是当年鼎盛时期的威盛力主和当时低下的生产工艺,也许现在我们使用的内存就将不是DDRX(X=1、2、3、4),而是Rambus以及后续产品了。
当时的电脑系统中,内存带宽是除硬盘外的最大瓶颈,各芯片级厂商也共商提高内存性能的方法,一方是以威盛为代表的守旧派,一方是以革新内存架构的intel。当时的局面类似于HDDVD于blu-ray的对决,但结果却是截然相反的。
以更先进技术出现的Rambus虽然看上去很好,但是授权费和内存芯片厂初期的建厂成本导致的高价格,以及威盛主流芯片组的大卖特卖,将Rambus推向深渊,最终intel也不得不放弃Rambus转而支持DDR内存。可以说,现在内存技术的发展方向,和当时威盛芯片组有很大关系,但也正是基于此,得罪了intel,为日后的失败种下了祸根。在intel取消芯片技术交差授权后,nvidia在芯片组领域的崛起(AMD平台),现在的威盛不得不在其它领域谋求发展。
小贴士:DDR-SDRAM:DDR SDRAM(Double Data Rate DRAM)或称之为SDRAMⅡ,由于DDR在时钟的上升及下降的边缘都可以传输资料,从而使得实际带宽增加两倍,大幅提升了其性能/成本比。就实际功能比较来看,由PC133所衍生出的第二代PC266 DDR SRAM(133MHz时钟×2倍数据传输=266MHz带宽),不仅在InQuest最新测试报告中显示其性能平均高出Rambus 24.4%,在Micron的测试中,其性能亦优于其他的高频宽解决方案,充份显示出DDR在性能上已足以和Rambus相抗衡的程度。
传输模式:传统SDRAM采用并列数据传输方式,Rambus则采取了比较特别的串行传输方式。在串行的传输方式之下,资料信号都是一进一出,可以把数据带宽降为16bit,而且可大幅提高工作时钟频率(400MHz),但这也形成了模组在数据传输设计上的限制。也就是说,在串接的模式下,如果有其中一个模组损坏、或是形成断路,便会使整个系统无法正常开机。因此,对采用Rambus内存模组的主机板而言,便必须将三组内存扩充插槽完全插满,如果Rambus模组不足的话,只有安装不含RDRAM颗粒的中继模组(Continuity RIMM Module;C-RIMM),纯粹用来提供信号的串接工作,让数据的传输畅通。
DDR2比DDR有哪些改变
|
DDR |
DDR 2 |
目前最高时钟频率(单位MHz) |
533(非标准) |
1066(非标准) |
数据带宽(GB/s) |
4.26GB/s |
8.5GB/s |
芯片封装 |
TSOP Ⅱ |
FBGA等 |
工作电压 |
2.5V |
1.8V |
最高物理Bank |
8 |
4 |
最高逻辑Bank |
4 |
8 |
数据预取(bit) |
2 |
4 |
通过上面的表格,很明显,DDR 2的工作电压比DDR低近30%,功耗也能相应下降大约50%了。采用FBGA等CSP方式封装,减小了模组尺寸,并提高信号完整性,它增加了各模块之间的空气流动空间因而提高了热性能和可靠性。综合来看,更容易达到最高的频率。目前厂商等不及动作太慢的JEDEC,自行推出了DDR 1066的产品。这种产品单条即有8.5GB/s的带宽,相当于双通道DDR 533。
由于核心频率和外部频率的倍进关系,而我们又是以外部频率作为衡量内存时钟频率的标准,因此同频DDR 2内存和DDR内存相比,数据传输率是一样的,当然,仅仅是频率上的提升,顶多算个“DDR.改”,谈不上“DDR 2”。DDR 2的重大改进之处就在于数据预取从DDR的2bit提升为4bit。所谓2bit预取,可以理解为内存核心向外部I/O缓冲传递一次数据,可供外部I/O传输两次的量。而4bit预取,就是内存核心向外部I/O缓冲传递一次数据,可供外部I/O传输4次的量。
我们知道,内存芯片的频率也有芯片核心频率和外部频率两种:在DDR时代,这两个频率是相同的;但在DDR 2时代,核心频率就变成了外部频率的一半。这是为什么呢?因为DDR的2bit预取,核心一次传输的数据可供外部I/O缓冲传输2次,而数据以DDR方式传输,数据传输是CLK时钟的上下沿触发,因此外部时钟频率与核心频率保持一致。而4bit预取就不一样了,核心一次传输数可供外部I/O缓冲传输4次,同样使DDR方式传输,外部频率也要是核心频率的两倍才行。
除了4bit预取,DDR 2还有一些重大改进,例如片上终结ODT,将DDR时代设计在主板上的终结器改为设计到内存条上
这样一来,问题就出现了。因为外部频率才是内存数据传输品频率的基准,我们平时说的内存的频率都是指其外部频率,除非不以DDR方式工作,否则当预取数据超过外部I/O缓冲和MCH芯片一次DDR传输量,内存芯片核心频率就必须降低。
因此,尽管是4bit预取,但与同频率DDR内存相比,DDR 2内存的数据带宽是一样的。并且,由于核心频率和外部时钟频率的这种倍进关系,造成一个时钟周期等待时间更长。也就是俗称的“DDR 2高延迟”。随着频率的提升,这种延迟会变得越来越明显。
尽管延迟略高,DDR 2和同频DDR内存比较实际应用中差别很小一度有传言说,DDR 2性能不如DDR,这其实是一种误解。在频率相同的情况下,DDR 2内存确实有部分性能不如DDR内存,例如专门的内存测试项和部分整数运算性能,但这种差异很小很小,在游戏里更是几乎没有差别。
而随着频率的提高,DDR 2高频高带宽的优势体现无疑,DDR也就533MHz到头了。所以,在现有的主流内存里,DDR 2内存性能更强是肯定的。只不过确实由于Intel强推,让刚进入成熟期的DDR内存提前退出了主流市场,让很多玩家感到不满而已。
● DDR3集万千宠爱抢班夺权
1. 8bit预取设计,而DDR2为4bit预取。
相对于DDR2内存的4bit预取机制,DDR3内存模组最大的改进就是采用了8bit预取机制设计,也就是内部同时并发8位数据。在相同Cell频率下,DDR3的数据传输率是DDR2的两倍。这样DRAM内核的频率只有接口频率的1/8,DDR3-800的核心工作频率只有100MHz,当DRAM内核工作频率为200MHz时,接口频率已经达到了1600MHz。而当DDR3内存技术成熟时,相信有实力的内存厂商将推出DDR3-2000甚至2400的频率更高的内存。
内存规格对比表
2. 采用点对点的拓朴架构,以减轻地址/命令与控制总线的负担。
这是为了提高系统性能而进行的重要改动,也是DDR3与DDR2的一个关键区别。在DDR3系统中,一个内存控制器只与一个内存通道打交道,而且这个内存通道只能有一个插槽,因此,内存控制器与DDR3内存模组之间是点对点(Point-to-Point,P2P)的关系(单物理Bank的模组),或者是点对双点(Point-to-two-Point,P22P)的关系(双物理Bank的模组),从而大大地减轻了地址/命令/控制与数据总线的负载。而在内存模组方面,与DDR2的类别相类似,也有标准DIMM(台式PC)、SO-DIMM/Micro-DIMM(笔记本电脑)、FB-DIMM2(服务器)之分,其中第二代FB-DIMM将采用规格更高的AMB2(高级内存缓冲器)。
3. 采用100nm以下的生产工艺,将工作电压从1.8V降至1.5V,在DDR3系统中,对于内存系统工作非常重要的参考电压信号VREF将分为两个信号,即为命令与地址信号服务的VREFCA和为数据总线服务的VREFDQ,这将有效地提高系统数据总线的信噪等级。
4. 增加异步重置(Reset)与ZQ校准功能。重置是DDR3新增的一项重要功能,并为此专门准备了一个引脚。这一引脚将使DDR3的初始化处理变得简单。当Reset命令有效时,DDR3内存将停止所有操作,并切换至最少量活动状态,以节约电力。在Reset期间,DDR3内存将关闭内在的大部分功能,所有数据接收与发送器都将关闭,所有内部的程序装置将复位,DLL(延迟锁相环路)与时钟电路将停止工作,而且不理睬数据总线上的任何动静。这样一来,将使DDR3达到最节省电力的目的。
● DDR3与DDR2的不同之处
1、逻辑Bank数量
DDR2 SDRAM中有4Bank和8Bank的设计,目的就是为了应对未来大容量芯片的需求。而DDR3很可能将从2Gb容量起步,因此起始的逻辑Bank就是8个,另外还为未来的16个逻辑Bank做好了准备。
2、封装(Packages)
DDR3由于新增了一些功能,所以在引脚方面会有所增加,8bit芯片采用78球FBGA封装,16bit芯片采用96球FBGA封装,而DDR2则有60/68/84球FBGA封装三种规格。并且DDR3必须是绿色封装,不能含有任何有害物质。
3、寻址时序(Timing)
就像DDR2从DDR转变而来后延迟周期数增加一样,DDR3的CL周期也将比DDR2有所提高。DDR2的CL范围一般在2至5之间,而DDR3则在5至11之间,且附加延迟(AL)的设计也有所变化。DDR2时AL的范围是0至4,而DDR3时AL有三种选项,分别是0、CL-1和CL-2。另外,DDR3还新增加了一个时序参数——写入延迟(CWD),这一参数将根据具体的工作频率而定。
4、新增功能——重置(Reset)
重置是DDR3新增的一项重要功能,并为此专门准备了一个引脚。DRAM业界已经很早以前就要求增这一功能,如今终于在DDR3身上实现。这一引脚将使DDR3的初始化处理变得简单。当Reset命令有效时,DDR3内存将停止所有的操作,并切换至最少量活动的状态,以节约电力。在Reset期间,DDR3内存将关闭内在的大部分功能,所以有数据接收与发送器都将关闭。所有内部的程序装置将复位,DLL(延迟锁相环路)与时钟电路将停止工作,而且不理睬数据总线上的任何动静。这样一来,将使DDR3达到最节省电力的目的。
5、根据温度自动自刷新(SRT,Self-Refresh Temperature)
为了保证所保存的数据不丢失,DRAM必须定时进行刷新,DDR3也不例外。不过,为了最大的节省电力,DDR3采用了一种新型的自动自刷新设计(ASR,Automatic Self-Refresh)。当开始ASR之后,将通过一个内置于DRAM芯片的温度传感器来控制刷新的频率,因为刷新频率高的话,消电就大,温度也随之升高。而温度传感器则在保证数据不丢失的情况下,尽量减少刷新频率,降低工作温度。不过DDR3的ASR是可选设计,并不见得市场上的DDR3内存都支持这一功能,因此还有一个附加的功能就是自刷新温度范围(SRT,Self-Refresh Temperature)。通过模式寄存器,可以选择两个温度范围,一个是普通的的温度范围(例如0℃至85℃),另一个是扩展温度范围,比如最高到95℃。对于DRAM内部设定的这两种温度范围,DRAM将以恒定的频率和电流进行刷新操作。
6、局部自刷新(RASR,Partial Array Self-Refresh)
这是DDR3的一个可选项,通过这一功能,DDR3内存芯片可以只刷新部分逻辑Bank,而不是全部刷新,从而最大限度的减少因自刷新产生的电力消耗。这一点与移动型内存(Mobile DRAM)的设计很相似。
从技术角度上看,DDR3内存确实比DDR2改进不少,自身条件已经达到普及的标准。但是如果要更好的发展还要外部支持才行。
作为世界内存领导型企业,海盗船的领先技术一次次让业界震撼,这次根据nehalem的架构特性对内存的特殊需要——高频低压,抢先业界推出i7御用的排装内存条(3根)。
因为nehalem引入了3通道概念,内存套装的描述也发生了变化,原来的对条、一对等称谓已不适合。那么3根内存我们如何称呼呢?海盗船给我们做出了表率,一排、排装内存。 本次海盗船送测了单根2G和单根1G的两排内存,因测试时间的紧促和系统问题,笔者不得已使用3根单根1G排装进行测试,已避免32bit系统内存超过4GB后带来的性能下降问题。内存模组型号为XMS3-1333,默认电压1.5V,延时为9-9-9-24,单条容量为1024MB,加装银灰色铝质散热片,金手指采用电镀工艺,PCB为高级的brainpower生产。在内存costdown严重的今天,实属难能可贵,体现出国际内存领导型企业的风采。
根据nehalem的定位,intel官方说法是初期上市的3款nehalem除了频率区别外,新加入的QPI总线带宽也有差别,以区别产品的定位。
Core i7 920 |
Core i7 940 |
Core i7 Extreme Edition 965 | |
产品编码 |
BX80601920 |
BX80601940 |
BX80601965 |
制程 |
45nm |
45nm |
45nm |
接口 |
LGA 1366 |
LGA 1366 |
LGA 1366 |
晶体管数 |
7.31亿 |
7.31亿 |
7.31亿 |
核心线程数 |
4核8线程 |
4核8线程 |
4核8线程 |
主频 |
2.66GHz |
2.93GHz |
3.2GHz |
二级缓存 |
4x256KB |
4x256KB |
4x256KB |
三级缓存 |
8MB |
8MB |
8MB |
QPI总线 |
4.8GT/s |
4.8GT/s |
6.4GT/s |
内存控制器 |
三通道DDR3-1066 |
三通道DDR3-1066 |
三通道DDR3-1066 |
TDP |
130W |
130W |
130W |
售价 |
284美元 |
562美元 |
999美元 |
为了验证QPI总线的性能差别,笔者的测试方案如下,将nehalem的频率统一设定在2.66GHz上,比较同频率下不同QPI带宽的新跟那个差异。由于集成内存控制器,intel芯片组第一次引入了CMD概念,在同频下,测试内存CMD(1T、2T)间的性能差异。
硬件系统配置 | |
处理器 |
Core i7 Extreme Edition 965 (四核/2.66GHz/4x256KBytes L2/8M L3) Core i7 920 (四核/2.66GHz/4x256KBytes L2/8M L3 |
主板 |
技嘉EX58- extreme |
硬盘 |
西部数据 velociraptor (300GB, 10,000 RPM, 16M,SATA300) |
内存 |
海盗船 TR3X3G1333C9 3X1G DDR3 1333MHz (9-9-9-20 1T) |
显卡 |
nvidia 9800GTX+ |
电源 |
海盗船 corsair TX1000W |
显示器 |
ASUS 24寸 |
软件系统配置 | |
操作系统 |
Windows VISTA Ultimate SP1 32BIT |
显示驱动 |
nvidia 180.42 |
为了不使测试平台的其它部分作为瓶颈,选用了技嘉X58-extreme搭配9800GTX+进行辅助测试,为了不使内存带宽成为瓶颈,使用海盗船1333排装组成三通道测试内存带宽,同时存储方面使用目前在SATA硬盘中的神器velociraptor,将平台性能发挥到最大。
CPU理论运算对比测试
◎ SuperPI性能测试
Super PI是由东京大学Kanada Lab.所制作的一款通过计算圆周率的来检测处理器性能的工具,在测试里面可以有效的反映包括CPU在内的运算性能。在玩家群中,Super PI更是一个衡量CPU性能的标尺之一。
在Super Pi 8M的测试较量中,可以看到QPI对内存性能的影响比内存延时大的多,看来3通道内存还是对带宽的敏感性比延时更强。
◎ EVERST 内存性能测试
我们采用了EVERST Ultimate软件中的内存测试项目考验双款平台的内存性能。这样可以测试出CPU集成内存控制器对内存性能的影响。
看到成绩结果后,要具体问题具体分析,在读取、写入和拷贝的对比中,对内存控制器负载最低的读取性能差距较小,性能差异根据对内存控制器负责高低决定,负责最大的拷贝测试,差异更明显。总体上看,QPI对性能的影响比重更大。
◎ Fritz 10 Benchmark 性能测试
这是一款国际象棋测试软件,但它并不是独立存在的,而是《Fritz9》这款获得国际认可的国际象棋程序中的一个测试性能部分。由于国际象棋的运算大致仍旧是依靠电脑CPU的高速处理能力,将每一个可能的走法以穷举算法预测,从中选择胜算最大的非常好的走法。所以用它来衡量对比不同的PC系统中CPU的多线程运算能力也是有参考价值的。
由于Fritz主要是考验CPU计算性能的软件,内存在其中所占比重较小,但微弱的差异也能体现出QPI的功能,根据测试成绩比例来看,QPI仍旧比CMD对性能的影响更高。
◎ ScienceMark 性能测试
ScienceMark是一款通过运行一些科学方程式来测试系统性能的工具。主要用于桌面台式机和工作站上测试内存子系统,同时也用于测试服务器环境中的读写延时,当然,它对内存的带宽及CPU与内存控制器之间的速度等也可进行测试。
从Sciencemark的测试结果看,所有成绩都在同一水平,看来核心运算效率强劲前提下,对内存的要求不高。
● DX10游戏CPU性能测试—《孤岛危机》
作为年度DX10游戏巨作Crysis的游戏画面达到了当前PC系统所能承受的极限,超越了次世代平台和之前所有的PC游戏,即便是搭配优异的显卡,在采用大分辨率开抗锯齿的情况下,也只能勉强“浏览”游戏。
测试方法:Crysis Demo内置了CPU和GPU两个测试程序,我们使用CPU测试程序,这个程序会自动切换地图内的爆炸场景,激烈的爆炸场面严格的考验着CPU渲染性能,运行一段时间得到稳定的平均FPS值作为测试依据。
在低分辨率情况下,显卡已经不是瓶颈,而仅仅在于CPU的运算能力。Crysis的两个CPU测试场景,得出的结果表现基本一致。这点就让人匪夷所思,Nehalem的性能提升是毋容置疑的,但为什么在对硬件要求甚高的crysis中无明显作用呢?
笔者经过测试crysis,再次证明QPI的重要性远比内存延时来的高,即使是QPI 6.4GB/s 2T的模式下,性能也比QPI4.8GB/s 1T模式下高出3帧左右。
4组QPI不同设置下的对比测试到此结束了,对所有的测试成绩进行分析对比后,可以得出以下结论:
-
QPI对提升系统性能有很大帮助,在Sisoftware Sandra理论测试中,带宽甚至突破了20GB/s大关,虽然实际应用时不可能达到如此之高,但带宽大的好处显而易见,如同开跑车在山地上和高速公路间的差异。
-
在QPI时代,QPI的频率比内存延时对系统性能影响更大,优先提升QPI的频率更加重要。
-
通过QPI,相比之前FSB时代,对内存的体质要求有所降低,即使因为内存体质只能工作在2T模式下,只要QPI频率高,性能也不会削减太多。
intel的每次架构升级,都地对电脑系统的结构带来巨大影响,除了当年力挺的Rambus因为技术太过先进,因产能不足失败外,此后的CPU架构升级所带来的系统部件发展方向都按照intel的规划前进。DDR2的普及,和酷睿2的腾空出世有着深远关系。那么,作为全新架构的Nehalem,也必将对DDR3的普及产生巨大推动作用!<