泡泡网CPU频道 PCPOP首页      /      CPU     /      评测    /    正文

性能之王还是不进反退,Prescott全

    首先是参数测试部分,这一部分我们将从大家已经熟悉的sissoftsandra2004测试开始。

    该部分的测试主要由考核CPU数学计算性能的Drystone、Whiestone,考核CPU多媒体数据处理性能、内存带宽性能以及缓存——内存系统传输带宽四大部分组成。我们分别在打开超线程和关闭超线程的情况下作了测试,以下为前三项测试的详细结果:

    由前三项测试结果可见,受到流水线深度的制约,相比Northwood来说,Prescott在SisoftSandra中的表现只能说是差强人意,多数情况下都不如Northwood的表现。它仅在内存带宽测试中与Northwood持平。

    而Athlon64 3200+则由于不支持超线程和双通道模式,因此在前面两项超线程处理器占了便宜的测试中落后。同时在内存持续带宽的测试中AMD和Intel错开了较大的差距。但是由于Athlon64内置的内存控制器极大地减小了内存传输延迟,对于单通道内存配置的系统来说,这样的成绩可以说是相当不错的了。

    至于缓存——内存系统传输带宽,为了对比方便,我们根据SisoftSandra 2004的测试结果,绘制了下面的图表。对于P4系列处理器,该项测试仅在超线程状态下进行。

 Sissoftsandra2004缓存——内存带宽测试(点击放大)

    与上面的内存持续带宽测试不同,此项测试可考核一级缓存、二级缓存以及内存的数据传输带宽。在测试前部,数据块尺寸较小,可以被一级缓存所容纳,此时的数据传输主要依靠一级缓存进行;随着数据块尺寸的进一步增大,超出一级缓存的容量后,就必须依靠二级缓存进行存储;到测试的尾部,数据块的尺寸增加到1M以上,就只能通过内存来存储如此大尺寸的数据块了。通过这种逐级加大数据块尺寸的方法,就可以测试出处理器里一级缓存、二级缓存以及内存的传输带宽。

    在此项测试中,三款处理器的存储子系统带宽,呈现出形态各异的三条曲线。

 ◎ 在考核一级缓存数据传输带宽的测试前部,Prescott处理器与Northwod虽然一级缓存工作频率、传输位宽相同,但是由于前者的一级数据缓存为后者的2倍,缓存延迟有所增加,因此持续带宽也随之下降,但容量上的改变也带来了在8-16KB区域的领先。而AMD处理器尽管一级缓存容量为64KB,远远大于Prescott的16KB和Northwood的8KB,但由于工作频率较低,因此虽然在64KB之前的数据传输带宽变化比较平缓,但在数值上仍然远低于P4系列。

    ◎ 在考核二级缓存数据传输带宽的测试中部,由于类似的原因,Prescott处理器与Northwod虽然二级缓存工作频率、传输位宽相同,但是由于前者的二级数据缓存为后者的2倍,缓存延迟有所增加,因此持续带宽也随之下降,但容量上的改变也带来了在512KB—1M区域的领先。在此区域中,Athlon64 3200+除了凭借比Northwood大一倍的二级缓存容量,而在大数据块区领先Northwood外,其余部分由于受频率、位宽限制,表现并不令人满意。

    ◎ 在测试的尾部,3套系统都必须动用内存来存储数据了,由于平台相同,因此两块P4处理器的尾部曲线重合在一起;而Athlon64 3200+则由于仅为内存单通道,因此在这部分中继续落后。

    ScienceMark 2.0是一款多功能的软件,可以进行科学计算测试,也可用于存储子系统的带宽、延迟测试。本次测试没用启用此软件的全部功能,而主要使用存储子系统测试模块进行3款处理器存储子系统的延迟性能测试。测试结果如下:

 

一级缓存

二级缓存

内存

迟周

纳秒

迟周

纳秒

迟周

纳秒

P4 3.2E

4

1.25

26

8.11

210

65.47

P4 3.2C

2

0.62

19

5.92

204

63.6

A64 3200+

3

1.49

16

7.96

85

42.29

    测试结果表明,Prescott处理器缓存系统的传输延迟,相比Northwood有所提高,其一级缓存、二级缓存传输延迟均有较大的增加。而Athlon64 3200+则由于工作频率低,因此其一级、二级缓存的延迟为三款处理器之最;但由于使用了内置的内存控制器,因此内存传输延迟非常之小,相比P4明显占优。这样,在内存零星数据的存取上,Athlon64 3200+将体现出一定的优势。

    最后,我们还使用了Linpack程序进行三款处理器的测试。该程序与Sissoftsandra2004的缓存——内存子系统传输带宽测试性质十分类似。两者的不同之处在于Linpack程序执行的是不断增大的双精度浮点数矩阵乘法计算。因此这个程序除了能够反映缓存——内存子系统的传输带宽之外,还兼具考核处理器浮点性能的功用。测试的详细结果如下图:

 Prescott在Linpack测试中的表现(点击放大)

    ◎ 在测试的前部,矩阵尺寸较小,只需要存储在一级缓存中既可,此时处理器的浮点运算能力(每秒百万次浮点运算数目——MFLOPS)不会受到二级缓存、内存延迟的干扰,能够得到充分的体现。从这部分曲线,我们可以看到Athlon64 3200+的浮点性能表现不错。反观Prescott,虽然采取了一些措施,但由于流水线级数的增加,处理此类浮点运算的性能有所下降,因此在Linpack中表现仍然落后于Northwood不少。

    ◎ 在测试的中后部,矩阵尺寸增加了,必须使用二级缓存乃至内存来进行矩阵数据的传输,本可继续保持上升势态的Athlon64 3200+曲线,在超过64KB(等于Athlon64 3200+的一级数据缓存容量)部分的曲线区域,由于受到二级缓存性能的制约,而未能如P4处理器那样继续上升,而是急剧下降;反观P4处理器,显然在二级缓存性能上优于Athlon64 3200+,在很长的范围内,曲线都保持了上升势态。尤其是Prescott,虽然在峰值上劣于Northwood,但由于增加了二级缓存的容量,因此在512KB之后的测试中优势明显。<

0人已赞

关注我们

泡泡网

手机扫码关注