性能之王还是不进反退,Prescott全
首先是参数测试部分,这一部分我们将从大家已经熟悉的sissoftsandra2004测试开始。
该部分的测试主要由考核CPU数学计算性能的Drystone、Whiestone,考核CPU多媒体数据处理性能、内存带宽性能以及缓存——内存系统传输带宽四大部分组成。我们分别在打开超线程和关闭超线程的情况下作了测试,以下为前三项测试的详细结果:
由前三项测试结果可见,受到流水线深度的制约,相比Northwood来说,Prescott在SisoftSandra中的表现只能说是差强人意,多数情况下都不如Northwood的表现。它仅在内存带宽测试中与Northwood持平。
而Athlon64 3200+则由于不支持超线程和双通道模式,因此在前面两项超线程处理器占了便宜的测试中落后。同时在内存持续带宽的测试中AMD和Intel错开了较大的差距。但是由于Athlon64内置的内存控制器极大地减小了内存传输延迟,对于单通道内存配置的系统来说,这样的成绩可以说是相当不错的了。
至于缓存——内存系统传输带宽,为了对比方便,我们根据SisoftSandra 2004的测试结果,绘制了下面的图表。对于P4系列处理器,该项测试仅在超线程状态下进行。
Sissoftsandra2004缓存——内存带宽测试(点击放大)
与上面的内存持续带宽测试不同,此项测试可考核一级缓存、二级缓存以及内存的数据传输带宽。在测试前部,数据块尺寸较小,可以被一级缓存所容纳,此时的数据传输主要依靠一级缓存进行;随着数据块尺寸的进一步增大,超出一级缓存的容量后,就必须依靠二级缓存进行存储;到测试的尾部,数据块的尺寸增加到1M以上,就只能通过内存来存储如此大尺寸的数据块了。通过这种逐级加大数据块尺寸的方法,就可以测试出处理器里一级缓存、二级缓存以及内存的传输带宽。
在此项测试中,三款处理器的存储子系统带宽,呈现出形态各异的三条曲线。
◎ 在考核一级缓存数据传输带宽的测试前部,Prescott处理器与Northwod虽然一级缓存工作频率、传输位宽相同,但是由于前者的一级数据缓存为后者的2倍,缓存延迟有所增加,因此持续带宽也随之下降,但容量上的改变也带来了在8-16KB区域的领先。而AMD处理器尽管一级缓存容量为64KB,远远大于Prescott的16KB和Northwood的8KB,但由于工作频率较低,因此虽然在64KB之前的数据传输带宽变化比较平缓,但在数值上仍然远低于P4系列。
◎ 在考核二级缓存数据传输带宽的测试中部,由于类似的原因,Prescott处理器与Northwod虽然二级缓存工作频率、传输位宽相同,但是由于前者的二级数据缓存为后者的2倍,缓存延迟有所增加,因此持续带宽也随之下降,但容量上的改变也带来了在512KB—1M区域的领先。在此区域中,Athlon64 3200+除了凭借比Northwood大一倍的二级缓存容量,而在大数据块区领先Northwood外,其余部分由于受频率、位宽限制,表现并不令人满意。
◎ 在测试的尾部,3套系统都必须动用内存来存储数据了,由于平台相同,因此两块P4处理器的尾部曲线重合在一起;而Athlon64 3200+则由于仅为内存单通道,因此在这部分中继续落后。
ScienceMark 2.0是一款多功能的软件,可以进行科学计算测试,也可用于存储子系统的带宽、延迟测试。本次测试没用启用此软件的全部功能,而主要使用存储子系统测试模块进行3款处理器存储子系统的延迟性能测试。测试结果如下:
| 一级缓存 | 二级缓存 | 内存 | |||
延 迟周 期 | 纳秒 | 延 迟周 期 | 纳秒 | 延 迟周 期 | 纳秒 | |
P4 3.2E | 4 | 1.25 | 26 | 8.11 | 210 | 65.47 |
P4 3.2C | 2 | 0.62 | 19 | 5.92 | 204 | 63.6 |
A64 3200+ | 3 | 1.49 | 16 | 7.96 | 85 | 42.29 |
测试结果表明,Prescott处理器缓存系统的传输延迟,相比Northwood有所提高,其一级缓存、二级缓存传输延迟均有较大的增加。而Athlon64 3200+则由于工作频率低,因此其一级、二级缓存的延迟为三款处理器之最;但由于使用了内置的内存控制器,因此内存传输延迟非常之小,相比P4明显占优。这样,在内存零星数据的存取上,Athlon64 3200+将体现出一定的优势。
Prescott在Linpack测试中的表现(点击放大)
◎ 在测试的前部,矩阵尺寸较小,只需要存储在一级缓存中既可,此时处理器的浮点运算能力(每秒百万次浮点运算数目——MFLOPS)不会受到二级缓存、内存延迟的干扰,能够得到充分的体现。从这部分曲线,我们可以看到Athlon64 3200+的浮点性能表现不错。反观Prescott,虽然采取了一些措施,但由于流水线级数的增加,处理此类浮点运算的性能有所下降,因此在Linpack中表现仍然落后于Northwood不少。
◎ 在测试的中后部,矩阵尺寸增加了,必须使用二级缓存乃至内存来进行矩阵数据的传输,本可继续保持上升势态的Athlon64 3200+曲线,在超过64KB(等于Athlon64 3200+的一级数据缓存容量)部分的曲线区域,由于受到二级缓存性能的制约,而未能如P4处理器那样继续上升,而是急剧下降;反观P4处理器,显然在二级缓存性能上优于Athlon64 3200+,在很长的范围内,曲线都保持了上升势态。尤其是Prescott,虽然在峰值上劣于Northwood,但由于增加了二级缓存的容量,因此在512KB之后的测试中优势明显。<