Maxwell领衔！A/N新显卡能效深度测试-泡泡网

泡泡网显卡频道 PCPOP首页 / 显卡 / 评测 / 正文

Maxwell领衔！A/N新显卡能效深度测试

2014年03月07日 00:00作者：蒋尚文编辑：蒋尚文文章出处：泡泡网原创

泡泡网显卡频道3月7日 Maxwell来了，带来了GTX750Ti、GTX750两款中端显卡。就性能而言GTX750Ti只是比上一代的GTX 650Ti BOOST强那么一点点而已，但意义却非常重大。这绝不是一句虚了吧唧的片汤话，对GPU有深入了解的朋友应该明白我要说什么了，Maxwell高端产品发布之日就是显卡市场重新洗牌之时。

之所以这么说，是因为Maxwell卓越到出乎意料的效能比。在GTX750Ti首发测试中我就对它的功耗做了初步的测试，以往的经验告诉我，真正的指数性增长一般只存在于理论中或者实验室里，具体到产品总会受到种种环境因素的制约，生活中很难看到实例。然而这一次Maxwell显然成功解决了遇到的所有问题，而更令我吃惊的是这款显卡沿用了上一代Kepler的28nm工艺就达到了这一水准。

谈到工艺和架构对GPU能效比的影响有太多的话题可以聊，我们几个媒体的编辑偶尔聚到一起，这个话题总是能引起很多的探讨和争论，但大家都比较认可的一个观点就是，架构的改变往往只是起到优化和排除瓶颈的作用，GPU工艺的进步对能效比的影响更深刻。换句话说工艺的进步意味着1.0→2.0版本的改变，而架构的改良则更像是2.0→2.1版本的进步，直到我测试了GTX750Ti/750之后，发现以事实并不是这样，今天我们就通过架构分析和最精确的测量来说明来一窥Maxwell的潜力。

NVIDIA Kepler GPU架构于2012年初问世，它前所未有的能效比催生出全球最快的游戏PC、工作站以及超级计算机和云游戏服务器。甚至智能手机、平板电脑乃至汽车的信息娱乐系统都得益于TegraK1系统(SoC)获得了空前的视觉计算功能。

而NVIDIA的第一代“Maxwell”架构在上一代的基础上又获得了全新的提升。首款基于Maxwell架构的GPU代号为“GM107”，专为笔记本和小型(SFF)PC等功率受限的使用场合而设计。

在1080p分辨率下，GeForceGTX750Ti的性能通常可与四年前的旗舰GPU——GeForceGTX480比肩，然而热设计功耗仅为区区60W，是后者的四分之一。

Maxwell在流式多处理器(SM)方面采用了一种全新设计，可大幅提高每瓦特性能和每单位面积的性能。虽然KeplerSMX设计在这一代产品中已经相当高效，但是随着它的发展，NVIDIA的GPU架构师显然找到了让架构效率再一次重大飞跃的方法。

MaxwellSM设计实现证明了这一点，控制逻辑分区、负荷均衡、时钟门控粒度、编译器调度、每时钟周期发出指令条数等方面的改进以及其它诸多增强之处让Maxwell SM(亦称“SMM”)能够在效率上远超Kepler SMX。全新的Maxwell SM架构能够在GM107中把SM的数量增至五个(GK107中仅有两个)，而芯片面积仅增加25%。下表提供了高级对比，对比双方分别为Maxwell以及上一代GK107 Kepler GPU:

具体来说，首先Maxwell采用了容量大增的二级高速缓存设计，GM107中容量为2048KB，而GK107中的容量仅为256KB。由于片上高速缓存容量更大，因此需要向显卡DRAM发送的请求更少，从而降低了整体显卡功耗、提升了性能。

除了上述变化以外，NVIDIA的工程师还雄心勃勃地在晶体管水平上调整了Maxwell GPU中每个单元的实现方式，以便最大限度提高节能性。所有这些努力的最终结果是，采用相同的28纳米制造工艺，Maxwell能够提供相当于Kepler两倍的每瓦特性能。

在这里我们不难看出，Maxwell内部所有单元和横梁结构均得到了重新设计，数据流得到了优化，功率管理实现了大幅改变。

虽然从图形特性的视角来看，第一代Maxwell GPU可提供与Kepler GPU相同的API功能，但从深层来上，Maxwell还在单个GPC(图形处理簇)内实现了多个SM单元，每个SM包含一个多形体引擎(Polymorph Engine)和纹理单元，而每个GPC包含一个光栅引擎(Raster Engine)。ROP依然与二级高速缓存片(L2 Cache Slice)以及显存控制器联系在一起。

GM107全芯片框图

GM 107 GPU包含一个GPC、五个Maxwell流式多处理器(SMM)以及两个64位显存控制器(共128位)。这就是这一芯片的完整实现形式，与GeForce GTX 750Ti中的芯片配置相同。

GK107全芯片框图

SMX 处理核架构

上一代Kepler的方法是划分为非2幂(non-power-of-two)数量的CUDA核心，其中一些是共享核心，这种方法需要的SM调度器数量较少，但复杂程度较高，在各种各样的游戏引擎环境中表现并不理想。

SMX: 192个单精度CUDA核、64个双精度单元、32个特殊功能单元(SFU)和32 个加载/存储单元(LD/ST)。

每个SMX单元具有192单精度CUDA核，每个核完全由浮点和整数算术逻辑单元组成。Kepler完全保留Fermi引入的IEEE 754-2008 标准的单精度和双精度算术，包括积和熔加(FMA)运算。

成对的处理块共享四个纹理过滤单元和一个纹理高速缓存。计算一级高速缓存的功能现在也与纹理高速缓存功能相结合，而共享显存是一个独立的单元(类似首款CUDAGPU——G80中所使用的方法)，被全部四个块共享。

SMM 处理核架构

Maxwell SM框图

而现在每个SM分为四个独立的处理块，每个处理块具备自己的指令缓冲区、调度器以及32个CUDA核心。新的划分方法简化了设计与调度逻辑、节省了晶体管与功耗、降低了计算延迟。

总体而言，在这一全新设计上，每个“SM”的尺寸得到大幅缩减，而性能却能够达到一个KeplerSM的90%。更小的晶体管消耗让NVIDIA能够在每颗GPU中实现更多数量的SM。通过对比GK107和GM107 SM总数的相关指标可发现，GM107有五个SM，而前者只有两个。GM107的峰值纹理性能比前者高25%，CUDA核心数量多1.7倍，着色器性能大约高2.3倍。

● SMM架构显存系统的改进

对GM107来说，要在显存位宽与GK107相同的情况下实现性能大幅提升的目标，增强显存系统也同样重要。内部显存系统带宽实现了提升，另外这一设计的效率也得到了改善。此外，2MB大容量二级高速缓存配置(比之前的任何GPU设计都大)十分有效地降低了显存带宽需求，确保了DRAM带宽不成为瓶颈。

其他关于Maxwell架构的基本信息，例如通过Giga Thread引擎的主PCI Express接口数据流、Polymorph与Raster单元的基本操作等等过于晦涩的知识这里就不再赘述了。

测试平台硬件如下表所示：

● 参测显卡：影驰GTX750黑将【购买链接】

影驰GTX750 黑将采用全新设计“幻影”Phantom散热器。双80mm滚珠风扇，采用透明强化PC塑料，配合特殊扇叶设计加强风量，经实测发现，该款散热器在大幅预设超频情况下，依然能在烤机测试中将核心温度控制在53℃以下。

● 测试平台主板：技嘉G1.Sniper M3

技嘉 Z77 游戏系列主板

技嘉 G1.Sniper M3是一款采用m-ATX板型设计的高端Z77主板，它结合了屡获殊荣的G1.Killer设计理念，目标是给玩家提供强大的性能。无论是内建Creative专业级音效处理器、Sound Core3D高质感音效输出还是支持 cFosSpeed 与网络加速技术的芯片，都是为了让玩家能有最棒的娱乐和联网游戏体验。

● 测试平台电源：Antec HCP1200

Antec HCP1200评测

安钛克Antec HCP1200电源在世界超频大赛中非常常见，通过了80PLUS认证，转换效率高达92.4%，支持4路12V输出，最高电流72A，支持四卡SLI/交火。平均无故障运行时间为10万小时。配备一颗8cm静音风扇，运行噪音极低。

● 测试平台SSD：OCZ Vetrx3 240GB

OCZ VERTEX4 128G升级新固件对比评测

OCZ的Vertex系列属于它的高端固态硬盘，专门为高端玩家和存储发烧友设计。随着Sandforce控制器大红大紫，OCZ也将Vertex系列升级到了全新的SF1200方案。如今SATA3.0 6Gbps接口大行其道，OCZ推出了基于SF2200系列主控芯片的Vertex 3固态硬盘，涵盖60-480GB容量范围。

以前我们都是测试平台的整体功耗，这样虽然简单，但对显卡具体功耗就只能通过估计的方法猜测大概的数值，这套设备名叫“PPAS精确功耗采集系统”，由中国计量科学研究院研制，产品体积小巧，易于携带，测试结果准确可靠，可精确到0.001W。

PPAS精确功耗采集系统的显示屏，可以实时显示配件功率

电脑主机内部的配件，无外乎CPU、主板、显卡、硬盘、风扇这些，PPAS精确功耗采集系统就通过几个组件，将这些关键配件的耗电量全面监控。

上图为PPAS精确功耗采集系统的“CPU/主板/风扇/硬盘”功耗采集电路板，电源通过24Pin输出给主板的各路电压电流、通过8Pin输出给CPU的电压电流、通过SATA供电接口输出给硬盘的电压电流、通过3Pin输出给风扇的电压电流，都被这套系统所“截获”，通过定制的处理器计算出实时功率数值。

PPAS精确功耗采集系统的显卡PCIE供电分析装置

PPAS精确功耗采集系统的显卡功耗采集电路板

与CPU单独依靠4Pin/8Pin供电不同，显卡除了用外接的6Pin/8Pin供电外，PCI-E插槽也会提供一些电流，所以想要获得显卡的真实功率，这部分的供电也需要“截获”。上图中通过24Pin获得显卡PCI-E接口部分的供电，6Pin/8Pin供电可以直接从电源输出口获得，加起来就是总功率了。当然，显卡外接供电和PCI-E供电各占多少百分比，这套设备都可以分析出来。

这块电路板是PPAS精确功耗采集系统的数据处理中心，通过前面两块电路板获得的CPU、主板、显卡的电压电流数据，都通过USB接口汇集到这里，然后输出到显示屏和电脑中。

随便找一台电脑，安装一个小工具软件，通过PPAS精确功耗采集系统，就可以获得非常详细的Excel数据，对硬件的功率消耗情况进行分析。

图为PPAS精确功耗采集系统全部安装完毕后的最终效果图，由于需要采集的数据类目较多，所以各种接线显得很乱，不过无所谓，相信大家需要的是精确的结果，过程是无所谓的。

如果您对这套PPAS精确功耗采集系统感兴趣的话，可以访问中国计量科学院官方网站，获得更详细的资料。http://www.zgjljs.com/info.asp?id=222

个人电脑不玩游戏的时候显卡大部分时间都工作在2D模式，所以空闲的时候显卡功耗也非常重要，下面我们将电脑切换到桌面等待几分钟以后测试显卡的平均功耗。

● 显卡2D桌面空闲模式功耗测试

▲ 影驰 GTX750 黑将（带外接6Pin供电）

▲ NVIDIA GTX750Ti（不带外接供电）

▲ AMD R7 260X

▲ AMD R7 270X

▲ NVIDA GTX650Ti

▲ NVIDIA GTX480

这里面最夸张的就是GTX480显卡了，作为几年前的旧显卡的代表，它的“费米”架构还真是够费电的，待机都要31.9瓦特，而最省电的GTX750Ti只要5瓦特，仅仅为GTX480的六分之一不到！而AMD最新的R7 260X也要10瓦特左右。

FurMark是oZone3D开发的一款OpenGL基准测试工具，通过皮毛渲染算法来衡量显卡的性能，同时还能借此考验显卡的稳定性。提供了多种测试选项，比如全屏/窗口显示模式、九种预定分辨率(也可以自定义)、基于时间或帧的测试形式、多种多重采样反锯齿(MSAA)、竞赛模式等等，并且支持包括简体中文在内的五种语言。

Maxwell领衔！A/N新显卡能效深度测试

本来FurMark只是用来测试显示卡的OpenGL效能，但是因为他热力四射,火力非凡，所以可以拿来当烧机软件使用。它可以让显示卡跑出任何游戏都达不到的高温，以致于只要通过了FurMark考验过的显示卡，跑游戏都不会出问题。

待机为windows7桌面下获得的最小值；满载是以1680X1050模式运行Furmark时的最大值，Furmark能够让显卡稳定的以100%满负载模式运行，测得的功耗值比一般的游戏要高一些。

● 极限满载功耗测试

▲ 影驰 GTX750 黑将（带外接6Pin供电）

▲ NVIDIA GTX750Ti（不带外接供电）

▲ AMD R7 260X

▲ AMD R7 270X

▲ NVIDA GTX650Ti

▲ NVIDIA GTX480

其他产品的极限功耗都在意料之中，除了GTX750Ti，不到45W的极限功耗让它完全没有必要外接供电，PCI-E最大75W的供电能力足够GTX750Ti超频稳定运行了。再看看GTX480，当初的旗舰显卡性能也不如GTX750Ti，功耗却足足是后者的六倍！

Furmark虽然经典，但毕竟主要考验显卡的TDP，实际游戏中并不会出现那种极端的情况，为了让测试结果更接近实际使用，我们接下来测试3D基准运行下显卡的功耗情况。

台式机、笔记本、平板手机三大平台除了PC追求极致性能外，笔记本和平板都受限于电池和移动因素，性能平平，因此之前的3Dmark11虽然有三档可选，依然不能准确衡量移动设备的真实性能。

性能大洗牌！全系列显卡鏖战新3DMARK

3DMARK主界面

而这次Futuremark为移动平台量身定做了专有测试方案，新一代3DMark三个场景的画面精细程度以及对配置的要求可谓天差地别。

性能大洗牌！全系列显卡鏖战新3DMARK

Fire Strike、Cloud Gate、Ice Storm三大场景，他们分别对应当前最热门的三大类型的电脑——台式电脑、笔记本电脑和平板电脑。

● 3DMark功耗测试（第一场景）

▲ 影驰 GTX750 黑将（带外接6Pin供电）

▲ NVIDIA GTX750Ti（不带外接供电）

▲ AMD R7 260X

▲ AMD R7 270X

▲ NVIDA GTX650Ti

▲ NVIDIA GTX480

3DMark运行时的功耗果然比Furmark低了很多，GTX750Ti这时候的平均功耗居然只有38.5W，几乎相当于GTX480空闲时的功耗了！如果没有这套专业功耗测试设备，恐怕我们怎么也不敢相信这样的结果。

游戏介绍：《地铁2033》(Metro 2033)是俄罗斯工作室4A Games开发的一款新作，也是DX11游戏的新成员。该游戏的核心引擎是号称自主全新研发的4A Engine，支持当今几乎所有画质技术，比如高分辨率纹理、GPU PhysX物理加速、硬件曲面细分、形态学抗锯齿(MLAA)、并行计算景深、屏幕环境光遮蔽(SSAO)、次表面散射、视差贴图、物体动态模糊等等。

开启景深，模拟镜头感

画面设置：《地铁2033》虽然支持PhysX，但对CPU软件加速支持的也很好，因此使用A卡玩游戏时并不会因PhysX效果而拖累性能。该游戏由于加入了太多的尖端技术导致要求非常BT，以至于我们都不敢开启抗锯齿进行测试，只是将游戏内置的效果调至最高。游戏自带Benchmark，这段画战斗场景并不是很宏大，但已经让高端显卡不堪重负了。

测试说明：如果说是CRYSIS发动了DX10时代的显卡危机，那地铁2033无疑是DX11时代的显卡杀手！地铁2033几乎支持当时可以采用的所有新技术，在画面雕琢上大肆铺张，全然不顾显卡们的感受，和CRYSIS如出一辙。然而CRYSIS靠着特效的堆积和不错的优化，其惊艳绝伦的画面和DX9C游戏拉开了距离，终究赚足了眼球；而地铁则没有这么好运了，画面固然不差，BUG却是很多，招来了大量的非议。

● 3DMark11功耗测试（第一场景）

▲ 影驰 GTX750 黑将（带外接6Pin供电）

▲ NVIDIA GTX750Ti（不带外接供电）

▲ AMD R7 260X

▲ AMD R7 270X

▲ NVIDA GTX650Ti

▲ NVIDIA GTX480

地铁2033，一款销量惨淡，游戏性被人遗忘但占用显卡资源非常变态的游戏。运行这款游戏时的功耗和3DMark大致相当，也从侧面反映出3DMark的测试场景和真实的游戏环境很接近，既然如此我们也没有必要对每个游戏都测试一遍了，其他游戏的成绩应该也和他们相差无几，参照地铁2033和3DMark即可。

前面的成绩过于凌乱，这里我们汇总一下：

Maxwell领衔！A/N新显卡能效深度测试

上面这些是我做过的成绩表里面最诡异的图，他们看起来如此凌乱不堪，究其原因最下面的GTX480功耗出奇的大，而GTX750Ti功耗特别的小。

Maxwell领衔！A/N新显卡能效深度测试

其实显卡是按性能排序的，这张图看来就正常多了吧。

Maxwell领衔！A/N新显卡能效深度测试

本文所有测试得出的最终结果就是它了。这是3DMark成绩和跑3DMark时显卡实测的功耗比值，可以精确反应显卡的效能比（性能和功耗的比值，越大越好）。可以看出GTX750Ti能源利用率是GTX480的约5.3倍！是同等级A卡R7 260X的约1.61倍！是R9 270X和上一代GTX650Ti BOOST的约2.1倍！

从Maxwell架构设计上我看到了NVIDIA工程师卓越的前瞻性，他们显然意识到制造工艺的物理极限会给GPU的发展带来很大的挑战。如果说自然规则是一座矗立在不远处的冰山，现有的半导体工艺遭遇这个瓶颈而止步不前只是时间的问题，那继续在这个领域执著就像是泰坦尼克号悲剧的重演。当“冰山”已经目光所及的时候，及时寻找新的出路无疑是更聪明的选择。

在挖掘架构潜力的路上，Maxwell 初代迈出了重要的一步，NVIDIA工程师在关键时刻向着正确的方向努力，终于获得成功。同工艺的显卡效能比差距如此之大，在近十年来都属罕见。实际上现在Maxwell架构刚刚露出冰山一角，等到高端显卡发布之时，显卡革命才真正拉开序幕。■

GTX750Ti/750【京东商城】点击进入>>>

0人已赞

Maxwell领衔！A/N新显卡能效深度测试

关注我们