泡泡网显卡频道 PCPOP首页      /      显卡     /      评测    /    正文

Maxwell领衔!A/N新显卡能效深度测试

    泡泡网显卡频道3月7日 Maxwell来了,带来了GTX750Ti、GTX750两款中端显卡。就性能而言GTX750Ti只是比上一代的GTX 650Ti BOOST强那么一点点而已,但意义却非常重大。这绝不是一句虚了吧唧的片汤话,对GPU有深入了解的朋友应该明白我要说什么了,Maxwell高端产品发布之日就是显卡市场重新洗牌之时。

Maxwell领衔!A/N新显卡能效深度测试

    之所以这么说,是因为Maxwell卓越到出乎意料的效能比。在GTX750Ti首发测试中我就对它的功耗做了初步的测试,以往的经验告诉我,真正的指数性增长一般只存在于理论中或者实验室里,具体到产品总会受到种种环境因素的制约,生活中很难看到实例。然而这一次Maxwell显然成功解决了遇到的所有问题,而更令我吃惊的是这款显卡沿用了上一代Kepler的28nm工艺就达到了这一水准。

    谈到工艺和架构对GPU能效比的影响有太多的话题可以聊,我们几个媒体的编辑偶尔聚到一起,这个话题总是能引起很多的探讨和争论,但大家都比较认可的一个观点就是,架构的改变往往只是起到优化和排除瓶颈的作用,GPU工艺的进步对能效比的影响更深刻。换句话说工艺的进步意味着1.0→2.0版本的改变,而架构的改良则更像是2.0→2.1版本的进步,直到我测试了GTX750Ti/750之后,发现以事实并不是这样,今天我们就通过架构分析和最精确的测量来说明来一窥Maxwell的潜力。

    NVIDIA Kepler GPU架构于2012年初问世,它前所未有的能效比催生出全球最快的游戏PC、工作站以及超级计算机和云游戏服务器。甚至智能手机、平板电脑乃至汽车的信息娱乐系统都得益于TegraK1系统(SoC)获得了空前的视觉计算功能。

    而NVIDIA的第一代“Maxwell”架构在上一代的基础上又获得了全新的提升。首款基于Maxwell架构的GPU代号为“GM107”,专为笔记本和小型(SFF)PC等功率受限的使用场合而设计。

1

    在1080p分辨率下,GeForceGTX750Ti的性能通常可与四年前的旗舰GPU——GeForceGTX480比肩,然而热设计功耗仅为区区60W,是后者的四分之一。

    Maxwell在流式多处理器(SM)方面采用了一种全新设计,可大幅提高每瓦特性能和每单位面积的性能。虽然KeplerSMX设计在这一代产品中已经相当高效,但是随着它的发展,NVIDIA的GPU架构师显然找到了让架构效率再一次重大飞跃的方法。

    MaxwellSM设计实现证明了这一点,控制逻辑分区、负荷均衡、时钟门控粒度、编译器调度、每时钟周期发出指令条数等方面的改进以及其它诸多增强之处让Maxwell SM(亦称“SMM”)能够在效率上远超Kepler SMX。全新的Maxwell SM架构能够在GM107中把SM的数量增至五个(GK107中仅有两个),而芯片面积仅增加25%。下表提供了高级对比,对比双方分别为Maxwell以及上一代GK107 Kepler GPU:

1

    具体来说,首先Maxwell采用了容量大增的二级高速缓存设计,GM107中容量为2048KB,而GK107中的容量仅为256KB。由于片上高速缓存容量更大,因此需要向显卡DRAM发送的请求更少,从而降低了整体显卡功耗、提升了性能。

    除了上述变化以外,NVIDIA的工程师还雄心勃勃地在晶体管水平上调整了Maxwell GPU中每个单元的实现方式,以便最大限度提高节能性。所有这些努力的最终结果是,采用相同的28纳米制造工艺,Maxwell能够提供相当于Kepler两倍的每瓦特性能。

    在这里我们不难看出,Maxwell内部所有单元和横梁结构均得到了重新设计,数据流得到了优化,功率管理实现了大幅改变。

    虽然从图形特性的视角来看,第一代Maxwell GPU可提供与Kepler GPU相同的API功能,但从深层来上,Maxwell还在单个GPC(图形处理簇)内实现了多个SM单元,每个SM包含一个多形体引擎(Polymorph Engine)和纹理单元,而每个GPC包含一个光栅引擎(Raster Engine)。ROP依然与二级高速缓存片(L2 Cache Slice)以及显存控制器联系在一起。

1

GM107全芯片框图

    GM 107 GPU包含一个GPC、五个Maxwell流式多处理器(SMM)以及两个64位显存控制器(共128位)。这就是这一芯片的完整实现形式,与GeForce GTX 750Ti中的芯片配置相同。

1

GK107全芯片框图

SMX 处理核架构

    上一代Kepler的方法是划分为非2幂(non-power-of-two)数量的CUDA核心,其中一些是共享核心,这种方法需要的SM调度器数量较少,但复杂程度较高,在各种各样的游戏引擎环境中表现并不理想。

1

    SMX: 192个单精度CUDA核、64个双精度单元、32个特殊功能单元(SFU)和32 个加载/存储单元(LD/ST)。

    每个SMX单元具有192单精度CUDA核,每个核完全由浮点和整数算术逻辑单元组成。Kepler完全保留Fermi引入的IEEE 754-2008 标准的单精度和双精度算术,包括积和熔加(FMA)运算。

    成对的处理块共享四个纹理过滤单元和一个纹理高速缓存。计算一级高速缓存的功能现在也与纹理高速缓存功能相结合,而共享显存是一个独立的单元(类似首款CUDAGPU——G80中所使用的方法),被全部四个块共享。

SMM 处理核架构

1

Maxwell SM框图

    而现在每个SM分为四个独立的处理块,每个处理块具备自己的指令缓冲区、调度器以及32个CUDA核心。新的划分方法简化了设计与调度逻辑、节省了晶体管与功耗、降低了计算延迟。

    总体而言,在这一全新设计上,每个“SM”的尺寸得到大幅缩减,而性能却能够达到一个KeplerSM的90%。更小的晶体管消耗让NVIDIA能够在每颗GPU中实现更多数量的SM。通过对比GK107和GM107 SM总数的相关指标可发现,GM107有五个SM,而前者只有两个。GM107的峰值纹理性能比前者高25%,CUDA核心数量多1.7倍,着色器性能大约高2.3倍。

● SMM架构显存系统的改进

    对GM107来说,要在显存位宽与GK107相同的情况下实现性能大幅提升的目标,增强显存系统也同样重要。内部显存系统带宽实现了提升,另外这一设计的效率也得到了改善。此外,2MB大容量二级高速缓存配置(比之前的任何GPU设计都大)十分有效地降低了显存带宽需求,确保了DRAM带宽不成为瓶颈。

    其他关于Maxwell架构的基本信息,例如通过Giga Thread引擎的主PCI Express接口数据流、Polymorph与Raster单元的基本操作等等过于晦涩的知识这里就不再赘述了。

    测试平台硬件如下表所示:

1

● 参测显卡:影驰GTX750黑将购买链接

影驰GTX750 黑将显卡

   影驰GTX750 黑将采用全新设计“幻影”Phantom散热器。双80mm滚珠风扇,采用透明强化PC塑料,配合特殊扇叶设计加强风量,经实测发现,该款散热器在大幅预设超频情况下,依然能在烤机测试中将核心温度控制在53℃以下。

● 测试平台主板:技嘉G1.Sniper M3

技嘉 Z77 游戏系列主板

    技嘉 G1.Sniper M3是一款采用m-ATX板型设计的高端Z77主板,它结合了屡获殊荣的G1.Killer设计理念,目标是给玩家提供强大的性能。无论是内建Creative专业级音效处理器、Sound Core3D高质感音效输出还是支持 cFosSpeed 与网络加速技术的芯片,都是为了让玩家能有最棒的娱乐和联网游戏体验。

● 测试平台电源:Antec HCP1200

Antec HCP1200评测

    安钛克Antec HCP1200电源在世界超频大赛中非常常见,通过了80PLUS认证,转换效率高达92.4%,支持4路12V输出,最高电流72A,支持四卡SLI/交火。平均无故障运行时间为10万小时。配备一颗8cm静音风扇,运行噪音极低。

● 测试平台SSD:OCZ Vetrx3 240GB

OCZ VERTEX4 128G升级新固件对比评测

    OCZ的Vertex系列属于它的高端固态硬盘,专门为高端玩家和存储发烧友设计。随着Sandforce控制器大红大紫,OCZ也将Vertex系列升级到了全新的SF1200方案。如今SATA3.0 6Gbps接口大行其道,OCZ推出了基于SF2200系列主控芯片的Vertex 3固态硬盘,涵盖60-480GB容量范围。

    以前我们都是测试平台的整体功耗,这样虽然简单,但对显卡具体功耗就只能通过估计的方法猜测大概的数值,这套设备名叫“PPAS精确功耗采集系统”,由中国计量科学研究院研制,产品体积小巧,易于携带,测试结果准确可靠,可精确到0.001W。

PC硬件功耗知多少

PPAS精确功耗采集系统的显示屏,可以实时显示配件功率

    电脑主机内部的配件,无外乎CPU、主板、显卡、硬盘、风扇这些,PPAS精确功耗采集系统就通过几个组件,将这些关键配件的耗电量全面监控。

PC硬件功耗知多少

    上图为PPAS精确功耗采集系统的“CPU/主板/风扇/硬盘”功耗采集电路板,电源通过24Pin输出给主板的各路电压电流、通过8Pin输出给CPU的电压电流、通过SATA供电接口输出给硬盘的电压电流、通过3Pin输出给风扇的电压电流,都被这套系统所“截获”,通过定制的处理器计算出实时功率数值。

PC硬件功耗知多少

PPAS精确功耗采集系统的显卡PCIE供电分析装置

PC硬件功耗知多少

PPAS精确功耗采集系统的显卡功耗采集电路板

    与CPU单独依靠4Pin/8Pin供电不同,显卡除了用外接的6Pin/8Pin供电外,PCI-E插槽也会提供一些电流,所以想要获得显卡的真实功率,这部分的供电也需要“截获”。上图中通过24Pin获得显卡PCI-E接口部分的供电,6Pin/8Pin供电可以直接从电源输出口获得,加起来就是总功率了。当然,显卡外接供电和PCI-E供电各占多少百分比,这套设备都可以分析出来。

PC硬件功耗知多少

    这块电路板是PPAS精确功耗采集系统的数据处理中心,通过前面两块电路板获得的CPU、主板、显卡的电压电流数据,都通过USB接口汇集到这里,然后输出到显示屏和电脑中。

PC硬件功耗知多少

    随便找一台电脑,安装一个小工具软件,通过PPAS精确功耗采集系统,就可以获得非常详细的Excel数据,对硬件的功率消耗情况进行分析。

PC硬件功耗知多少

    图为PPAS精确功耗采集系统全部安装完毕后的最终效果图,由于需要采集的数据类目较多,所以各种接线显得很乱,不过无所谓,相信大家需要的是精确的结果,过程是无所谓的。

    如果您对这套PPAS精确功耗采集系统感兴趣的话,可以访问中国计量科学院官方网站,获得更详细的资料。http://www.zgjljs.com/info.asp?id=222

    个人电脑不玩游戏的时候显卡大部分时间都工作在2D模式,所以空闲的时候显卡功耗也非常重要,下面我们将电脑切换到桌面等待几分钟以后测试显卡的平均功耗。

● 显卡2D桌面空闲模式功耗测试

Maxwell领衔!A/N新显卡能效深度测试

▲ 影驰 GTX750 黑将(带外接6Pin供电)

Maxwell领衔!A/N新显卡能效深度测试

▲  NVIDIA GTX750Ti(不带外接供电)

Maxwell领衔!A/N新显卡能效深度测试

▲ AMD R7 260X

Maxwell领衔!A/N新显卡能效深度测试

▲ AMD R7 270X

Maxwell领衔!A/N新显卡能效深度测试

▲ NVIDA GTX650Ti

Maxwell领衔!A/N新显卡能效深度测试

▲ NVIDIA GTX480

    这里面最夸张的就是GTX480显卡了,作为几年前的旧显卡的代表,它的“费米”架构还真是够费电的,待机都要31.9瓦特,而最省电的GTX750Ti只要5瓦特,仅仅为GTX480的六分之一不到!而AMD最新的R7 260X也要10瓦特左右。

    FurMark是oZone3D开发的一款OpenGL基准测试工具,通过皮毛渲染算法来衡量显卡的性能,同时还能借此考验显卡的稳定性。提供了多种测试选项,比如全屏/窗口显示模式、九种预定分辨率(也可以自定义)、基于时间或帧的测试形式、多种多重采样反锯齿(MSAA)、竞赛模式等等,并且支持包括简体中文在内的五种语言。

Maxwell领衔!A/N新显卡能效深度测试

    本来FurMark只是用来测试显示卡的OpenGL效能,但是因为他热力四射,火力非凡,所以可以拿来当烧机软件使用。它可以让显示卡跑出任何游戏都达不到的高温,以致于只要通过了FurMark考验过的显示卡,跑游戏都不会出问题。

    待机为windows7桌面下获得的最小值;满载是以1680X1050模式运行Furmark时的最大值,Furmark能够让显卡稳定的以100%满负载模式运行,测得的功耗值比一般的游戏要高一些。

Maxwell领衔!A/N新显卡能效深度测试

● 极限满载功耗测试

Maxwell领衔!A/N新显卡能效深度测试

▲ 影驰 GTX750 黑将(带外接6Pin供电)

Maxwell领衔!A/N新显卡能效深度测试

▲  NVIDIA GTX750Ti(不带外接供电)

Maxwell领衔!A/N新显卡能效深度测试

▲ AMD R7 260X

Maxwell领衔!A/N新显卡能效深度测试

▲ AMD R7 270X

Maxwell领衔!A/N新显卡能效深度测试

▲ NVIDA GTX650Ti

Maxwell领衔!A/N新显卡能效深度测试

▲ NVIDIA GTX480

    其他产品的极限功耗都在意料之中,除了GTX750Ti,不到45W的极限功耗让它完全没有必要外接供电,PCI-E最大75W的供电能力足够GTX750Ti超频稳定运行了。再看看GTX480,当初的旗舰显卡性能也不如GTX750Ti,功耗却足足是后者的六倍!

    Furmark虽然经典,但毕竟主要考验显卡的TDP,实际游戏中并不会出现那种极端的情况,为了让测试结果更接近实际使用,我们接下来测试3D基准运行下显卡的功耗情况。

    台式机、笔记本、平板手机三大平台除了PC追求极致性能外,笔记本和平板都受限于电池和移动因素,性能平平,因此之前的3Dmark11虽然有三档可选,依然不能准确衡量移动设备的真实性能。

性能大洗牌!全系列显卡鏖战新3DMARK

3DMARK主界面

    而这次Futuremark为移动平台量身定做了专有测试方案,新一代3DMark三个场景的画面精细程度以及对配置的要求可谓天差地别。

性能大洗牌!全系列显卡鏖战新3DMARK

    Fire Strike、Cloud Gate、Ice Storm三大场景,他们分别对应当前最热门的三大类型的电脑——台式电脑、笔记本电脑和平板电脑。

● 3DMark功耗测试(第一场景)

Maxwell领衔!A/N新显卡能效深度测试

▲ 影驰 GTX750 黑将(带外接6Pin供电)

Maxwell领衔!A/N新显卡能效深度测试

▲  NVIDIA GTX750Ti(不带外接供电)

Maxwell领衔!A/N新显卡能效深度测试

▲ AMD R7 260X

Maxwell领衔!A/N新显卡能效深度测试

▲ AMD R7 270X

Maxwell领衔!A/N新显卡能效深度测试

▲ NVIDA GTX650Ti

Maxwell领衔!A/N新显卡能效深度测试

▲ NVIDIA GTX480

    3DMark运行时的功耗果然比Furmark低了很多,GTX750Ti这时候的平均功耗居然只有38.5W,几乎相当于GTX480空闲时的功耗了!如果没有这套专业功耗测试设备,恐怕我们怎么也不敢相信这样的结果。

    游戏介绍:《地铁2033》(Metro 2033)是俄罗斯工作室4A Games开发的一款新作,也是DX11游戏的新成员。该游戏的核心引擎是号称自主全新研发的4A Engine,支持当今几乎所有画质技术,比如高分辨率纹理、GPU PhysX物理加速、硬件曲面细分、形态学抗锯齿(MLAA)、并行计算景深、屏幕环境光遮蔽(SSAO)、次表面散射、视差贴图、物体动态模糊等等。

华丽背后的陷阱!A/N DX11显卡再碰撞

开启景深,模拟镜头感

    画面设置:《地铁2033》虽然支持PhysX,但对CPU软件加速支持的也很好,因此使用A卡玩游戏时并不会因PhysX效果而拖累性能。该游戏由于加入了太多的尖端技术导致要求非常BT,以至于我们都不敢开启抗锯齿进行测试,只是将游戏内置的效果调至最高。游戏自带Benchmark,这段画战斗场景并不是很宏大,但已经让高端显卡不堪重负了。

    测试说明:如果说是CRYSIS发动了DX10时代的显卡危机,那地铁2033无疑是DX11时代的显卡杀手!地铁2033几乎支持当时可以采用的所有新技术,在画面雕琢上大肆铺张,全然不顾显卡们的感受,和CRYSIS如出一辙。然而CRYSIS靠着特效的堆积和不错的优化,其惊艳绝伦的画面和DX9C游戏拉开了距离,终究赚足了眼球;而地铁则没有这么好运了,画面固然不差,BUG却是很多,招来了大量的非议。

● 3DMark11功耗测试(第一场景)

Maxwell领衔!A/N新显卡能效深度测试

▲ 影驰 GTX750 黑将(带外接6Pin供电)

Maxwell领衔!A/N新显卡能效深度测试

▲  NVIDIA GTX750Ti(不带外接供电)

Maxwell领衔!A/N新显卡能效深度测试

▲ AMD R7 260X

Maxwell领衔!A/N新显卡能效深度测试

▲ AMD R7 270X

Maxwell领衔!A/N新显卡能效深度测试

▲ NVIDA GTX650Ti

Maxwell领衔!A/N新显卡能效深度测试

▲ NVIDIA GTX480

    地铁2033,一款销量惨淡,游戏性被人遗忘但占用显卡资源非常变态的游戏。运行这款游戏时的功耗和3DMark大致相当,也从侧面反映出3DMark的测试场景和真实的游戏环境很接近,既然如此我们也没有必要对每个游戏都测试一遍了,其他游戏的成绩应该也和他们相差无几,参照地铁2033和3DMark即可。

    前面的成绩过于凌乱,这里我们汇总一下:

Maxwell领衔!A/N新显卡能效深度测试

Maxwell领衔!A/N新显卡能效深度测试

Maxwell领衔!A/N新显卡能效深度测试

Maxwell领衔!A/N新显卡能效深度测试

    上面这些是我做过的成绩表里面最诡异的图,他们看起来如此凌乱不堪,究其原因最下面的GTX480功耗出奇的大,而GTX750Ti功耗特别的小。

Maxwell领衔!A/N新显卡能效深度测试

    其实显卡是按性能排序的,这张图看来就正常多了吧。

Maxwell领衔!A/N新显卡能效深度测试

    本文所有测试得出的最终结果就是它了。这是3DMark成绩和跑3DMark时显卡实测的功耗比值,可以精确反应显卡的效能比(性能和功耗的比值,越大越好)。可以看出GTX750Ti能源利用率是GTX480的约5.3倍!是同等级A卡R7 260X的约1.61倍!是R9 270X和上一代GTX650Ti BOOST的约2.1倍!

    从Maxwell架构设计上我看到了NVIDIA工程师卓越的前瞻性,他们显然意识到制造工艺的物理极限会给GPU的发展带来很大的挑战。如果说自然规则是一座矗立在不远处的冰山,现有的半导体工艺遭遇这个瓶颈而止步不前只是时间的问题,那继续在这个领域执著就像是泰坦尼克号悲剧的重演。当“冰山”已经目光所及的时候,及时寻找新的出路无疑是更聪明的选择。

    在挖掘架构潜力的路上,Maxwell 初代迈出了重要的一步,NVIDIA工程师在关键时刻向着正确的方向努力,终于获得成功。同工艺的显卡效能比差距如此之大,在近十年来都属罕见。实际上现在Maxwell架构刚刚露出冰山一角,等到高端显卡发布之时,显卡革命才真正拉开序幕。■

GTX750Ti/750【京东商城】点击进入>>>

Maxwell超节能!GTX750Ti/750首发评测    <

0人已赞

关注我们

泡泡网

手机扫码关注