泡泡网显卡频道 PCPOP首页      /      显卡     /      评测    /    正文

开创视觉计算帝国GTX280/260权威评测

{imageTitle}{imageTitle}

前言导读:3D性能原地踏步19个月?业界呼唤新王者!

第一章 王者回顾:DX10时代旗舰级显卡发展

    第一节 DX10时代NVIDIA三款旗舰级显卡
        GeForce 8800GTX
        GeForce 8800Ultra
        GeForce 9800GX2
    第二节 DX10时代ATI两款旗舰级显卡
        Radeon HD 2900XT
        Radeon HD 3870X2
        本章小结:NVIDIA和ATI设计理念的异同

第二章 架构解析:GTX200核心架构和技术解析

    第一节 第一代统一渲染架构:统一“像素/顶点/几何/物理”着色
    第二节 第二代统一渲染架构:统一“图形处理/并行计算”
    第三节 标量流处理器架构:G80微架构的革命性解析
        传统SIMD(单指令多数据)架构GPU的弊端
        G80革命性的MIMD(多指令多数据)架构解析
        R600超标量SIMD架构的优缺点
        小结:GF8/9完胜HD2000/3000的奥秘
    第四节 GTX200芯片透视图、架构图、规格总表
    第五节 GTX200核心架构解析:大幅扩充流处理器
        GTX200核心微架构改进:SM可执行线程提升,SM指令寄存器加倍
    第六节 GTX200核心架构解析:512Bit显存消除瓶颈
        AMD的512Bit环形总线显存控制器
        NVIDIA的512Bit交叉总线显存控制器
    第七节 GTX200图形架构解析:优化几何/纹理/光栅
        几何着色性能反超A卡
        纹理单元进一步增强,但所占比率下降
        光栅单元规模增大,高倍抗锯齿成为可能
    第八节 GTX200并行计算架构方面的改进
        提高双指令执行(Dual-Issue)效率
        支持双精度64Bit浮点运算
    第九节 GTX200核心支持业界非常先进的功耗控制技术
        AMD率先支持GPU芯片级节能技术
        NVIDIA另辟蹊径,Hybrid Power将显卡功耗降为零
        GTX200加入芯片级节能技术,待机功耗仅25W
        GTX280显卡在四种典型工作模式下的功耗

第三章 CUDA编程:开创GPU计算明日帝国

    第一节 “并行计算”相对“串行计算”的优势
    第二节 CUDA:一个以GPU为中心的运算平台
    第三节 CUDA应用:视频加速、期货风险分析系统
    第四节 CUDA应用:医疗行业、地理信息系统
    第五节 CUDA应用:生命科学、CAD设计、MATLAB
    第六节 CUDA应用:GPU的先天优势和后天发展

第四章 物理加速:GPU物理加速修成正果,真正走向成熟

    第一节 半路杀出来个Intel,NV/ATI的物理加速之梦破灭
    第二节 被逼无奈,NVIDIA重金收购AGEIA
    第三节 收购立竿见影,仅一月PhysX就能支持GeForce了

第五章 实物解析:GeForce GTX 280/260显卡实物解析

    第一节 8800GTX真正的接班人:GTX280
    第二节 GTX200核心:14亿晶体管怪兽+NVIO2代输出
        65nm制造14亿晶体管又是一个奇迹
        GTX200何不采用最新的55nm工艺?
        GTX200流处理器频率为何如此之低?
        NVIO二代输出芯片:分久必合,合久必分
    第三节 1GB 512Bit显存,现代0.8ns GDDR3颗粒
    第四节 N卡史上最豪华的数字供电模块
    第五节 大家来找碴:GTX280和GTX260外观上有何异同?
    第六节 GeForce GTX 260实物规格解析
        GTX260的规格及核心架构屏蔽示意图
        GTX260少了两颗显存、两相供电
    第七节 七彩虹七彩虹GTX280/260,大陆独家供货充足
    第八节 索泰GTX280高频版,浮点运算历史性突破1TFLOPS

第六章 演示DEMO:GeForce GTX 280演示DEMO解析

    第一节 GeForce 6/7/8三款经典DEMO回顾
        GeForce 6800Ultra:精心打造的美人鱼Nalu
        GeForce 7800GTX:黄皮肤美女Luna
        GeForce 8800Ultra:超逼真的人脸渲染Human Head
    第二节 GTX200演示Demo Medusa(美杜莎)赏析
    第三节 Medusa的特色:集上代Demo优点与一身
    第四节 Medusa的特色:模拟未来游戏场景

第七章 性能测试:GeForce GTX 280/260性能全方位对比测试

    第一节 优异测试平台配置和测试方法介绍
    第二节 DX9C理论性能测试:3DMark06
    第三节 DX10理论性能测试:3DMark Vantage
    第四节 DX9C游戏测试:《超级房车:起点》
    第五节 DX9C游戏测试:《使命召唤4》
    第六节 DX9C游戏测试:《帝国3:亚洲王朝》
    第七节 DX9C游戏测试:《半条命2:第二章》
    第八节 DX9C游戏测试:《优品飞车11》
    第九节 DX9C游戏测试:《虚幻竞技场3》
    第十节 OpenGL游戏测试:《雷神战争》
    第十一节 DX10游戏测试:《孤岛危机》
    第十二节 DX10游戏测试:《失落星球》
    第十三节 DX10游戏测试:《英雄连》
    第十四节 DX10游戏测试:《刺客信条》
    第十五节 DX10游戏测试:《冲突世界》
    第十六节 DX10游戏测试:《生化奇兵》
    第十七节 DX10游戏测试:《地狱门:伦敦》
    第十八节 性能对比:GTX280 VS GTX260
    第十九节 性能对比:GTX280 VS 9800GX2
    第二十节 性能对比:GTX280 VS 9800GTX
    第二十一节 性能对比:GTX280 VS 8800Ultra
    第二十二节 性能对比:GTX280 VS 8800GTX
    第二十三节 性能对比:GTX280 VS HD3870X2
    第二十四节 多卡系统:GTX280 SLI效率测试
    第二十五节 多卡系统:GTX280三路SLI效率测试
    第二十六节 功耗测试:GTX200系列显卡全平台功耗测试
    第二十七节 视频解码:高清CPU占用率测试
    第二十八节 CUDA应用测试:BadaBOOM视频编码
    第二十九节 CUDA应用测试:Folding home

第八章 全文总结:未来GPU/游戏展望

    第一节 饭田庆太:GTX 280带给游戏更多的机会
    第二节 邓培智:性能翻倍 DirectX 10.1非主流
    第三节 全文总结与展望

前言3D性能原地踏步19个月?业界呼唤新王者!

    19个月以前,首颗支持DirectX 10的图形核心——G80(GeForce 8800GTX)正式发布;19个月过去了,至今都没有任何一颗GPU能够超越G80,这对于号称“半年更新、一年换代”的图形市场来说,不能不说是个悲哀!

    目前NVIDIA/AMD已经将显卡型号从GeForce 8/HD2000全面升级到了GeForce 9/HD3000系列,应该算是第二代DX10显卡,但大家可以发现主流中高端显卡的性能并没有实质性提升,原因就在于GPU架构没有明显变化,主要依靠新工艺来提升频率、降低成本。至于旗舰级显卡方面,双方不约而同地选择了双核心、组建3/4路显卡并联的技术来提升性能上限。

    不难看出,近年来GPU的发展模式越来越接近于CPU:Intel提出了奇数工艺年和偶数架构年的概念,每两年更新一次核心架构,在第二年通过更先进的工艺、进一步优化架构的方式改进性能。G92/RV670就相当于是G80/R600的工艺改进版,由于显存位宽的缩减,两者在性能方面虽然没有超越前辈,但成本、功耗、发热控制得非常好,相关衍生产品也深受消费者喜爱!

    2006架构年、2007工艺年、今年又是个架构年,2008年6月17日,图形巨头NVIDIA提前发布了G80核心的正统继承人——采用第二代统一渲染架构的GTX200核心,这颗GPU拥有比较独特的14亿个晶体管,达到了G80/G92的两倍左右,可想而之其性能将会有多么恐怖!

    自打DX10时代开始,NVIDIA一直就扮演者领导者的角色,8800GTX、8800Ultra、9800GX2三款旗舰的王位稳如泰山,竞争对手始终无法拿出像样的产品来与之抗衡。看来,能够战胜NVIDIA的只有它自己,因此全新的GTX200系列备受期待!

    首先来看看NVIDIA对于新一代GTX200核心的设计目标:

  • 性能翻倍:两倍于G80核心的性能;
  • 优化架构:根据未来游戏的需要优化核心架构,植入更多的流处理器、扩大显存带宽,调整着色器和纹理的比率;
  • 提高效能:提高GPU的“每瓦性能”,提高晶体管利用率;
  • 改进DX10:加强DX10图形性能,比如几何着色和像素输出的效能;
  • GPGPU:按照并行计算架构设计GPU,提高物理加速性能,优化GPU通过CUDA执行非图形运算的效能;
  • 能源管理:尽可能的控制功耗,加入高级能源管理功能,最大限度降低空闲时的消耗。

第一章 回顾:DX10时代旗舰级显卡

    旗舰级显卡不仅仅代表最强的性能,更多的是一种形象和身份的象征,它能够反映出芯片厂商的研发实力、是一代显卡性能表现的缩影。旗舰显卡虽然销量有限(相对于中低端来说),但它可以带动中低端显卡的销售。因此,在介绍NVIDIA新旗舰GeForce GTX 280之前,有必要对昔日王者作一番简单的回顾,这样就能更清楚地反映出NVIDIA和AMD两大图形巨头的真正实力及产品策略。

第一章/第一节 DX10时代NVIDIA旗舰级显卡回顾

● 2006年11月8日,GeForce 8800GTX(G80)

    G80核心的横空出世宣告了DX10时代的来临,8800GTX先于微软的Vista和DirectX 10发布,虽然当时没有任何一款DX10游戏(半年后才陆续面市),但8800GTX强大的DX9C性能已经给大家留下了深刻印象,双核心的7950GX2在8800GTX面前无地自容。

{imageTitle}   {imageTitle}

{imageTitle}   {imageTitle}

    8800GTX强大的实力源自于多方面:首先两倍于G71核心的6.81亿晶体管功不可没,这就奠定了G80庞大的渲染能力;其次颠覆传统Shader架构的标量流处理器,最大限度的提升了核心的执行效能;当然384Bit显存位宽也充分保证了数据吞吐能力;最后,由于发布时间很早,游戏开发商为NVIDIA新一代架构的鼎力优化与支持,也成就了其强大的DX10游戏性能。

● 2007年5月8日,GeForce 8800Ultra(G80)

    在得知竞争对手将会与5月份发布R600核心的HD2900XT之后,NVIDIA适时地放出了基于G80核心的高频版8800Ultra,当然这也是为了实现自家产品线半年更新的承诺。

{imageTitle}   {imageTitle}

{imageTitle}   {imageTitle}

    严格来说8800Ultra并非全新产品,它只不过是将G80的制程从A2升级到A3,这样良品率和冲击高频的能力会好些;显存由1.0ns升级到0.8ns,另外散热器风扇作了些改进,而PCB则没有任何变化。简言之8800Ultra就是8800GTX的官方超频版,不过由于核心/流处理器/显存频率都提升不小,因此旗舰显卡的实力得到了进一步增强。

● 2008年3月18日,GeForce 9800GX2(G92×2)

    G92核心是G80的改良版,工艺从90nm进化到65nm使得它功耗、发热、成本大幅下降,NVIDIA对于G92的定位就是中高端,因此使用了256Bit显存来进一步控制成本。虽然G92核心的纹理单元和高清单元比G80强很多,而且核心频率大幅提高,但显存位宽限制了它的性能表现,基于G92单核心最强的9800GTX都未能超越一年前的8800GTX。不过NVIDIA还有杀手锏,当年双G71核心的7950GX2灵魂附体,双G92核心的9800GX2震撼登场!

{imageTitle}   {imageTitle}

{imageTitle}   {imageTitle}

    拥有7.54亿晶体管的G92核心本身功耗发热就不低(相对G80是好些),做成双核心显卡自然对供电和散热提出了很高要求,所以9800GX2显卡的结构和散热系统都是比较独特的复杂,全密封式设计完全就像是一块板砖。

    性能方面单颗G92可以达到接近于8800GTX的水平,双核心性能提高80%,9800GX2自然完全超越8800Ultra成为毫无争议新王者。双核心本身的效率不容置疑,但其弊端就在于组建Quad SLI之后四核心效率不高,当年的7950GX2完胜X1950XTX,但是7950GX2 Quad SLI不敌X1950XTX CrossFire。不过DX10时代NVIDIA重新设定了渲染模式,在驱动优化方面下了大功夫,而且很多新游戏也开始对多GPU系统提供优化支持,因此9800GX2 Quad SLI系统的性能还是令人相当满意的,四颗G92核心将3D图形性能提升到了新的境界!

第一章/第二节 DX10时代AMD两款旗舰级显卡回顾

    收购ATI之后的AMD不但背上了沉重的债务包袱,而且在产品研发方面遇到了重重困难,从DX9C向DX10转型的过程不够顺利,由此导致产品屡次延期、架构相对落后、性能不如预期。

● 2007年5月15日,Radeon HD 2900XT(R600)

    作为G80核心的命中宿敌,R600从一开始就被寄予厚望,R600使用了更先进的80nm工艺、拥有多达7亿个晶体管及更高的主频,可惜它依然使用了传统的矢量Shader架构、Shader频率与核心保持同步,由此导致执行效能偏低,最终只能与G80的阉割版8800GTS 640MB打成平手,与8800GTX有很大差距,更别说频率更高的8800Ultra了。R600的性能让关注它的玩家们大失所望,好在AMD也清楚地意识到了不足,因此上市价格非常厚道。

{imageTitle}   {imageTitle}

{imageTitle}   {imageTitle}

    R600号称拥有320个流处理器,实际上却是64个5D架构的Shader,而且Shader频率与核心同步,遇到复杂指令时的效率会大打折扣。R600相对落后的核心架构是其失败的主要原因,由此导致AMD的HD2000和HD3000两代产品始终受制于人、被压制得抬不起头来,不得不依靠低价策略来抢占市场。

● 2008年1月26日,Radeon HD 3870X2(RV670×2)

    R600的延期和失败导致AMD在长达一年多的时间拿不出真正意义上的旗舰产品,痛定思痛的AMD迅速发布了RV670核心,并且使用两颗核心制造了HD3870X2。单核心的HD3870虽然不敌8800GT,但双剑合璧之后就能向8800Ultra发起挑战了。终于HD3870X2以小幅优势战胜8800Ultra,重夺性能之王的宝座。

{imageTitle}   {imageTitle}

{imageTitle}   {imageTitle}

    HD3870X2本身的性能是不错的,但问题就出在3路或4路的效能方面,经测试发现CrossFireX在2路3路系统的效率还是很高的,但4路系统在不少游戏中甚至还不如3路,如此一来优异A卡系统的性能就大打折扣了。HD3870X2略胜8800Ultra,但是两片HD3870X2肯定不是三片8800Ultra的对手!而且,NVIDIA的双核心显卡9800GX2也是蓄势待发,HD3870X2的王位只坐了不到百日就被赶下台!

● 本章小结:

    虽然NVIDIA和AMD的旗舰显卡性能差距较大,但双方的产品策略居然惊人的相似:G80和R600核心都是采用较老的成熟工艺,将晶体管堆到极限的产物,也就是通过暴力手段、不惜成本(512/384Bit)制造超强性能的显卡;而G92和RV670则是采用新工艺、向成本(256Bit)妥协之后的产物,在提升性能和效能的同时、还要兼顾芯片成本和显卡制造成本,虽然性能没有超越前辈,但性能价格比和性能功耗比得到了大幅提升!

    G92和RV670采用新工艺之后功耗发热得到了有效控制,这就使得双核心方案成为可能,为了进一步提升图形性能,双方不约而同地发布了基于G92和RV670的双核心显卡及其3/4路并联系统,在单GPU性能原地踏步的情况下,通过多核心并联的方式大幅提升了3D性能上限,为发烧玩家提供了更强悍的解决方案。

    四颗GPU已经达到了电脑系统可以承受的极限,继续提升3D性能又遇到了瓶颈,现在就必须重头来过,想方设法继续提升单GPU的实力。于是新一代怪兽级GPU诞生了,它就是拥有14亿晶体管的GT200!

第二章:GTX200核心架构全面解析

    通过前面对于旗舰显卡的简单回顾我们可以发现,R600比G80有着许多先天优势:工艺先进、晶体管更多、频率更高、还有512Bit显存,但为何R600还不如G80的阉割版呢?这是因为决定性能的关键在于GPU核心架构,只有不停地优化架构,才能在晶体管、频率一定的情况下,大幅提升执行效能。那么现在我们就来研究下NVIDIA和AMD的DX10图形架构。

第二章/第一节 G80核心第一代统一渲染架构解析

    GTX200的核心架构是在G80的基础上改进、优化、创新而来的,G8X/G9X都是第一代统一渲染架构,NVIDIA将GTX200称为第二代统一架构,所以必须熟知G80的架构特色后才能深入理解GTX200的新特新。

● 第一代统一渲染架构:G80统一像素/顶点/几何/物理

    在G80以前,显卡(GPU)的规格主要用管线(Shader,着色器)来形容,分为像素管线(Pixel Shader)和顶点管线(Vertex Shader)。芯片厂商在设计的时候并不会将顶点管线和像素管线按照相同的数目去做,一般像素管线数远大于顶点管线。比如G70/G71核心拥有24条像素管线和8个顶点管线。那么显示芯片厂商为什么要这么做呢?答案是:这样的结构和比例是芯片设计厂商根据常见游戏的情况而决定的。

{imageTitle}   {imageTitle}
沿用了20年的管线式架构被统一渲染架构终结

    不同的游戏在开发的过程中,设计的图像复杂度是不同的,有的游戏3D模型相对简单,这样游戏就可以在更多玩家的电脑上运行。有的游戏的3D模型和后期特效就非常复杂,这样在保证了游戏的效果的同时就让很多中低配置玩家难以流畅运行。除去游戏复杂度的区别,游戏的开发商和显示芯片厂商还处在一个更加难以解决的怪圈中,这就是:游戏开发商必须根据GPU的架构来调整图形资源消耗(如像素/顶点或像素/纹理的比例),而芯片厂商又得预估未来游戏的发展来定制GPU架构,出现了双方互相牵制难以协调统一的局面。

    具体来说就是,有的厂商会开发一些3D模型很复杂,顶点数目很多的游戏,这些游戏就需要耗费很大的顶点管线的资源,这类游戏可以把场景设计得很复杂,里面的3D模型的细节非常到位。而另一类厂商则会将焦点放在后期的象素级别的特效,这样的好处就是可以给游戏带来更炫的视觉效果。

{imageTitle}   {imageTitle}
传统管线式架构中像素和顶点负载不均衡,统一渲染架构就能自动分配负载

    上图可以看到一个典型的例子,第一场景(鲨鱼)主要是由框架以及三角形来构成的,因此对于顶点的计算量是相当高的,而像素计算的部分却非常少,像素管线资源被闲置。

    而第二个例子描绘的是一个复杂水体模拟场景,是由大量的光影特效都是依靠像素处理实现的,因此对于像素单元的要求却非常高,而顶点的操作早已完成,导致了资源的浪费。这两个例子充分的证明了这样一个事实,大部分的应用中,顶点和像素处理不平衡的现象非常普遍,导致部分Shader单元闲置,从而浪费宝贵的资源。这也正是Shader单元分离式设计显卡的最大弊端之一。

完美DX10!ATI新王者HD2900XT权威评测
在实际游戏中,像素和顶点的负载并非一成不变,因此需要GPU自动协调获得最高效能

   在这种情况下,显示芯片厂商只能按照最常见的游戏的情况来设计显示芯片,尽最大能力去满足不同的游戏。而游戏厂商在设计游戏的时候也不能随心所欲的设计游戏,必须满足显示芯片的性能配比,这样才能在消耗性能最小的情况下达到最好的游戏效果。这个矛盾一天不得到解决,显示芯片最大的效能就不能充分的得到发挥,这也一直是显示芯片的性能提高的最大瓶颈所在。

  • 传统显示芯片架构的缺点

1. 游戏厂商无法按照需要设计游戏,必须向硬件性能妥协。

2. 显示芯片的利用效率不高,运算单元被闲置的现象经常发生。

  • 统一渲染架构的优点:

    1.动态分配运算单元,提升利用率

    在统一渲染架构下,每个处理单元都可以进行顶点和像素的运算,这样一来,无论是怎样的游戏,都能够充分利用显卡的资源,再也不会有一些处理单元闲置,一些处理单元负载过高的情况出现了。

    在需要大量顶点运算的游戏中,Unified Shader将被分配去做顶点的运算,而在需要大量后期象素级别特效的时候,Unified Shader将被安排去做像素着色。

    2.并行处理,提高利用效率

    除了动态分配方面带来的好处,这样的结构还有利于处理并行性的提升,因为这些处理单元可以并行运行,不像原来的串行的结构那样顺序执行。

    3.统一渲染架构还能够协调分配几何着色、物理着色等指令

    除了传统的像素着色和顶点着色之外,统一渲染架构还支持DX10新加入的几何着色,在专用控制单元的支配下,GPU可以代替CPU动态的生成和销毁几何图元数据,从而大幅提升执行效率,消除图像渲染过程中的瓶颈。

第二章/第二节 GTX200核心第二代统一渲染架构解析

    NVIDIA将G80称为第一代“统一渲染架构”,而GTX200则被称为第二代“统一架构”,渲染二字不复存在,从这个细微的变化就可以看出新一代的GPU的架构已经在朝着非图形领域发展了。现在我们就来看看两代核心架构图:

为王位而生 GeForce8800全面解析测试
GeForce 8全系列架构图

    统一渲染架构,说白了就是使用全新的Shader模块(现在被称为流处理器)取代之前的顶点管线和像素管线,然后通过专用的控制单元来统一协调指令分配,按照游戏的负载来动态的调度顶点、几何、像素指令。

    所以从理论上来讲,NVIDIA和AMD之前的GPU在统一渲染架构的设计原理上是一致的。第一代统一渲染架构,就是将像素、顶点、几何、物理等图形渲染指令统一了起来,按照比例和优先级交给流处理器处理。

{imageTitle}
GTX200核心架构图

    近年来,GPU除了进行图形渲染的本职工作之外,开始越来越多地涉足非图形计算领域,比如科学计算、媒体编码、数据分析等。NVIDIA甚至专门发布GPGPU的新品牌——Telsa,而且为GPU开发了全新的CUDA语言,为GPU的通用化提供了简单易用的新平台。

    两年时间过去了,虽然G80能够很好的胜任并行数据计算的需要,但NVIDIA发现图形架构还有继续改进的余地,只要在核心内部设计全新的控制模块,并对微架构进行专门的优化,就能将GPU的图形架构改造成更加适合非图形领域的并行数据处理架构。

{imageTitle}

    通过核心架构图可以看到,GTX200总共拥有十个流处理器阵列,每个阵列内部拥有8×3=24个流处理器,其中每8个为一组构成SIMT(单指令多任务架构),并共享16K指令缓存,三组SIMT共享一级缓存。这样的标量流处理器设计适合执行高度并行化指令,无论对于传统的图形渲染,还是物理加速运算、大规模数据处理都游刃有余。

    因此,第二代统一渲染架构的主要含义,就是将图形处理架构和并行计算架构完美的结合起来,成为一颗真正意义上的通用处理器,超越图形处理器的概念!

第二章/第三节 G80革命性的标量流处理器架构解析

    统一渲染架构让以往的像素管线和顶点管线成为历史,取而代之的是全新的流处理器,从而让着色单元不再区分渲染对象,提高了晶体管利用率和执行效率。目前NVIDIA和AMD的GPU都采用了统一渲染架构,但在双方的渲染单元的微架构设计却截然不同,下面就做对比分析。

● 传统SIMD(单指令多数据)架构GPU的弊端

    在图形处理中,最常见的像素都是由RGB(红黄蓝)三种颜色构成的,加上它们共有的信息说明(Alpha),总共是4个通道。而顶点数据一般是由XYZW四个坐标构成,这样也是4个通道。在3D图形进行渲染时,其实就是改变RGBA四个通道或者XYZW四个坐标的数值。为了一次性处理1个完整的像素渲染或几何转换,GPU的像素着色单元和顶点着色单元从一开始就被设计成为同时具备4次运算能力的运算器(ALU)。

完美DX10!ATI新王者HD2900XT权威评测

    数据的基本单元是Scalar(标量),就是指一个单独的值,GPU的ALU进行一次这种变量操作,被称做1D标量。由于传统GPU的ALU在一个时钟周期可以同时执行4次这样的并行运算,所以ALU的操作被称做4D Vector(矢量)操作。一个矢量就是N个标量,一般来说绝大多数图形指令中N=4。所以,GPU的ALU指令发射端只有一个,但却可以同时运算4个通道的数据,这就是SIMD(Single Instruction Multiple Data,单指令多数据流)架构。

    显然,SIMD架构能够有效提升GPU的矢量处理性能,由于VS和PS的绝大部分运算都是4D Vector,它只需要一个指令端口就能在单周期内完成4倍运算量,效率达到100%。但是4D SIMD架构一旦遇到1D标量指令时,效率就会下降到原来的1/4,3/4的模块被完全浪费。为了缓解这个问题,ATI和NVIDIA在进入DX9时代后相继采用混合型设计,比如R300就采用了3D+1D的架构,允许Co-issue操作(矢量指令和标量指令可以并行执行),NV40以后的GPU支持2D+2D和3D+1D两种模式,虽然很大程度上缓解了标量指令执行效率低下的问题,但依然无法最大限度的发挥ALU运算能力,尤其是一旦遇上分支预测的情况,SIMD在矢量处理方面高效能的优势将会被损失殆尽。

● G80革命性的MIMD(多指令多数据)架构解析

    而G80打破了这种传统设计,NVIDIA的科学家对图形指令结构进行了深入研究,它们发现标量数据流所占比例正在逐年提升,如果渲染单元还是坚持SIMD设计会让效率下降。为此NVIDIA在G80中做出大胆变革:流处理器不再针对矢量设计,而是统统改成了标量ALU单元。

07图形奥德赛!G92核心8800GT权威评测
G80有8组阵列,每组阵列包含16个流处理器和8个纹理单元

    如此一来,对于依然占据主流的4D矢量操作来说,G80需要让1个流处理器在4个周期内才能完成,或者是调动4个流处理器在1个周期内完成,那么G80的执行效率岂不是很低?没错,所以NVIDIA大幅提升了流处理器工作频率(核心频率的两倍以上),扩充了流处理器的规模(128个),这样G80的128个标量流处理器的运算能力就基本相当于传统的64个(128×2?)4D矢量ALU。

    当然这只是在处理4D指令时的情形,随着图形画面越来越复杂,1D、2D、3D指令所占比例正在逐年增多,而G80在遇到这种指令时可说是如鱼得水,与4D一样不会有任何效能损失,指令转换效率高并且对指令的适应性非常好,这样G80就将GPU Shader执行效率提升到了新的境界!

    与传统的SIMD架构不同,G80这种超标量流处理器被称为MIMD(Multiple Instruction Multiple Data,多指令多数据流)架构。G80的架构听起来很完美,但也存在不可忽视的缺点:根据前面的分析可以得知,4个1D标量ALU和1个4D矢量ALU的理论运算能力是相当的,但是前者需要4个指令发射端和4个控制单元,而后者只需要1个,如此一来MIMD架构所占用的晶体管数将远大于SIMD架构!

    G80的128个1D标量ALU听起来规模很庞大,而且将4D矢量指令转换为4个1D标量指令时的效率也能达到100%,但实际上如果用相同的晶体管规模,可以设计出更加庞大的ALU运算器,这就是R600统一渲染单元的架构。

● R600超标量SIMD架构的优缺点

    R600核心还是采用了传统的SIMD架构,核心拥有64个Shader Units(又称Stream Processing Units),但它又在传统Shader基础上进行了该进,每个Shader内部包含了5个超标量ALU,因此AMD声称R600核心拥有64×5=320个流处理器。

完美DX10!ATI新王者HD2900XT权威评测
R6XX采用了5D着色单元架构

    R600和G80的晶体管数是差不多的,通过前面的分析我们可以知道,G80的128个标量流处理器的理论运算能力就基本相当于传统的64个(128×2?)4D矢量ALU,而R600本身就拥有64个5D矢量ALU,再加上工艺和显存带宽优势,理论上R600应该比G80强很多才对,但实际情况恰好相反!

    经过实际测试证明,拥有320个流处理器(即64个5D矢量ALU)的RV670核心,其游戏性能居然只能与64个流处理器(折算32个4D矢量ALU)的G94核心打成平手。由此就应验了一个古语:兵贵在精而不在多,无论GPU还是CPU,架构的执行效率永远是排在第一位的,核心频率和核心数量只能作为辅助,无法起到决定性作用。

● 小结:GF8/9完胜HD2000/3000的奥秘

    HD2000/3000系列使用了“超标量”架构的5D着色单元,虽然流处理器数量要远大于GF8/9系,而且晶体管开销更少,但在不同游戏中的性能表现反差很大,总体来看执行效率不如人意,对于驱动程序的依赖性非常严重。

    GF8/9能够在较少晶体管、较低频率、陈旧工艺等诸多不利局面下完胜HD2000/3000,靠的就是全新架构标量流处理器超高的执行效率!

    GTX200核心就是在G80基础上改进而来的,它继承了G80高频、高效能的标量架构流处理器,并扩充了规模、增强了功能,接下来就开始研究GTX200的核心架构。

    前面之所以介绍这么多关于G80和G92图形架构方面的内容,是因为GT200的核心架构源自于G80,但这次NVIDIA对架构进行了大刀阔斧的改良,将GPU的作用进一步拓展,使它在保证更高效图形性能的同时,还能够胜任未来的一系列非图形数据处理。

第二章/第四节 GTX200芯片透视图、架构图、规格总表

● GTX200芯片照片及模块分布图

{imageTitle}

● GTX200核心架构图:并行计算架构和图形处理架构的统一体

{imageTitle}

● GTX280和GTX260显卡规格表

{imageTitle}

    接下来就对GTX200核心的各个模块和技术参数进行全面讲解,如果有不太理解的地方,可以回过头来参照本页的图表。

第二章/第五节 GTX200核心大幅扩充流处理器

    首先来看看GTX200核心的细节部分,和上代的G80/G92相比,几乎所有的微架构都作了调整,并大幅扩充规模:

{imageTitle}

    G80/G92拥有128个流处理器,这些流处理器分为8组TPC(线程处理器簇),每组16个SP(流处理器),这16个SP又分为两组SM(多核流处理器),SM是不可拆分的最小单元,是8核心设计。因此G8X系列规格最低的显卡就是8个流处理器的8400GS和8400M G(笔记本显卡)。

{imageTitle}

    GTX200将TPC数量从8个扩充至10个,而且在每个TPC内部,SM从2个增加到3个,SM依然是8核心设计。如此一来,GTX200核心的流处理器数量就是,8×3×10=240个,几乎是G80的两倍!

    纹理单元部分,GTX200的每个TPC内部拥有8个TF,这样总共就是8×10=80个纹理单元。这里GTX200的纹理过滤单元和定址单元的数量是相等的,而G80的纹理定址单元只有纹理过滤单元的一半(事实上G92核心中TA和TF数量就相等了)。

● GTX200核心微架构改进

    GTX200核心在流处理器、纹理单元数量上的扩充是很容易理解的,其实除了扩充规模之外,在架构的细微之处还有不少的改进,这些都有助于提高新核心在未来游戏或通用计算中的执行效能:

1. 每个SM可执行线程上限提升:G80/G92核心每个SM(即不可拆分的8核心流处理器)最多可执行768条线程,而GTX200核心的每个SM提升至1024条,而且GTX200拥有更多的SM,芯片实力达到原来的2.5倍!

{imageTitle}

2. 每个SM的指令寄存器翻倍:GTX200与G80核心在SM结构上基本相同的,但功能有所提升,在执行线程数增多的同时,NVIDIA还将每个SM中间的Local Memory容量翻倍(从16K到32K)。Local Memory用于存储SM即将执行的上千条指令,容量增大意味着可以存储更多的指令、超长的指令、或是各种复杂的混合式指令,这对于提高SM的执行效能大有裨益。

{imageTitle}
双倍寄存器的优势:代表DX10性能的3DMarkVantage得分直接提升15%

    当前和未来的DX10游戏,越来越多的使用复杂的混合式Shader指令,一旦排队中的超长指令溢出或者在N个周期内都排不上队,那么就会造成效率下降的情况,此时双倍寄存器容量的优势就体现出来了。由于Local Memory并不会消耗太多晶体管,因此将其容量翻倍是很合算的。

第二章/第六节 GTX200核心不惜成本启用512Bit显存

    无论CPU还是GPU,在核心处理能力大幅增强的同时,对于外部总线的带宽也提出了更高要求,512Bit显存控制器被启用。

● AMD的512Bit环形总线显存控制器

    首颗使用512Bit显存的GPU是AMD的R600,可惜这颗GPU的效能太差,根本用不到512Bit显存的海量带宽,通过其后续产品RV670核心的性能来看,512Bit相对256Bit的优势微乎其微,以至于AMD在下一代GPU中都放弃使用512Bit设计。

完美DX10!ATI新王者HD2900XT权威评测
R600的内部1024Bit、外部512Bit环形总线架构

    AMD使用的是环形总线(Ring Bus),显存控制器并不会直接从显存颗粒中读写数据,而是只把数据放在环形总线之中,然后程序自行通过环站取回所需数据包,从而减轻控制器复杂度和压力。但这种结构会使单个的存取操作的延迟变大,但总体来说能够提高大规模数据读取的命中率。

    环形总线有很多优势,位宽扩充相对容易、PCB布线相对容易、显存频率可以轻松达到很高,但却又不得不面对延迟增加和效率降低的问题,位宽越大效率就越低,至少我们没有在R600身上看出512Bit环形总线能比256Bit强多少。

● NVIDIA的512Bit交叉总线显存控制器

    NVIDIA方面,大家都知道G92核心未能超越G80,原因主要就出在显存位宽上面,G92虽然拥有更高的频率、更强的纹理单元,但是256Bit无论如何都无法超越384Bit,9800GTX只是勉强接近于8800GTX的性能,高带宽在DX10游戏和开高倍AA的情况下有着决定性作用!

完美DX10!ATI新王者HD2900XT权威评测
G80的6个ROPs和6个64Bit显存控制器

    而NVIDIA则是沿用了传统的交叉式总线(Crossbar),每组显存控制器都与光栅单元(ROP)和纹理缓存(L2)绑定,从G70到G80增加了两个64Bit控制器,这就构成了64×6=384Bit位宽。

{imageTitle}
GTX200核心的8个ROPs和8个64Bit显存控制器

    现在从G80到GTX200,NVIDIA又增添了2个64Bit控制器,这就组成了64×8=512Bit位宽。Crossbar相比RingBus的优势就是数据存取延迟低,但是遇到大规模数据传输时,为了提高命中率就必须把控制器设计的相当复杂,由此导致晶体管开销很大:

{imageTitle}
显存控制器在GTX200核心中所占据的芯片面积仅次于流处理器

    NVIDIA从G70的256Bit、到G80的384Bit、再到GTX200的512Bit,是一个循序渐进的过程,位宽越高设计难度和晶体管开销就越大,因此必须权衡付出的成本代价及性能收益、根据现有的制作工艺来决定是否使用512Bit控制器。

    现在随着DX10游戏对带宽的要求日益苛刻,高位宽所获得的性能提升也很显著,因此在新一代GPU设计时,NVIDIA不惜成本启用了512Bit显存控制器,用以消除性能瓶颈。

    数量和规格上的扩充是一目了然的,不过GTX200核心不止是堆积晶体管和扩充规模而已,在一些技术细节部分,GTX200的改进也很明显。

第二章/第七节 GTX200图形架构细节方面的改进

    为了能够更加胜任于未来的DX10游戏,NVIDIA针对图形渲染的三大重要环节进行了改良:几何着色、纹理单元和光栅单元。

● 改进几何着色性能

    几何着色(Geometry Shader)是DX10的新增的着色器,它允许GPU来动态的生成和销毁几何图元数据,通过和新的数据流输出功能配合使用,许多以前无法实时使用的算法现在都可以在GPU中使用了。相比以往由CPU来处理简单的几何坐标变换,现在DX10渲染的效能增加不少(相同画质下DX10的效率高与DX9C),而且图形变换也可以做的更加复杂。

    G8X相对于R6XX系列有着绝对的性能优势,但是它有个致命的缺点就是几何着色效能一般,这也成为ATI攻击NVIDIA的重要把柄,记得当时ATI在其内部演示PPT中指出,R600的理论几何着色性能可达G80的好几倍!

{imageTitle}

    由于第一批DX10游戏对于几何着色的使用还不够广泛,因此G8X的弱点并没有体现出来,不过NVIDIA官方还是承认自己在几何着色方面确实不如ATI做的好。通过Rightmark 3D理论测试可以看出,HD3870的几何着色性能就要比8800GTX强不少,HD3870X2则更加强大。

    在GTX200核心中,NVIDIA主要通过改进数据流输出(Stream Output)及帧缓冲(Frame Buffer Memory)的方式,有效地提高了几何着色器的效能。数据流输出也是DX10新增的特性,它允许数据从顶点着色器或几何着色器中直接被传入帧缓冲,这种输出可以被传回渲染流水线重新处理,当几何着色器与数据流输出结合使用时,GPU不仅可以处理新的图形算法,还可以提高一般运算和物理运算的效率。GTX200的帧缓冲达到了G80的6倍之多,由此可以允许更多的数据往返于着色器之间,避免重复性的数据处理,提升执行效能。

● 纹理单元进一步增强,但所占比率下降

    G92核心总共拥有64个TA和64个TF(G80是32TA、64TF),而GTX200拥有80个TA和80个TF,数量上的增加只是表象,实际上最关键之处就是流处理器与纹理单元的比率:

{imageTitle}

    G92与GTX200核心每个TPC拥有的纹理单元数目相同,但每个TPC所包括的流处理器数量增加了50%,如此一来流处理器与纹理单元的比率直接从2:1上升至3:1。这与ATI前两年所鼓吹的“3:1架构”不谋而合,虽然两家产品的架构相差十万八千里,但针对游戏的渲染模式作出调整的方针是一致的。

    虽然纹理单元比例下降了,但GTX200核心的每个纹理单元的效能却增加了,通过优化指令执行的调度机制,在实际游戏中打开高倍各向异性纹理过滤时,GTX200的效率要比G9X高22%左右。

● 光栅单元规模增大,高倍抗锯齿成为可能

    G8X/G9X的ROP单元可以说是革命性的,它首次对8xMSAA(多重采样抗锯齿)提供支持,当然还支持最高精度的SSAA(超级采样抗锯齿)和TSAA(透明抗锯齿),此外NVIDIA独创的CSAA(覆盖采样抗锯齿)让人眼前一亮,它能够以接近4xMSAA效能实现8xCSAA甚至16xCSAA的精度,让游戏画质得到了近乎免费的提升。

皆大欢喜!5大高端卡决战[英雄连]DX10
失落星球、冲突世界、英雄连等许多游戏都直接支持高倍CSAA

    近两年时间过去了,现在我们可以发现绝大多数新出的游戏(尤其是DX10游戏)都内置了对CSAA技术的支持,玩家可以在普通MSAA的基础上选择性能损失很小、但精度提升很大的CSAA。相比之下对手ATI所倡导的CFAA(可编程过滤抗锯齿)由于自身问题(边缘模糊)几乎被玩家所无视,也没有任何游戏对CFAA提供内置支持。

    不过G8X/G9X存在的问题就是8xMSAA的效率不高,在8xMSAA基础上衍生出来的两种CSAA(8xQAA和16xQAA)效率自然更差,在很多复杂游戏中几乎没有实用性。为此在GTX200这一代GPU中,NVIDIA将ROP规模从24个扩充至32个,单个ROP在执行8xMSAA Z轴取样操作时的速度可达上代的两倍,由此使得高倍AA的效能得到了明显改善,加之显存容量的带宽增加不少,现在的旗舰显卡可以在很多主流DX10游戏中开启8xMSAA(或8xQAA、16xQAA)流畅运行!

第二章/第八节 GTX200并行计算架构方面的改进

● 提高双指令执行(Dual-Issue)效率

    在每个SM(多核流处理器)内部,除了包括8个流处理器之外,还有包括1个SFU(Special Function Unit,特殊功能单元),这个处理单元可以用来辅助SP处理特殊的函数运算、插值属性的顶点+像素着色、执行浮点乘法运算指令(MUL)。

    GTX200核心的每个流处理器都能够单独的执行一条乘加指令(Multiplu-Add,也就是同时执行一条乘法和一条加法指令),与此同时SFU还能够在相同的时钟周期执行另外一条乘法指令,相当于每个流处理器都能同时执行3条指令!

    如此一来,GTX200的浮点运算能力计算公式为:流处理器数×指令数×频率=240×3×1296=933GFLOPS。我们知道,G80/G92刚发布时并不支持Dual-Issue,所以其浮点运算能力仅为128×2×1350=346GFLOPS,后来NVIDIA为其追加了Dual-Issue支持,理论浮点运算能力就达到了518GFLOPS。

    不过Dual-Issue对于3D游戏的贡献非常微小,只是在特殊条件下比如通用计算时才会有显著的改善。此次NVIDIA将GTX200核心设计成为图形渲染架构和并行计算架构的统一体,对于Dual-Issue的效率进一步优化,达到了93%-94%之高,这样的双指令执行效率可以让GTX200的实际性能无限接近于理论值!

● 支持双精度64Bit浮点运算

    IEEE754标准硬性要求支持单精度32Bit浮点,双精度64Bit浮点也是标准之一但只是可选,但双精度64Bit浮点运算正是高精度科学计算(如工程分析、财政计算、计算机模拟)梦寐以求的功能。GTX200提供了对双精度的支持,显然更有利于进军通用计算领域,向传统集群式CPU超级计算机发起挑战!

{imageTitle}

{imageTitle}

    GTX200核心的每一个SM都包括了一个双精度64Bit浮点运算单元,这样GTX200就相当于一个30核心的双精度64Bit处理器,但GPU的频率要比CPU低很多,因此GTX200的理论64Bit浮点运算能力大概与Intel优异八核心至强处理器相当。

    双精度的运算量是单精度的八倍,因此理论浮点运算能力只有原来的1/8,GTX280的双精度64Bit浮点运算能力大概在90GFLOPS左右。

第二章/第九节 GTX200核心支持业界非常先进的功耗控制技术

    N卡从不片面追求高频率,即便工艺上较为落后,但功耗控制一直都做得不错,比如7900GTX的功耗远低于X1900XTX,8800GTX的功耗低于HD2900XT,8600GT稍低于HD2600XT/HD3650,8800GT和9600GT稍低于HD3870(以上均指满负载功耗,即TDP)。

● AMD率先支持GPU芯片级节能技术:

性能不是唯一!RV670散热超频功耗测试
HD3870的待机功耗比86GT/26XT还低!

    不过,在最新的HD3000系列显卡中,AMD首次将笔记本显卡节能技术PowerPlay植入了台式GPU中,使得A卡的在空闲、低负载模式下的功耗大幅降低。虽然PowerPlay技术对于3D满负载模式下的功耗无能为力,但毕竟电脑并不总是处在游戏状态,节能技术对于绝大多数用户来说都非常实用,而且也符合绿色环保的概念,因此A卡备受好评。

● NVIDIA另辟蹊径,Hybrid Power将显卡功耗降为零:

    其实N卡也有自己的节能技术,那就是具有革命意义的Hybrid Power,通过使用nForce 780a/750a等芯片组内部的集成显卡,Hybrid Power能够在2D模式下彻底关闭独立显卡,将显卡的功耗直接降为零!而在3D游戏模式时,可以在短时间内恢复显卡,不用重新启动系统就能进入全速3D状态。

显卡功耗降为零!780a芯片组深度测试
9800GTX搭配780a SLI芯片组,开启Hybrid Power后的功耗相当于没插显卡

    虽然具有革命意义的Hybrid Power技术非常强大,但它的局限性也很明显:仅支持9800GX2和9800GTX这两款高端显卡,仅支持NVIDIA的新一代AMD平台芯片组,暂时无法使用在Intel平台,这对于追求高性能的玩家来说,确实是个遗憾。

● GTX200加入芯片级节能技术,待机功耗仅25W!

    新一代GTX200系列显卡自然能够支持Hybrid Power节能技术,除此之外,NVIDIA还在芯片设计之初就考虑到了节能的需要,加入了类似于PowerPlay的笔记本显卡节能技术,大幅降低了显卡在中低负载模式下的功耗。

{imageTitle}

    不管CPU还是GPU,芯片级节能技术的原理其实都差不多,主要方式有:降低频率、降低芯片电压、动态关闭闲置的功能模块、使部分晶体管处在深度休眠状态等。

    和AMD的PowerPlay技术相比,NVIDIA GTX200的节能技术更加智能,它并不存在固定的2D/3D频率,而是由GPU根据3D负载自行判定,频率可以在较大的范围内无极变速,即便是在3D模式下也能关闭部分模块,从而做到物尽其用,将浪费减至最低。

    通过NVIDIA官方公布的数据来看,8800Ultra的待机功耗高达60W,而GTX280待机功耗只有25W,甚至比中端主流9600GT/8600GTS的待机功耗还要低!要知道GTX200是一颗拥有14亿晶体管的怪兽核心,其功耗控制如此完美,令人叹为观止!

● GTX280显卡在四种典型工作模式下的功耗:

  • Hybrid Power模式:0W
  • 2D/待机模式:25W
  • 高清硬解码模式:35W
  • 3D游戏模式:236W(TDP,峰值)

    当然,GTX280显卡的TDP还是非常恐怖的,比225W的HD2900XT还要高,不过考虑到GTX280极其强悍的性能,为此付出236W的代价也是值得的。NVIDIA表示,虽然GTX280的设计功耗再创新高,但显卡的每瓦性能也超过了所有前辈,达到了预期的效果。

第三章 CUDA:开创GPU明日帝国

    经过多年成倍式增长,GPU的性能已经达到了可观的高度,但是显卡却总在玩游戏的时候才被大家想起,难道这么强大的计算能力仅仅是为了满足游戏玩家?显然,GPU已经不满足应用领域的狭隘,利用自身强大的计算能力向传统电脑的核心CPU提出了挑战!

第三章/第一节 “并行计算”相对“串行计算”的优势

    这里我们先要提提一些基本的计算机计算概念,比如说“串行计算”和“并行计算”。串行计算是指在单个中央处理器单元上对数据进行处理,并行计算是相对于串行计算来说的,其在时间和空间上都比串行计算效率更高,时间上的并行就是指流水线技术,而空间上的并行则是指用多个处理器并发的执行计算。

{imageTitle}

    CPU就是串行计算的代表,当然我们也看到其向并行计算发展的趋势,比如目前的双核、四核CPU。但是如果我们把这个概念放到GPU身上,会有惊人的发现:“核”数已经不再停留在个位,中低端的8600GT已经具备32个流处理器,而高端的9800GTX拥有128个,最新的优异旗舰GTX280则达到了恐怖的240个!

    从规格上看GPU拥有比CPU更强的计算实力,虽然GPU不可能全面取代CPU的功能,但和早期的3D计算需要大量CPU辅助一样,GPU可以在众多的应用中发挥出远非CPU所能及的性能。

{imageTitle}

    2007年6月20日,NVIDIA发布了专为科学计算而生的Tesla,用GPU展现了个人超级计算的新纪元。应用于地球科学、分子生物学和医学诊断领域的高性能计算为实现重大的发现提供了可能,这些发现可能会改变数十亿人的生活。

第三章/第二节 CUDA:一个以GPU为中心的运算平台

    Tesla只是NVIDIA的触角伸出传统GPU应用领域的开始,NVIDIA的野心是要打造一个以GPU为中心的运算平台——CUDA!这是Compute Unified Device Architecture的简称,也是NVIDIA树立的一个新的行业标准和未来趋势。

{imageTitle}

    实际上,早在两年前发布G80系列显卡时,NVIDIA就已经预告了CUDA的到来。CUDA是世界上第一个针对GPU的C语言开发环境,可以充分应用GPU上众多流处理单元强大的浮点运算能力,解决复杂的科学运算问题。该环境目前仅支持NVIDIA GeForce 8/9系列显卡以及相应的Quadro专业显卡。根据NVIDIA的测试,GeForce 8800显卡在CUDA架构中的峰值运算能力可达520GFlops,因此如果构建SLI双卡系统,可以达到1TFlops,即每秒运算1万亿次的强大运算能力。

{imageTitle}

    CUDA要承担的任务是让显卡可以用于图像计算以外的目的,它是一个完整的GPGPU解决方案,采用C语言作为编程语言来使用GPU强大的硬件资源。C语言目前是大学的必修课程,已经国际上普及程度最高的计算机编程语言,所以CUDA大大降低了GPU应用的门槛,大家都可以用C语言写出在显示芯片上执行的程序,而不需要去学习特定的显示芯片的指令或是特殊的结构。

    使用GPU而不使用CPU从事科学计算的原因除了GPU在性能表现上更有优势外,还不能忽略GPU相对CPU低廉的价格。和高端的CPU售价比起来,GPU简直太便宜了,目前9600GT只要八百元,更高的8800GT也才一千元出头,而一颗入门的四核CPU就要上千元。

{imageTitle}

    目前GPU已经是足够强大的可编程处理器,非常适合大运算量的科学应用,诸如地质勘探,生物学,流体力学,金融建模等等。通过CUDA技术,所有开发人员都能够使用标准的C语言,挖掘NVIDIA GPU中多个处理单元强大的并行计算能力。

第三章/第三节 CUDA实际应用举例

● 视频编码应用:比CPU快18倍

    如今大家的手机普遍支持视频播放,但是视频却需要从电脑上进行重新编码以便让视频的分辨率和码率达到手机或则移动播放设备所支持的要求。高端用户也面临类似的问题,许多高清视频也需要经过压制成为DVDrip或则Rmvb以适合不同需要的人群。

{imageTitle}

    传统的视频编码软件完全依赖CPU的计算能力,即便换上相当不错的高端CPU,一部高清视频重新编码所需要的时间往往数倍与视频本身的播放时间,这让用户苦不堪言。现在基于CUDA开发出的GPU视频编码工具却能将“压片”效率提升接近20倍!

{imageTitle}

    使用主频1.6GHz的双核CPU配合集成显卡压制一部两小时长的高清视频需要10小时22分,如果换用主频高达3GHz四核CPU可以将市价缩短到5小时33分。有了基于CUDA开发的GPU编码程序,1.6GHz的双核CPU配合9600GT显卡只需要49分钟即可完成编码,搭配上旗舰显卡GTX280则仅需要35分钟。

● 期货风险控制系统:性价比提升9倍

{imageTitle}

    通过大型计算机系统控制期货交易中的实时风险,有人工控制和事后控制所不具备的优势。Hanweck联手Volera对在实时应用中的整个美国期货买卖风险进行评估,分别使用GPU和CPU搭建计算能力相同服务器系统,最终GPU使用了12颗,而CPU使用了600颗。使用600颗CPU的服务器占用了使用12颗GPU服务器的九倍空间!整套装置花费成本达到了GPU服务器的六倍!而维护和使用CPU服务器一年的开销高达同计算能力GPU服务器的九倍!

● 医疗行业应用:CT立体化且提速20倍

    CT是一种功能齐全的病情探测仪器,它根据人体不同组织对X线的吸收与透过率的不同,应用灵敏度极高的仪器对人体进行测量,然后将测量所获取的数据输入电子计算机,电子计算机对数据进行处理后,就可摄下人体被检查部位的断面或立体的图像,发现体内任何部位的细小病变。

{imageTitle}

    使用CUDA开发的软件,让GPU代替CPU去处理数据,可以得到和以往的2D成像不一样体验的3D图片。GPU的超强计算能力使得处理器数量无需太多,可以让计算机的体积大大减小,原先大量的CPU才能完成的计算量,四颗GPU就足矣,且速度还要快上20倍。

● 地理信息系统应用:速度提升可达50倍

    地理信息系统(Geographic Information System,GIS)是在计算机硬、软件系统支持下,对整个或部分空间中的有关地理分布数据进行采集、储存、管理、运算、分析、显示和描述的技术系统。

{imageTitle}

    使用基于CUDA开发的软件配合CPU使用效果远胜传统的CPU运算,速度可以提升10-50倍,科学家可以更为快捷及时的掌握环境数据,无论是资源管理还是灾害预防都会更为快速有效。

● 生命科学研究:等待时间缩短12倍

{imageTitle}

    美国国家癌症研究所的测试表明,使用CUDA编写的程序配合GPU运算,使他们以前的等待计算机得出结果的时间由原来的2小时缩短熬了10分钟,效率提升达12倍。科学家们表示,更快的计算速度有助于他们加快新药物的开发,诸如治疗癌症、阿尔茨海默氏症,艾滋病毒感染、疟疾等。

● CAD设计:实时服装物理效果

    传统的CAD设计虽然能画出漂亮的时装,但如果不生产出样品通过真人试穿就无法了解到整体效果。这就需要繁琐的工序,以及相应人力物力的投入。

{imageTitle}

    现在可以通过CUDA编写的CAD程序让计算能力强大的GPU去模拟整个试衣过程,衣物的材质和光泽都可以完全拟真,并且实时演算出衣服在各种人体动作后的物理效果,包括光线变化、褶皱、形变等。这让以往的设计软件望尘莫及,使CAD设计者更有效率。当然,一切的关键还是靠CUDA开发出的软件配合GPU。

● MATLAB仿真:加速17倍

    在国内也被称作《矩阵实验室》的Matlab以其强大的矩阵计算以及仿真能力成为科研人员的必备工具。目前已经有CUDA开发出来的Matlab插件可以调动GPU对软件进行加速。

{imageTitle}

    在用其进行基于伪谱方法的均匀各向同性湍流直接数值模拟测试中,分别使用Core2 Duo 2.4GHz和8800GTX去进行数值分析,从同一时间成像截图上可以明显看出GPU的优势,CPU成像速度比CPU快了17倍。

第三章/第四节 高性能计算GPU更具实力

    谈到GPU高性能计算,有两个问题不得不谈:GPU的先天优势和后天的发展。

    先天优势上,GPU与CPU拥有不同的核心架构,CPU的架构是有利于X86指令集的串行架构,CPU从设计思路上适合尽可能快的完成一个任务;对于GPU来说,它的任务是在屏幕上合成显示数百万个像素的图像——也就是同时拥有几百万个任务需要并行处理,因此GPU被设计成可并行处理很多任务,而不是像CPU那样完成单任务。目前CPU市场已经推出了双核、三核甚至四核的产品,但是CPU的多核心概念并没有从架构上进行调整,也许可以说是同时处理两件、三件也可能是四件事情,但不是并行处理成百上千的任务。而NVIDIA公司推出GTX280已经拥有了240个流处理器,相当于240核心,其峰值处理能力超过现在最昂贵的CPU十倍以上。

    后天的发展上,之前的科学家也在积极地考虑发挥GPU的高度并行优势,单之前的应用主要基于OpenGL的API上,对开发人员的门槛比较高,随着NVIDIA公司发布了其CUDA(计算标准设备架构)后,GPU进行高性能科学计算的优势显露无疑。CUDA是采用基于C语言的方式,将CPU的串行计算与GPU的并行计算优势相结合,程序开发人员在不需要调整工作习惯的前提下就可以切换到新的平台上,大大提升工作效率。我们可以想见,在不久的将来,以CUDA为代表的异构计算必将成为大规模科学运算的主角。

{imageTitle}

    “视觉就是计算机”,如同NVIDIA公司创始人兼首席执行官黄仁勋所言:“无论是对普通消费者,还是专业细分市场,GPU对于当前计算机体验的核心作用正在日益显现。当然,这只是下一个传奇的开始。”

第四章 物理加速修成正果,真正走向成熟

    从GeForce 7/X1000系列开始,GPU物理加速就成为了两大芯片厂商的口头禅,双方隔三差五的通过小Demo或者小视频来展示GPU处理物理运算能有多么强大。但是直到今天,还没有哪款游戏大量使用GPU进行物理运算,只有一部分游戏游戏使用了CPU或者物理加速卡进行物理加速。

    现在,NVIDIA收购了Ageia(物理加速卡生产厂商),而且有了强力的GPU编程平台——CUDA,物理加速开始走向正轨!

第四章/第一节 半路杀出来个Intel,NV/ATI的物理加速之梦破灭

    之前NVIDIA和ATI的GPU物理加速技术都是建立在一家名为Havol的物理引擎基础之上。NVIDIA在06年提出的SLI PhysX物理加速方案就是基于Havok最新的4.0引擎,它能够通过DirectX SDK调用GPU Shader模块处理物理运算。

物理加速卡修成正果!NVIDIA收购AGEIA

    Havok和Ageia是一对老冤家了,双方各提供了一套完整的3D图形物理加速解决方案,其中Havok倡导“软解”,就是充分利用多核心CPU的资源进行物理加速,由于软件支持到位因此Havok引擎率先得到了很多游戏及引擎的支持,大家应该可以在很多游戏的启动画面中看到Havok的Logo:

物理加速卡修成正果!NVIDIA收购AGEIA
NVIDIA曾宣布大力支持Havok物理引擎

    Havok并没有满足于目前的成就,除了CPU物理加速引擎之外,Havok还在研制GPU物理加速,并且和NVIDIA和ATI双方都保持的良好的合作关系。每当NVIDIA或ATI吹嘘自家的GPU物理加速有多么厉害的时候,我们总是可以发现那些演示Demo上都打着Havok的Logo,由此可见Havok在GPU物理加速这项技术中扮演的举足轻重的作用!

物理加速卡修成正果!NVIDIA收购AGEIA
ATI展示的GPU物理加速Demo,可以看到背景有Havok Logo

    正当GPU物理加速前途一片光明之时,谁也没有想到半路会杀出来一个程咬金——2007年9月Intel闪电收购Havok,使得GPU物理加速嘎然而止!正在大力推广四核CPU的Intel显然不会鼓吹GPU物理加速,即便Intel想要推广GPU物理加速,也要等到2009年以后自家独立显卡发布之时才有可能。这就使得NVIDIA和ATI犹如哑巴吃黄连、有苦说不出来。

    对于雄心勃勃想要进军独立显卡市场的Intel来说,收购Havok可谓是一举多得,既打击了对手NVIDIA和ATI,还壮大了自身的实力。因为业界都对物理技术产生了高度重视,物理加速将会成为继DX10之后的又一3D图形制高点。

第四章/第二节 被逼无奈,NVIDIA重金收购Ageia

    Havok被Intel吃了,但物理加速还得继续研究,于是NVIDIA将目光投入另一家物理引擎公司AGEIA。2008年2月4日,NVIDIA不惜重金收购AGEIA。明争暗斗多年的两家物理加速公司,在有了两大巨头撑腰之后,竞争将会愈演愈烈!

物理加速卡修成正果!NVIDIA收购AGEIA

物理加速卡修成正果!NVIDIA收购AGEIA

    Ageia公司的成名绝技就是PhysX物理加速卡以及PhysX物理加速引擎,它能够为3D画面提供逼真而又复杂的物理效果,该引擎目前已被140多款游戏所采用,由于PhysX已经拿下了知名度最高、且支持跨平台的《虚幻3》引擎,因此前途一片光明。除了PC游戏之外,PS3、XBOX360和Wii三大游戏主机上都有采用相关技术的游戏。目前,使用PhysX物理引擎SDK的开发者超过一万人。

物理加速卡修成正果!NVIDIA收购AGEIA
BFG和ASUS生产的Ageia PhysX物理加速卡

    许多人都是从物理加速卡接触Ageia这家公司的,其实硬件只不过是点缀,Ageia的物理引擎才是赖以生存的资本,采用PhysX引擎的游戏,即便没有物理加速卡的支持,也能够依靠CPU模拟出生动、逼真的物理效果,只不过是速度慢一些而已。插入物理加速卡之后,游戏物理效果的丰富程度以及流畅度都会大大改善。

物理加速卡修成正果!NVIDIA收购AGEIA
在深入人心的CPU和GPU之间,Ageia要横插一颗PPU进来,何其难也!

    但是,对于物理加速卡这种新生事物,势单力薄的Ageia凭一己之力很难影响整个产业,游戏玩家的接受程度普遍不高,再加上物理加速卡定价偏高,导致硬件难以普及。而且三大巨头Intel、AMD和NVIDIA都对Ageia的方案冷眼以对:Intel铁了心要搞CPU软件物理加速,不然谁买你的四核CPU?AMD/ATI和NVIDIA之前一直在和Ageia的死对头Havok合作,秘密研制GPU物理加速方案,并且初见成效,业界对于Ageia的处境都不看好。

    如此一来处境就很明朗了,孤掌难鸣的Ageia出路只有一条,那就是卖给实力更强的大公司。在Intel收购Havok之后,Ageia也在寻求强有力的靠山,最终Ageia加入了业绩蒸蒸日上、实力日渐雄厚的NVIDIA公司,“PhysX Now Avaibale in Green”这条加入绿色军团的标语也有着更深层次的含义……

    由于CPU物理加速已经走向成熟、且多核CPU过剩的性能正好可以用来进行小规模物理加速;而GPU物理加速前景广阔,新一代架构的GPU拥有远超CPU和PPU的恐怖浮点运算能力,一旦软件成熟必将成为主流;所以PPU物理加速只能说是生不逢时。但在技术和引擎方面,Ageia的实力是毋庸置疑的,NVIDIA正是看中了这一点,才不惜重金收购Ageia!

物理加速卡修成正果!NVIDIA收购AGEIA   物理加速卡修成正果!NVIDIA收购AGEIA
Ageia PhysX PPU

    NVIDIA CEO黄仁勋如是说:“AGEIA团队是世界级的,他们拥有和我们同样的激情,创造最令人惊叹和最有魅力的游戏体验。通过创造世界上最深入人心的GPU和物理引擎品牌的强强联手,我们可以将GeForce加速的PhysX技术带给全世界数以百万计的游戏玩家。”

物理加速卡修成正果!NVIDIA收购AGEIA

    AGEIA创始人之一,CEO Manju Hegde则说:“NVIDIA对于我们是完美的选择,他们拥有世界上最好的并行计算技术,是GPU和游戏业界的领袖,我们有同样的创造激情,同样的文化,可以进一步推动消费体验。”

第四章/第三节 仅花一个月时间 NVIDIA使用CUDA完成PhysX移植工作

    很显然,NVIDIA收购Ageia并不是看中了它的硬件(PhysX物理加速卡),而是软件(PhysX物理引擎)。这套引擎的初级开发套件是免费的,因此被很多游戏开发者所使用,甚至国内就有一些游戏公司在使用PhysX引擎(如QQ飞车等游戏)。PhysX引擎庞大的用户群以及广泛的游戏支持,对于NVIDIA来说是一个致命诱惑!

{imageTitle}

    但PhysX引擎只支持CPU和PPU(即物理加速卡),GPU暂时还无法从中受益,也就是说GPU物理加速还只是个梦想而已,如何把它变成现实呢?

    Ageia被NVIDIA收购后,相关技术人员就立马开始投入到了新的研发项目中——重编译PhysX引擎,让它能够支持GPU物理加速。据NVIDIA表示,由于GPU和PPU在并行架构方面有许多共性,再加上CUDA平台的优势,编译工作相对来说要简单很多,NVIDIA和AGEIA只花了一个月时间就让PhysX引擎在GeForce显卡上跑了起来!

{imageTitle}

    而且,凭借NVIDIA在业内的影响力,在第一个月内,GeForce PhysX物理加速就进入了实际应用阶段,这是以前AGEIA做梦也难以想象的事情。可以想象,未来通过CUDA编写GPU物理加速程序将会变得十分简单,物理加速也将会得到大量采用。

{imageTitle}

    据NVIDIA表示,在GTX280发布后的一个月内,将会提供支持GPU物理加速的驱动下载,届时大部分采用PhysX引擎的游戏将会从中受益,GPU将会代替物理加速卡进行物理运算。

{imageTitle}

    现在,游戏玩家不必单独购买昂贵且功能单一的物理加速卡,就能通过NVIDIA显卡来进行物理加速。当然也可以采用多块显卡并联,既保证3D性能又获得真实的物理效果。通过上表的对比可以看出,GPU的物理性能是Intel四核处理器的10倍以上,如果对物理加速感兴趣的话,是购买中高端显卡划算呢?还是购买昂贵的四核CPU划算呢?

第五章 GeForce GTX 280/260显卡实物解析

    之前介绍了那么多有关GTX200核心架构和技术方面的东西,理论部分的内容确实比较抽象难懂,现在就从理论回归实际,详细解析基于GTX200核心的两款旗舰级显卡——GeForce GTX 280和GTX 260。

第五章/第一节 8800GTX真正的接班人:GTX280

● GTX280的外观、散热器酷似9800GTX

{imageTitle}

{imageTitle}   {imageTitle}

{imageTitle}   {imageTitle}
左:GTX280                         右:9800GTX

    第一眼看到GTX280显卡正面,感觉造型方面与9800GTX非常相似:全覆式的散热器外壳将显卡裹得严严实实,风扇位略显凹陷,这种设计的好处就是组建SLI或3路SLI时,即便两块显卡紧紧埃在一块,风扇也能吸入空气进行良好的散热。

GTX280的背面酷似9800GX2

{imageTitle}

{imageTitle}   {imageTitle}
左:GTX280                         右:9800GX2

    显卡背面也安装了外壳,从这个角度看的话跟双核心9800GX2的造型又有些相似,当然这只是表象而已,如果将散热器和外壳拆掉的话,就可以发现GTX280显卡实际上最像8800GTX/Ultra。

GTX280的PCB最像8800GTX

{imageTitle}

{imageTitle}   {imageTitle}
左:GTX280                         右:8800GTX

    可以看到,GTX280的核心安装了保护盖,输出部分被单独设计了一颗芯片安装在了接口附近,还有供电模快的设计,这些都与8800GTX/Ultra的PCB设计方案如出一辙!看来GTX280才是8800GTX的正统接班人!

第五章/第二节 65nm如何成就14亿晶体管的怪兽核心

    首先可以很清楚的看到,硕大的GTX280核心上被安装了一个保护盖,与G80采用了相同的设计,这就使得我们无法看清楚核心的硅片到底长什么样,不过输出接口附近那颗芯片倒是似曾相识。

65nm制造14亿晶体管又是一个奇迹

{imageTitle}

    GTX280核心代号为G200-300,拥有高达14亿个晶体管,台积电65nm工艺制造,目前已经是A2制程(当初8800GTX也是A2制程,8800Ultra升级到A3),不过我们拿到的这块还是早期的工程样品。

    想当初就连ATI内部人员都对NVIDIA表示惊叹:使用老旧的90nm制造出高达6.81亿晶体管的G80核心简直是奇迹!而现在奇迹再次上演,NVIDIA使用成熟的65nm工艺将晶体管数再次翻番,GTX200核心达到了恐怖的14亿个,令人叹为观止!

  • GTX200何不采用最新的55nm工艺?

    NVIDIA在新工艺的使用方面一直都十分谨慎(尤其是架构发生重大改变的一代),当然也可以说是保守,总之一直落后于竞争对手。新工艺确实有助于减少芯片面积、降低功耗/发热,但往往投产速度慢、产量有限。为了尽快给用户带来新产品,先发制人抢占市场,NVIDIA往往会采用当前成熟的工艺,而不是去冒险尝试新工艺。等到新工艺完全成熟之后,再推出改良版的核心,可以进一步提高频率、降低功耗、发热和成本。从G70到G71、G80到G92都是基于这种设计思路的产品,也就是本文前言中所提到的“架构年、工艺年”概念。

  • GTX200流处理器频率为何如此之低?

    GTX280显卡的默认核心频率为602MHz,流处理器频率仅1296MHz,甚至比当初8800GTX的流处理器频率(1350MHz)还要低,这就直接导致GTX280的浮点运算能力(933GFLOPS)未能突破1000大关,假如GTX280的流处理器频率为1400MHz的话,那么浮点运算能力正好就是1008GFLOPS!

    我们知道NVIDIA一直以来都在不断的提高流处理器频率(或者说是流处理器与核心频率的比率),此次GTX280的流处理器频率如此之低,笔者推测要么是在频率提升方面遇到了瓶颈,要么就是为了控制功耗发热的需要。

    当初8800GTX的A2版本G80核心默认频率为1350MHz,半年后8800Ultra的A3版本G80核心默认频率为1500MHz。这也就意味着未来GTX200核心还有不小的潜力,以后若推出改进的A3版核心、或者是启用55nm甚至更先进的工艺,那么性能将会再创新高!

NVIO二代输出芯片:分久必合,合久必分

    在8800GTX显卡上,NVIDIA首次将2D引擎与3D引擎分开,把GPU设计成了两颗芯片,其中一颗NVIO芯片就包含了RAMDAC和TMDS,专门负责图形输出。理论上来说,把输出部分和高频率的流处理器分开的话,有助于降低干扰,提升输出画质。

为王位而生 GeForce8800全面解析测试
8800GTX显卡上的NVIO一代芯片

    实际上,分离式设计也是受到了制造工艺的限制不得已而为之,我们知道G80的改进版——G92就没有NVIO芯片,因为65nm允许GPU容纳更多的晶体管,所以G92把NVIO整合在了芯片内部。显然,两颗芯片不但制造成本高,而且对显卡PCB和后期加工提出了更高要求,单芯片才是非常受欢迎的解决方案。

{imageTitle}
GTX280显卡上的NVIO二代芯片

    “话说天下大势,合久必分,分久必合。”在GTX200芯片上,NVIDIA又把输出模块分离了出来,这就是上图中的NVIO二代芯片。二代相比一代作的改进主要有:

  • 支持HDMI输出

  • 兼容DisplayPort输出

  • 支持10Bit色Dual-Link DVI输出(一代仅支持10Bit色模拟输出)

  • 支持PureVideo-HD,双流硬件解码加速

第五章/第三节 1GB 512Bit显存彻底消除瓶颈

    在本文第二章/第六节中介绍过,NVIDIA为了实现512Bit总线的确付出了不小的代价,GPU内部的显存控制器就需要消耗不少晶体管,现在就来看看外部的显存颗粒:

{imageTitle}

{imageTitle}

{imageTitle}   {imageTitle}
GTX280与HD2900XT的显存分布大体相同

    在显卡PCB正反两面的GPU周围,均布着多达16颗显存,这些显存的分布位置与HD2900XT基本相同,两款显卡都是512Bit,虽然内部控制器架构不同,但外部物理显存颗粒组成实际上是没有区别的。

{imageTitle}

    这次NVIDIA在旗舰显卡上使用了现代显存颗粒,编号为H5RS5223CFRN2C,是16M×32Bit 0.8ns规格,16颗正好组成1GB 512Bit的规格。

    令人纳闷的是,之前NVIDIA高端显卡一直都采用三星显存颗粒,8800Ultra和9800GTX使用的就是三星0.8ns GDDR3显存,默认显存频率分别为2160MHz和2200MHz。三星显存一直都以良好的稳定性和超频能力而著称,当然成本高于其他品牌。

    而此次GTX280破天荒使用现代0.8ns颗粒,而且默认频率达到了2214MHz,要知道颗粒越多就越难冲击高频率,看来现代最新出品的0.8ns GDDR3显存实力不可小视,毕竟在这种旗舰显卡上面是不会考虑成本因素的。

第五章/第四节 N卡史上最豪华的数字供电模块

    为了解决TDP高达236W的GTX280供电,NVIDIA不惜代价设计了非常复杂的供电模块,无论用料还是规模都超过以上任何一款N卡:

{imageTitle}

    上图就是GTX280显卡的供电模快,我们很容易数出来总共有9颗电感,也就是9相供电。在这9相供电中靠近供电接口部分的两相使用普通三洋固体聚合物电容,这两相专门给8Pin和6Pin外接电源的12V电流滤波,剩下的7相才是最关键的GPU/显存供电。

{imageTitle}

    GTX280采用了优异电源芯片厂商VOLTERRA的数字供电解决方案,主控芯片为VT1165MF,它下辖5颗VT1165SF芯片为GTX200核心提供5相供电。

{imageTitle}

    VT1165SF是内部整合了驱动芯片及传统多颗MOS管的高度集成芯片,也常被称为数字供电,这种整合芯片可以大大降低PCB面积占用,而且芯片自身的损耗非常小,其开关频率达到了1.5MHz,内部阻抗仅为1mΩ,所以整体转换效率可高达89.3%。由于VT1165SF开关频率超过了普通电解电容的忍耐,因此必须配套使用陶瓷电容。

    VT1165SF单颗最大可提供30A电流,5路并联就是150A。ATI在HD2900XT上使用的也是VOLTERRA VT1165MF主控芯片数字供电,并且搭配了PAULSE为数字供电定制的多胞胎并联电感,这样供电模快的集成度更高。由于GTX280分别使用了单独的电感,因此布局显得比较分散。

{imageTitle}

    剩下的两相供电就是显存的,它并没有电源主控芯片,因为这颗VT238AW的集成度更高,它将主控芯片、驱动IC电路和MOS管全部整合在了一起,因此看上去VT238AW比VT1165SF的芯片面积要更大一些。

    这次GTX280拥有1GB容量的显存,而且频率创下了GDDR3的新高,因此NVIDIA使用了两颗VT238AW芯片,分别为显卡正反两面共计16颗显存供电。每颗VT238AWF可提供30A电流,共计60A,单颗显存在超频时所需电流可能达1.5-2.0A以上,因此两相供电更加保险一些。

第五章/第五节 大家来找碴:GTX280和GTX260外观上有何异同?

    一颗核心不可能只有一款产品,对于全新的GT200核心来说,除了全规格的GeForce GTX 280之外,NVIDIA同期发布了规格稍加精简的GeForce GTX 260。GTX280与GTX260的外观设计极其相似,您能找出那些区别?

左:GTX280                       右:GTX260
{imageTitle}   {imageTitle}

{imageTitle}   {imageTitle}

{imageTitle}   {imageTitle}

    GTX260和GTX280的外观几乎完全相同,散热器和PCB都是相同规格的,只是Logo的颜色有所不同,GTX280是灰色GTX260是银白色。

{imageTitle}   {imageTitle}

{imageTitle}   {imageTitle}
左:GTX280                       右:GTX260

    GTX280和GTX260外观上最大的区别就在供电方面,GTX280的TDP高达236W因此使用了8+6Pin供电接口,而GTX260的TDP为183W使用双6Pin就够了。另外,GTX280在输出接口部分设计了一个LED小灯,如果玩家没接8Pin供电就会亮红灯,当然GTX260就无需这种设计了。

    单纯讨论外观其实没有意义,接下来就将GTX260显卡拆解,看看在PCB设计和做工方面与GTX280有何差别。

第五章/第六节 GeForce GTX 260精简了2颗显存和2相供电

GTX260的核心架构屏蔽示意图

    GTX260是GTX280的简化版,通过之前的规格介绍可以知道,GTX260的GPU内部被屏蔽了2组TPC(48个SP)和1组64Bit显存控制器(绑定的相关ROP和L2也被屏蔽),这样GTX260的规格就是192SP 896MB 448Bit:

{imageTitle}
GTX260核心架构屏蔽示意图

    对于GTX200这样超级复杂的芯片来说,出现瑕疵是在所难免的,由于流处理器和显存控制器所占芯片面积最大,很多坏芯片的问题就出在这两部分,只要屏蔽这些瑕疵模块的话就能变废为宝。这种屏蔽概念在CPU和GPU中屡见不鲜,实际上GTX280→GTX260的屏蔽方式与8800GTX→8800GTS的如出一辙,8800GTS也是被屏蔽掉了2组TPC外加1组64Bit显存控制器。

{imageTitle}

{imageTitle}   {imageTitle}

    拆开显卡后就可以看到,GTX260的核心代号是G200-100(GTX280是G200-300),NVIO2代芯片与GTX280相同,显存颗粒的规格也不变,同样是现代0.8ns GDDR3,只不过数量少了:

GTX260少了两颗显存、两相供电

{imageTitle}

{imageTitle}

    GTX260与GTX280的PCB设计完全相同,只是GTX260少了两颗显存,也就是128MB 64Bit的规格,这样GTX260就是896MB 448Bit的规格。

{imageTitle}

    由于核心频率和规格的下降,GTX260的TDP从236降至183W,核心供电模块的负担减小不少,就没必要使用原来那么豪华的供电模块了。通过上图可以看到GTX260的GPU供电部分有两相被空焊,而显存供电和控制芯片的供电保持不变。这样虽然核心供电仅剩3相,但数字供电还是能够提供充足的电流。

第五章/第七节 七彩虹GTX280/260,大陆独家供货充足

    七彩虹作为中国销量最大的显卡品牌,现已是NVIDIA较高级合作伙伴之一,此次七彩虹对新一代旗舰显卡投入了高度重视,产品发布准备充分。七彩虹在中国大陆的确独家货源充足,为广大发烧玩家提供第一时间尝鲜的机会。

七彩虹iGame280 CH版1GB

{imageTitle}

{imageTitle}

    GTX280隶属于七彩虹定位高端的iGame系列,自然可以选择参与“定制”显卡,此次七彩虹联合散热器大厂为GTX280定制了专用的水冷散热器,全覆式的水冷头能够轻松压制14亿晶体管的怪兽,更好的满足发烧友超频及静音的需要。

{imageTitle}
显卡附件也很有个性

七彩虹iGame260 CH版896MB

{imageTitle}

{imageTitle}

    除了以官方指导价格4999元购买GTX280、3999元购买GTX260之外,七彩虹还给老玩家们提供了免费试用GTX280和7折购买GTX280的机会(各有5个名额)。

    感兴趣的朋友不妨看看“尊贵玩家体验计划:7折购买GTX280显卡”一文。

第五章/第八节 索泰GTX280高频版,浮点运算历史性突破1TFLOPS

    在前文中笔者介绍过,由于GTX280的默认频率太低,直接导致浮点运算能力未能突破1TFLOPS大关,这对于NVIDIA来说确实是个重大遗憾。假如GTX280的流处理器频率提高到1400MHz的话,那么浮点运算能力正好就是240×1400×3=1008GFLOPS!

{imageTitle}

    索泰的GTX280 AMP高频版本正好满足要求,它的默认核心频率达700MHz、流处理器为1400MHz、显存频率2300MHz,比NVIDIA公版600/1300/2200MHz的频率高不少,性能自然更上一层楼。

{imageTitle}   {imageTitle}

    据了解,GTX200核心以及现代0.8ns显存的超频能力还是相当不错的,索泰AMP版就是将体制更佳的产品官方超频而来,非常适合追求极致性能的发烧玩家选购。

{imageTitle}

    附件方面,由于GTX280必须要求电源支持8pin PCIE接口,为了增强兼容性,索泰随卡附送了双6Pin转8Pin的电源线,可以让较早的电源也能代得动新一代旗舰卡(前提是电源至少550W)。而且索泰还附送了HDMI转接口以及SPDIF音频线,想要HDMI输出电视的朋友就方便多了!

第六章 GeForce GTX 280演示DEMO解析

    无论ATI还是NVIDIA,每次有新显卡发布都会同时公布一个或者多个用显卡实时渲染而成的DEMO。这些美轮美奂DEMO的设计初衷就是通过完美的3D效果征服每一位观众,让大家对新显卡的性能和技术充满憧憬和期待。所以ATI和NVIDIA必定会使出浑身解数,在DEMO中大量采用显卡最新、特有、特长技术。

第六章/第一节 GeForce 6/7/8三款经典DEMO回顾

    首先我们有必要对NVIDIA以往的几款经典演示DEMO做一个简单的回顾,因为在最新DEMO的很多地方,都可以隐约看到历代DEMO的影子,造型还是技术方面都得到了明显加强。

GeForce 6800Ultra:精心打造的美人鱼Nalu

    NVIDIA在GeForce FX系列的代言人蝴蝶仙子取得了用户的普遍认可,于是在GeForce 6系列产品NV继续推行虚拟形象代言人的做法,美人鱼Nalu的出现可以说让世人为之震惊!

为王位而生 GeForce8800全面解析测试

    首先我们不得不佩服NVIDIA的造型设计,完美而性感的身材、飘逸的长发、鱼尾与人身的完美结合、漂亮的鱼鳞设计——这一切都展示出了NVIDIA强大的设计实力以及在Nalu身上投入的心血!

为王位而生 GeForce8800全面解析测试    为王位而生 GeForce8800全面解析测试

    美人鱼Nalu的头发带给人震撼的视觉冲击,它是由一种叫“深度阴影”的技术实时生成的。头发的上部由于光照而发亮,头发的下部则处于黑暗状态;随波荡漾的飘逸长发就要给GPU很大的负担!

    除了令人惊叹不已的头发之外,别忘了Nalu是处在深海之中,光照使用了鳞波荡漾变幻莫测的动态HDR光源,Nalu的身体处在不断游动之中,此时长发和皮肤就会被柔和的阴影所包围。NVIDIA使用了DirectX 9.0c SM3.0标准当中非常重要的“渲染至纹理”技术来达成这一看似不可能完成的渲染!

    SM3.0、HDR、SoftShadow等等DX9C时代重要技术都在Nalu身上得到了完美体现,美人鱼的形象也深深地刻在了每一位玩家的脑海,成为NVIDIA史上最成功的虚拟代言人!

GeForce 7800GTX:黄皮肤美女Luna

    蝴蝶仙子Dawn和美人鱼Nalu都给NV带来了很好的GeForce品牌宣传效果,让新一代产品的形象能够迅速深入人心,于是在全新的GeForce 7系列产品中NV继续贯彻虚拟美女战术——Luna MM诞生!

为王位而生 GeForce8800全面解析测试

    GeForce 6系列形象代言人为美人鱼Nula,而GeForce 7系列的MM取名为Luna,NV的取名真有意思,娜虂和露娜还真都挺顺口!Luna是一个拥有华裔血统的黄皮肤MM,这可能与NV CEO是华人有关吧!不管怎么说黄种美女更加符合中国人的审美习惯,虽然Luna的衣着并不如之前的Nalu和蝴蝶MM暴露,但惹火的身材和漂亮的面孔在用户中的吸引力大增,尤其是在国内!

为王位而生 GeForce8800全面解析测试    为王位而生 GeForce8800全面解析测试

    这个Luna Demo演示了一件很简单的事情,小Luna一步步走向天梯,在尽头等待她的却是三位外星守护者,Luna被他们的守护神选中成为新的女祭司。经过简单的仪式之后,原本纯情可爱、冷艳的Luna变得更加成熟、妖艳,黑色的头发和白色的衣服变成了NV御用的绿色!

    Luna沿用了Nalu当中的Demo设计理念,那就是大量使用光影效果、超级复杂的头发渲染和半透明效果。由于7800和6800都能够支持最新的DirectX 9.0c和SM3.0技术,所以Demo当中并没有让人耳目一新的图形技术出线。NV主要是通过异常复杂的Demo来展示7800强悍的处理能力!Luna的衣服和三位守护着的肉身都使用了半透明处理;Luna的头发进一步展示了NV Demo设计能力和GPU的强大处理能力;另外在变身过程中还使用了位移贴图技术,使得碰撞过程立体感更加强烈!

GeForce 8800Ultra:超逼真的人脸渲染Human Head

    8800GTX发布时NVIDIA就公布了三款演示Demo,其中的Adrianne就是将一位美女模特从现实复制到了3D虚拟世界,作为虚拟形象代言人。而在8800Ultra发布后,NVIDIA又放出一款Human Head Demo,实际上Human Head的人物建模并不比Adrianne复杂,但其画面效果却远远超越了我们的想象!之所以能够达到以假乱真的地步,最关键的一项技术就是多层皮肤贴图。

真正电影级实时渲染!NV最新DEMO解析

    在这个Demo中总共使用了多达17层纹理贴图合成了细致入微的头部皮肤!每一层纹理贴图的分辨率都是4096×4096像素,这样即便是以很近的视角观察人物皮肤,也不会出现失真的情况。如此一来,DEMO的每一帧图像都要对4000多万个像素进行着色,每秒渲染12亿个像素,而且使用了超长像素指令。

真正电影级实时渲染!NV最新DEMO解析

    除此之外HDR效果也得到了完美展现。DEMO使用了两个独立的点光源投射在人头上,这两个光源可以通过鼠标随时改变方位及色彩,然后动态的反映在多层皮肤上,通过表面散射技术生成完美无暇的阴影。混合纹理以及动态光影对Shader性能和显存带宽都有苛刻的要求,G80核心在Shader以及纹理方面的性能都得到了大幅提升,而8800Ultra凭借高频率性能又提升了一个档次,由此得以在高分辨率和高画质下流畅运行。

    不过,Human Head整个Demo仅仅包括了一个人头而已,一味的追求超逼真的皮肤贴图,这个人头甚至连头发、表情都没有,只有技术展示价值而没有任何实际意义。现在NVIDIA将这个超逼真Human Head Demo中采用的技术移植到了最新GTX200的动态演示Demo中——它就是Medusa(美杜沙)。

第六章/第二节 GTX200演示Demo Medusa总览

    Medusa(美杜莎),是希腊神话中的一个女妖,它的头发和身体都是蛇型,招牌杀人技能就是石化。

    NVIDIA Demo是一小段剧情,描述了一位寻宝冒险者被美杜莎杀害的过程:这位冒险者来到神殿之后发现了很多无头石像,但在美杜莎出现之后,他被美杜莎美丽的相貌所吸引,警惕心不复存在;美杜莎主动献出宝物,冒险者不由自主地放下了手中的武器;此时,美杜莎偷偷的施展石化技能,自下而上冒险者的身体慢慢的变成了石块,等他意识到了为时已晚;可怜的冒险者成为了神殿的又一尊石像,神殿宝物完璧归赵,最后美杜莎终于露出了她那恐怖的真实面目,并用蛇尾将冒险者头部击碎……

{imageTitle}

{imageTitle}

{imageTitle}

{imageTitle}

{imageTitle}

{imageTitle}

{imageTitle}

{imageTitle}

{imageTitle}

{imageTitle}

{imageTitle}

{imageTitle}

{imageTitle}

{imageTitle}

{imageTitle}

{imageTitle}

{imageTitle}

{imageTitle}

{imageTitle}

第六章/第三节 Medusa的特色:集上代Demo特色与一身

    看完整个Medusa Demo之后,我们就可以发现Demo中的人物有着似曾相识的感觉,和往届Demo有很多相似之处,有些是延续了造型设计、有些是采用了类似的技术:

真正电影级实时渲染!NV最新DEMO解析
8800Ultra的Human Head

{imageTitle}
冒险者脸部皮肤渲染不亚于Human Head

为王位而生 GeForce8800全面解析测试
7800GTX的Luna MM

{imageTitle}
美杜莎的脸型/表情设计是不是有些像Luna

为王位而生 GeForce8800全面解析测试
6800Ultra Demo:美人鱼Nalu

{imageTitle}
美杜莎的蛇形身材和美人鱼非常相似

第六章/第四节 Medusa的特色:模拟未来游戏场景

    演示Demo的任务就是展示新技术、并模拟未来游戏的渲染模式。此次GTX200的Demo与以往截然不同,我们可以看到它是按照标准3D游戏的剧情设计的,而并非单纯的技术展示,在保证人物完美细节的同时,也强化了周边场景的复杂度。

{imageTitle}

    以往的Demo是照片级别的“静态逼真”,人物可以做到栩栩如生,但是场景、动画却相当简陋,它只能按照程序设定好的几种模式让主角人物更接近于现实。而美杜莎Demo则是结合了实际游戏的复杂场景以及CG动画的完美画质,展现给大家一段电影级的“动态逼真”画面。

    下面就看看NVIDIA在美杜莎Demo当中所采用的特色技术:

  • 超逼真的人物面部表情和肢体动作;
  • 高精度多层纹理贴图+超高多边形构成复杂的周边环境;
  • 大量使用烟、灰、雾、动态模糊等复杂着色;
  • GPU物理加速:液体流动、衣物运动、火焰效果、破坏效果等;
  • HDR、软阴影、全局光照等光影特效无处不在。

{imageTitle}
以往的Demo都不注重环境细节,而美杜莎除了主角之外,细节部分也堪称完美

    NVIDIA官方建议运行美杜莎的设置为:1680×1050 8xMSAA,在此分辨率下GTX280可以运行在40FPS左右。经过我们实际测试来看,继续提高分辨率也未尝不可,我们可以在1920×1200 4xMSAA模式下也能够获得40FPS左右的流畅速度,想要在2560×1600超高分辨率下运行就不能开AA了,不过此时贴图质量极高细节进一步增强,锯齿并不明显。

{imageTitle}
文章中的截图都是1920×1200 4xMSAA模式下获得的

    通过这个复杂的Demo可以看出,GTX280在应付高负荷复杂游戏时,也能够满足在高分辨率下开启高倍AA流畅运行的需要,这就可以让游戏的画面品质得到进一步增强,在后文的游戏评测中,我们将对所有主流DX10游戏在高分辨率AA模式下的性能进行测试,请大家留意。

第七章 性能测试

    相比两年前的8800GTX,GTX280几乎是其规格全面翻倍版,但是在和9800GX2的规格对比中却是各有优劣,毕竟后者拥有两颗由G80核心改进而来的G92核心,不过在单一核心对应的显存规格上9800GX2依然不如GTX280,再加上目前AMD方面的旗舰HD3870X2,巅峰之间的较量更加好看。

第七章/第一节 优异测试平台配置

PCPOP.COM评测室

硬件系统配置

处理器

Intel QX9770 四核心, 3.2GHz, L2=12MB

主  板

ASUS X48 (测试单卡)

ASUS 790i (测试SLI)

   

GTX280 1GB (600/1300/2200MHz)

GTX260 896MB (575/1242/2000MHz)

9800GX2 1GB (600/1500/1800MHz)

9800GTX 512MB (675/1688/2200MHz)

8800Ultra 768MB  (612/1500/2160MHz)

8800GTX 768MB (575/1350/1800MHz)

HD3870X2 1GB (825/825/1800MHz)

 

CORSAIR Dominator TWIN2X2048-10000C5DF

DDR2-800(4-4-4-12)

   

西数 250G 16M SATA

  

海盗船 1000W

软件系统配置

  操作系统

Windows vista Unimate 32Bit SP1

  DirectX

10.1

  显示驱动

NVIDIA Forceware 177.26

ATI Catalyst 8.6

● 优异平台——QX9770 CPU

{imageTitle}

    Intel Core 2 Quad QX9770属于Intel Core 2 Quad QX9650的升级产品,核心研发代号为Yorkfield,采用45nm制程工艺生产,C0步进,支持SSE4.1多媒体指令集,外频400MHz,倍频为8x,此外QX9770还拥有12M的二级缓存,这样即便是双高端显卡系统也不会受制于处理器瓶颈。

● 优异平台——DELL3007 显示器

{imageTitle}

    既然是优异卡,我们就要用最优异玩家的使用环境来测试,我们选定分辨率为1920×1200(24寸宽)和2560×1600(30寸宽),并开启4AA16AF,以接近高端用户的实际使用环境。

    测试程序覆盖了理论测试程序3DMark、DX9C游戏和DX10游戏,值得说明的一点是仅仅是测试demo而非可玩游戏的程序我们并没有选用,比如《鱼雷骑士》和《狂野西部》。

第七章/第二节 DX9C理论性能测试:3DMark06

比Crysis还BT!3DMark Vantage初测试

    3DMark06作为DX9C权威的理论测试工具,包括了两个SM2.0测试和两个SM3.0测试场景,基本上达到了DX9C的画面最高境界,其测试结果对于很多主流游戏都有参考价值。但是如今3DMark06已经难不倒高端显卡了,高端显卡在3DMark06中难分高下,所以我们只能最大程度的提高它对系统的要求,比如说提高分辨率开启抗锯齿等。所以我们选定了在1920×1200 4AA16AF下测试其总分和SM3.0成绩。

{imageTitle}

{imageTitle}

    3DMark06的SM3.0测试严重依赖于GPU Shader性能,GTX280和GTX260的Shader频率是自G80问世以来最低的,GTX280的240个流处理器在拥有256个流处理器的9800GX2面前并没有讨到便宜,而以理论测试见长的HD3870X2依然保持着该项目的最高得分。

第七章/第三节 DX10理论性能测试:3DMark Vantage

比Crysis还BT!3DMark Vantage初测试

    3DMark Vantage已经在四月底正式发布,全新的引擎在DX10特效方面和《孤岛危机》不相上下,但3DMark不是游戏,它不用考虑场景运行流畅度的问题,因此Vantage在特效的使用方面比Crysis更加大胆,“滥用”各种消耗资源的特效导致Vantage对显卡的要求空前高涨,号称“显卡危机”的Crysis也不得不甘拜下风。

比Crysis还BT!3DMark Vantage初测试

    3DMark Vantage中直接内置了四种模式,分别为Extreme(旗舰级)、High(高端级)、Performance(性能级)和Entry(入门级),只有在这四种模式下才能跑出总分,如果自定义模式就只能得到子项目分数了。我们为这次的优异卡对决选择了Extreme和High两种模式。

{imageTitle}

{imageTitle}

    GTX280成为3DMark Vantage测试中毫无疑问的王者,GTX260也不辱使命,追平了上一代的双核旗舰9800GX2,双双大幅度领先AMD旗舰HD3870X2。至于9800GTX和8800Ultra等单核显卡由于流处理器数偏少,本身显存容量和位宽和其他几块旗舰比起来也有差距,只有败北的份。

第七章/第四节 DX9C游戏性能测试:《超级房车:起点》

[超级房车赛:起点]新图多张

    它来自于2007年最受欢迎的赛车类游戏DiRT的制作者。GRID是一款快节奏的,拥有众多精美场景和广阔视野的赛车类游戏。强化的EGO游戏引擎,让游戏中的碰撞、损坏等更加真实:物理模型将可以保证游戏中车辆的碰撞、损坏和解体等将更加贴近于好莱坞大片中的效果。

{imageTitle}

    画面设置:先开启Ultra画面等级,使所有特效达到最高,再改变分辨率,开启4×AA。

    测试方法:进入游戏后测试第一段直道的平均速度,方向键锁定前方,保证所过场景一致。

{imageTitle}

{imageTitle}

    GTX280和GTX260的显存规格优势非常大,在高分辨率抗锯齿下轻松秒杀了单G92核心只有512MB/256bit的9800GX2。至于HD3870X2由于驱动的支持不好,在游戏中卡得不行。

第七章/第五节 DX9C游戏性能测试:《使命召唤4》

跳跃式升级!《使命召唤4》试玩初体验

    虽然使命召唤4的场景已不再是二战,但它依然保持了和使命召唤2/3系列相近的画面风格,相信老玩家在游戏中一定会有亲切感,战斗中的爆炸、烟雾效果更加逼真,物理效果也加强了游戏的真实感。

{imageTitle}

    画面设置:使命召唤4引擎对显卡的要求中等,中高端显卡特效全开并且开AA都能有不低的FPS,因此我们只测打开AA时的性能。

    测试方法:游戏有一段固定的爆炸场景,FPS比较稳定,也符合游戏实际运行时的情形,用Fraps统计这个过程的FPS,作为最终成绩。

{imageTitle}

{imageTitle}

    在最高分辨率下GTX280、GTX260和9800GX2都能完全流畅,由于游戏对显存的需求并不太大,9800GX2也不会因为显存出现瓶颈,相对稍有优势。

第七章/第六节 DX9C游戏性能测试:《帝国时代3:亚洲王朝》

盖茨历史不及格![帝国3亚洲王朝]试玩

    其画面风格一如既往的华丽无比,虽然游戏引擎比较老,但通过精妙的色彩搭配和美术设计,《帝国3》比起DX10 RTS大作《英雄连》和《冲突世界》都是不落下风。

{imageTitle}

    画面设置:帝国3的最新资料片也使用了原来的游戏引擎,画面风格没有任何变化,系统需求也是照旧,对于如今的显卡来说特效全开并且打开抗锯齿运行游戏没有任何难度。起“边缘光滑”开启至“高”就是4AA。

    测试方法:及时战略游戏如果没有专用测试程序,就很难在游戏中公平的测试,所以我们选用了游戏即时演算的主界面统计帧数,也能客观的反映出各卡在该游戏中的差距。

{imageTitle}

{imageTitle}

    和《使命召唤4》的情况类似,单核的GTX280在显存要求不高的DX9游戏中很难超过9800GX2,更多的流处理器数和更高的Shader频率直接决定了结果。

第七章/第七节 DX9C游戏性能测试:《半条命2:第二章》

{imageTitle}

    《半条命2:第二章》作为《半条命2:第一章》的续集,引擎在HDR和室外场景的渲染方面有所增强,树叶渲染上将采用Alpha覆盖技术,提供更好的树叶细节和反锯齿效果。此外还引入全新的粒子系统,将提供动态软阴影效果。物理引擎也经过重新设计,提供大场景大范围的物理效果。

{imageTitle}

    画面设置:《第二章》还是原来的Source引擎,虽然做了一些改进,但对显卡的要求并没有提高,所以我们测试时特效全开最高,并且打开游戏自带的AA和AF。

    测试方法:游戏支持命令录制demo供测试,我们录制的demo覆盖了室内室外场景。

{imageTitle}

{imageTitle}

    由于测试全程开启了HDR+AA,因此比较依赖于显存位宽,所以9800GX2的显存劣势表现了出来。大致的结果是GTX280稍强于9800GX2,9800GX2稍强于GTX260,GTX260稍强于HD3870X2,其他各卡性能和上述不在同一级别。

第七章/第八节 DX9C游戏性能测试:《优品飞车11》

在日光下飞驰![优品飞车11]抢先体验

    《优品飞车11:街道争霸》是一款真正可以激发你肾上腺素的赛车游戏,给玩家带来令人难忘的高细节的照片品质的图像,更有代入感,它将Autosculpt技术提升到了新的高度。

游戏还能快多少?玩家实测双显卡效能    游戏还能快多少?玩家实测双显卡效能

    画面设置:游戏最高只支持到1920×1200,我们将所有效果开启至最高并设置4AA16AF。

    测试方法:和《超级房车》一样取游戏开始的一段直道作为测试场景。

{imageTitle}

    赛车游戏偏重于像素着色,GPU Shader负载很重。如果不算双核的9800GX2,两款G200显卡的成绩大幅度好于其它单核心显卡,8800Ultra落后于9800GTX,说明NVIDIA在核心架构变化不大的情况下优化了新显卡核心中流处理器的效率。

第七章/第九节 DX9C游戏性能测试:《虚幻竞技场3》

跳票终见天日!《虚幻3》试玩demo下载

    《虚幻3》它不仅仅是一款游戏,个大平台上采用虚幻3引擎的游戏已经有近百款之多。在PC平台,受到高度评价的《生化奇兵》就是基于虚幻3引擎开发,还有《彩虹六号:维加斯2》和《荣誉勋章:空降神兵》、《战争机器》等大手笔。

让DX10俯首称臣!20款显卡决战[虚幻3]

    画面设置:特效全开,游戏本身不支持AA但是可以通过驱动强制开启以取得抗锯齿效果,所以我们强制了4×AA。

    测试方法:使用了第三方开发的测试程序,演算固定的场景和画面帧。

{imageTitle}

{imageTitle}

    9800GX2本来在1920×1200 4AA下超过了GTX260,但是提高分辨率至2560×1600后其性能被GTX260反超,强大的单核心配备接近1GB的显存很有必要,此时的GTX280已经遥遥领先。

第七章/第十节 OpenGL游戏性能测试:《雷神战争》

最强OpenGL!17款显卡解析[雷神战争]

    《敌占区:雷神战争》作为QUAKE系列游戏的最新作,由于引擎源自Doom 3,但比DOOM3在很多方面都有所加强,最引入注目的MegaTexture技术的首次使用。简单而言,MegaTexture就是一张超大的贴图。在《敌占区:雷神战争》中每张MegaTexture容量达到了3GB(类似ClipTexture,并非全场景的动态贴图),在得到更好效果的同时,对显存容量的要求也更高。除此之外,引擎还引入了视差映射、凸凹紋理映射、法向映射和Specular Highlighting、软粒子等目前流行的显示技术。

最强OpenGL!17款显卡解析[雷神战争]

    画面设置:毕竟是源于老迈的DOOM3架构,引擎无论如何改进,对配置的要求也不可能出现翻天覆地的变化,自然是特效全开,并开启游戏内置的4AA16AF。

    测试方法:我们自行录制了一段多人对战Demo,调用游戏内置的控制台命令行播放录像,然后就可以得到比较准确的全程FPS。第一次回放Demo时由于Loading的原因成绩较低,所以取第二次的成绩为最终结果。

{imageTitle}

{imageTitle}

    基于DOOMIII引擎的雷神战争对显卡的要求也不高,几款显卡在高分辨率下开AA都有不错的成绩,GTX280力压9800GX2。

第七章/第十一节 DX10游戏性能测试:《孤岛危机》

DX10救世主!PC大作Crysis特效全解析

    Crysis(孤岛危机)无疑是现阶段对电脑配置要求最高的PC游戏大作。Crysis的游戏画面达到了当前PC系统所能承受的极限,超越了次世代平台和之前所有的PC游戏。

显卡绞肉机!Crysis全特效截图+简测

    画面设置:游戏版本为V1.2,开启最强DX10效果(Very High),即便是许多高端显卡也只能在低分辨率看幻灯片,所以我们选择了1920×1200,分别开启最强DX10效果(Very High)和最强DX9效果(High)。

    测试方法:Crysis内置了CPU和GPU两个测试程序,我们使用GPU测试程序,这个程序会自动切换地图内的全岛风景,得到稳定的平均FPS值。

{imageTitle}

{imageTitle}

    虽然还是不敌9800GX2,但是单核下在1920×1200下DX10全特效能超过20帧已经非常不易,相当于两块8800Ultra SLI,它仅仅只有一个核心——G200。

第七章/第十二节 DX10游戏性能测试:《失落星球》

绝不是花瓶!六款必玩的DX10游戏推荐

    《失落星球》无论DX10还是DX9版本,画面都非常出色,但除了绚丽的画面之外,游戏本身也是可圈可点。

三大平台画质对比:86GTS就能干掉PS3

    画面设置:游戏版本为V1.03,将所有特效全开最高,可以使画面颜色达到64位。

    测试方法:游戏自带测试程序,该程序会将游戏任务第一关的所有场景快速跑一遍,然后得到Snow和Cave两种模式下的平均FPS,测试结果取FPS较低的Snow成绩。

{imageTitle}

{imageTitle}

{imageTitle}

{imageTitle}

    一直到我们用最BT的2560×1600 4AA16AF,9800GX2才因为显存不足失去领先地位,以往NVIDIA的单卡最高显存规格是768MB/384bit,GTX280首次达到1GB/512bit,在苛刻的条件下优势尽显。这也为以后的优异双核卡提供了思路,每颗GPU需要对应1GB显存,这样才能彻底发挥出核心的潜力,毕竟两年前的7950GX2每颗GPU都独享了512MB。

第七章/第十三节 DX10游戏性能测试:《英雄连:抵抗前线》

5大CPU决战DX10!谁是8800GT非常好的搭档

    与原来的DX9版相比,《英雄连:抵抗前线》已经是DX10版本。Shader Quality在High基础上新增DX10选项,Terrain Detail(地形细节)在High基础上新增Ultra选项。DX9版抗锯齿只有Enable和Disable两项,DX10版能够完全支持N卡的CSAA抗锯齿技术,并且支持N卡和A卡的8xMSAA。

{imageTitle}

    画面设置:把所有的效果都调最高,能High的就High,能Ultra的就Ultra,抗锯齿设定为None或者4x。

    测试方法:游戏自带性能测试程序,它是把任务版第二关的两个过场动画拼接在了一起,测试完之后会给出平均FPS、最大FPS和最小FPS,我们只取平均FPS做对比。

{imageTitle}

{imageTitle}

{imageTitle}

{imageTitle}

    两次抗锯齿的开启都直击9800GX2的名门,即便GTX260也能轻松将其超越。至于2560×1600 4AA下的HD3870X2则再次不幸的倒在了驱动上。

第七章/第十四节 DX10游戏性能测试:《刺客信条》

全特效DX10![刺客信条]海量截图欣赏

    老牌游戏厂商育碧不失时机的将横跨数个平台的超级大作《刺客信条》搬上了PC平台,这款结合了古代和现代场景的科幻动作游戏早已在游戏机平台聚集了强大的人气。育碧表示《刺客信条》的DX9画面和DX10画面没有本质区别。育碧之所以为其选用DX10 API,仅是单纯为了调用Shader Model 4.0技术,从而大幅提升游戏渲染效率。

{imageTitle}    {imageTitle}

    画面设置:将所有特效全开最高,游戏最多支持8×AA,但是当分辨率达到1920×1200及以上就无法开启抗锯齿,所以我们选择了1680×1050 8×AA,更高的分辨率没有AA的模式。

    测试方法:游戏通过训练关后会进入一个城镇,我们不对其进行任何操作,直接读取屏幕上稳定的帧数。

{imageTitle}

{imageTitle}

{imageTitle}

    在1920×1200下GTX280和9800GX2平分秋色,这个时候是核心性能和显存瓶颈的一个平衡点,其他设置下9800GX2凭借更多的流处理器数和更高的频率还是稍站上风,不过看看其他显卡,GTX280的结果已经让人相当满意。

第七章/第十五节 DX10游戏性能测试:《冲突世界》

DX10视觉盛宴!9大显卡决战[冲突世界]

    《冲突世界》采用了自行研发的MassTech引擎,支持多种当前的主流显示特效,如容积云,景深效果,软阴影等,光照系统也表现出色,尤其是半透明的容积云特效营造出了十分逼真的户外场景,物理加速结合体积光照渲染出了最逼真的爆炸效果。

DX10视觉盛宴!9大显卡决战[冲突世界]

    画面设置:游戏自带的画面设置多达44个选项,内置的Very High模式并不能把所有选项都调最高,需要手动将其设定为Very Long和1024。

    测试方法:《冲突世界》和《英雄连》类似,也是选择了一段非常华丽的过场动画作为测试程序,最终得出最大、最小和平均FPS,测试结果非常精确。

{imageTitle}

{imageTitle}

{imageTitle}

{imageTitle}

    该游戏对显存的要求几乎到了变态的地步,这个时候综合素质最高的G200核心脱颖而出,1920×12004 AA16AF下优异卡比拼的是显存,在2560×1600 4AA16AF下比拼的就是Shader的综合性能。

第七章/第十六节 DX10游戏性能测试:《生化奇兵》

{imageTitle}

    早在游戏Demo版发布之前,BIOSHOCK就已经声名远扬,著名游戏杂志Gameinformer在较早的时候对其进行了完整测试,并给出了惊人的满分10分,将几乎所有的溢美之词都献给了这款游戏,称之为难得一见的史诗性大作。

{imageTitle}

    画面设置:《生化奇兵》的画面设置项目并不复杂,DX10特效只有一项,而且游戏不支持抗锯齿(虽然可以驱动强制开启AA,但DX10和部分阴影会失效),所以我们的测试模式就是特效全开,但不开AA和AF。

    测试方法:《生化奇兵》并不像其他几款DX10游戏那样自带测试程序,所以我们只能用Fraps来记录游戏运行的实时FPS,测试场景选取了第一关动态海面作为户外模式获得成绩。

{imageTitle}

{imageTitle}

    GTX260虽然频率低,但是流处理器数目不少,成绩压倒了8800Ultra等,领先了HD3870X2差不多50%。

第七章/第十七节 DX10游戏性能测试:《地狱门:伦敦》

{imageTitle}

    《地狱门:伦敦》包含不少DX10特效:有物理性的容积烟雾,能够跟周围外力产生互动;GPU模拟的雨滴效果,每一个雨点将受到方向光源的打光;以及一种称之为 fancy soft shadows的阴影技术,可以根据光源跟物体的距离调节所产生阴影的柔和程度。此外《地狱门:伦敦》还采用最新的Havok FX引擎 ,该引擎将利用GPU资源来进行物理模拟计算。

{imageTitle}

    画面设置:游戏对N卡和A卡的支持程度并不相同,比如使用抗锯齿后N卡和A卡能够开启的特效等级就不尽相同,我们只好取消抗锯齿设置,以求统一画面设置。

    测试方法:以游戏训练关的初始场景读取稳定帧数。

{imageTitle}

{imageTitle}

    大量的特效自然对Shader提出了更高的要求,通过9800GX2的成绩可以看出,9800GTX出现了不正常的性能下降,这是由于驱动的个别疏漏引起。

第七章/第十八节 性能对比:GTX280 VS GTX260

{imageTitle}

    GTX280与GTX260的关系和当年8800GTX携手8800GTS登场一样,流处理器更多、频率更高的GTX280针对优异用户,而GTX260相对而言会使款性价比更出色的产品,平均20%的性能差距并不算大。

第七章/第十九节 性能对比:GTX280 VS 9800GX2

{imageTitle}

    按照NVIDIA的产品布局,9800GX2在G200系列登场后,定位在GTX280与GTX260之间。但是前面的评测很多成绩都是9800GX2领先GTX280,读者难免会认为9800GX2才是最强显卡,不过经过我们对所有测试项目的统计,GTX280依然平均领先9800GX2接近10%,观察数据就能看出9800GX2领先的项目幅度不大,但是落后的项目差距非常大,个别项目落后可达90%,主要还是9800GX2上每颗G92核心只有512MB/256bit显存,遇到高分辨加抗锯齿就很难匹敌拥有1GB/512bit的GTX280。

第七章/第二十节 性能对比:GTX280 VS 9800GTX

{imageTitle}

    伴随8800Ultra的停产,9800GTX是目前市场上NVIDIA的最高端单卡,显存规格只有512MB/256bit,距离8800Ultra有不小的差距,这也是该卡的瓶颈所在。高端卡自然应该运行在高分辨率下,GTX280除了频率以外的所有规格都全面领先9800GTX,高分辨率下平均领先接近80%。

第七章/第二十一节 性能对比:GTX280 VS 8800Ultra

{imageTitle}

    8800Ultra代表着G80核心的最高性能,如今看来已经老迈,GTX280性能平均高出50%,新老旗舰彻底换代。

第七章/第二十二节 性能对比:GTX280 VS 8800GTX

{imageTitle}

    8800GTX和8800Ultra只有频率差别,GTX280领先其68.3%。9800GX2虽然性能不俗但只是双核拼装,单核性能迈进这一步,从2006年11月到2008年6月,NVIDIA用了19个月。

第七章/第二十三节 性能对比:GTX280 VS HD3870X2

{imageTitle}

    AMD在旗舰性能上已经无法与NVIDIA抗衡,HD3870X2纵然是双芯产物,无奈驱动严重拖其后腿,如果不去掉《超级房车》这种性能接近为零的项目,那GTX280的领先绝不止60%。

第七章/第二十四节 多卡系统:GTX280 SLI效率测试

{imageTitle}

{imageTitle}

    NVIDIA大名鼎鼎的“The Way”计划是显卡游戏性能的保障,在《失落星球》和《生化奇兵》中获得了几乎100%的提升,实现了1+1=2。在DX10理论测试3DMark Vantage中双卡提升了近90%,而大部分游戏中尚难达到,这还需要驱动去为每一个游戏优化,当然这对NVIDIA并不是难事,毕竟他们的驱动团队在业内实力首屈一指。目前双卡SLI平均提升52.5%,对于一款旗舰产品来说已经足够。

第七章/第二十五节 多卡系统:GTX280三路SLI效率测试

{imageTitle}

{imageTitle}

    三块优异旗舰放在一起,目的就是为了攀登性能的巅峰。三卡的性能提升极度依赖驱动优化,协调3个GPU并不是一件容易的事情,遇到《雷神战争》这种被驱动团队忽略掉的非主流游戏,成绩就出现了严重的反降。像《半条命2》这种单卡已经150帧的游戏,瓶颈在CPU,且速度已经足够流畅,再度提高也没有意义。

    对于要求较高的DX10游戏,三路GTX280的效率还是令人满意,许多游戏的速度提升都达到了2倍,甚至2.5倍,这基本达到了三路SLI的性能上限。相对单卡平均提升80%,这只是首发驱动,如果NVIDIA愿意继续优化,这些成绩的提高指日可待。

第七章/第二十六节 多卡系统:GTX200系列显卡全平台功耗测试

G80禁锢的右半部分

    我们的功耗测试方法就是直接统计整套平台的总功耗,既简单、又直观。测试仪器为Seasonic的Power Monitor,它通过实时监控输入电源的电压和电流计算出当前的功率,这样得到的数值就是包括CPU、主板、内存、硬盘、显卡、电源以及线路损耗在内的主机总功率(不包括显示器)。

{imageTitle}

    GTX280三路SLI的整套平台功耗接近800W,当然这并难不倒发烧的骨灰级玩家。用三路SLI的总功耗减去GTX280的单卡功耗,我们就能得出GTX280的单卡满载功率,大概是240W。和以往的NVIDIA显卡待机功耗偏高有本质的改变,本次GTX280单卡待机时功耗能下降150W,已经足以叫板AMD方面引以为豪的PowerPlay,相当惊人。

    GTX200系列显卡待机时核心显存频率变化不大,NVIDIA采用的是降低电压,并让核心部分晶体管进入“睡眠”状态,运行3D程序时再唤醒。不过从三路SLI的待机功耗来看,多出两块显卡后只增加了100W,作为从卡的GTX280待机功耗已经跟中端显卡看齐了。另外,如果配合NVIDIA的780a主板,支持“混合动力”的GTX200系列显卡均可在待机状态下关闭,使得显卡功耗近似为零。

第七章/第二十七节 视频解码:高清CPU占用率测试

    GTX200核心包含了跟G92核心一样的PureVideo硬解码单元,其能完全硬解码H.264编码高清视频,部分硬解码VC-1编码高清视频。

{imageTitle}

{imageTitle}

    虽然GTX200核心在无法完全硬解VC-1视频,但是优异旗舰显卡一般都会搭配优异的CPU使用,GTX280在解码高清视频时CPU占用率控制在5%左右。毕竟音频和硬盘读取都会对CPU形成一定的负担,所以在面对可完全硬解码的H.264视频时,CPU占用率也不可能彻底零。

第七章/第二十七节 CUDA应用测试:BadaBOOM视频编码

    NVIDIA联合Elemetal制作了名为BadaBOOM Media Converter的视频转换工具,可以将众多的视频格式转换成直接能在PSP、iphone等流行手持数码设备上播放的视频格式。软件基于CUDA开发,最大限度的利用GPU加速。不过目前这款软件尚处在测试阶段,仅支持GTX280和GTX260,且驱动程序必须使用ForceWare 177.34。测试系统基于非常高端的QX9770处理器,这也方面比较优异CPU和优异GPU在编码能力方面的差距。

{imageTitle}

    BadaBOOM的界面简单,选择需要压制的视频和需要生成的格式即可。中间的滚动条可以设定转换品质,我们使用最高画质,输出为iphone的480×320分辨率,压缩一段MPEG2编码的动画视频。

{imageTitle}

{imageTitle}

{imageTitle}

    这段视频就是NV利用Autodesk MAYA软件制作的首部动画《The Plush Life》,这部720P的片源播放时间近12分钟,GTX280的实时编码速度达到了140.7帧,完成整个编码过程仅用22秒。而换用传统的iTunes利用CPU单独编码整个过程却耗费了110秒。

 

点击下载720P清晰版视频

    这段视频就是在一台电脑上同时启用GPU压片工具BadaBOOM和CPU压片工具iTunes编码《The Plush Life》,两者的速度差距直观的放在大家眼前。目前BadaBOOM只是测试版,相信正式版本可以支持更多的CPU,让中低端显卡用户也能感受到CUDA带来的喜悦。

第七章/第二十八节 CUDA应用测试:科学计算Folding@home

    由斯坦福大学发起,旨在通过分布式运算研究各种疾病蛋白质折叠原理的Folding@home计划,早在2006年就曾经推出过显卡用客户端,但仅限A卡。今年早些时候的第二代GPU通用计算客户端仍然仅支持HD2000和3000系列,N卡一直无缘这项可以说是全球最普及的显卡通用计算应用。

    目前NVIDIA CUDA显卡已经加入Folding@home计划,资料表明GTX280显卡可以在一天内模拟超过650纳秒的蛋白质折叠,而HD3870只能达到大约170纳秒,PS3仅仅100纳秒,四核心处理器更是不过4纳秒。这就是说,GTX280在这方面的性能是四核处理器的160多倍。

{imageTitle}

{imageTitle}

    这个Folding@home需要登陆互联网以便分配任务,使用相当简单,用客户端运算接受到的分段任务,再将结果回执服务器。此时我们就已经为科学计算贡献了自己的一份力量。

    为了协助开发新的GPU客户端,NVIDIA组建了一个名为“Whoopass”的小组。虽然他们只有四五台机器,但凭借GTX280的强大性能,很快就跻身于全球贡献最大的5%行列之中。Folding@home小组领导、斯坦福大学助理教授Vijay Pande称,即使全球NVIDIA CUDA显卡用户中只有1%参与到这一项目中来,也能让Folding@home迅速成为全球最强大的高性能计算系统,处理能力可达60-80PFLops。

第八章 全文总结与未来GPU/游戏展望

第八章/第一节 饭田庆太:GTX 280带给游戏更多的机会

    饭田庆太:NVIDIA亚太内容管理总监饭田庆太,负责NVIDIA与游戏软件厂商的合作,对于游戏和显卡的互动作用有着比较深入的见解。

饭田庆太:GTX 280带给游戏更多的机会

新显卡提供非常好的图形质量

    很显然,GeForce GTX 280和260将提供非常好的图形性能和质量。与此同时,这些新的图形芯片将会首次支持动态实时渲染,从而将游戏娱乐提升到新的高度。

{imageTitle}
柯南时代

    对于目前市场上现有的游戏,当你让这些最新的游戏以高分辨率或者极高分辨率(英文缩写为XHD)运行,甚至把所有的特效都打开的时候,在GTX280和260中实现的第二代统一架构也可以让你流畅地运行游戏。许多游戏将从GTX 200系列GPU(图形处理器)超强的处理能力中受益,其中包括:Funcom开发的《柯南时代》、Capcom开发的《失落的星球:殖民地》和《鬼泣4》。

{imageTitle}
Far cry 2,游戏对硬件的要求越来越高

    但好处显然不止于此。开发者还可以利用GTX 200 GPU(图形处理器)中的能力来实现惊人的物理效果模拟。NVIDIA的PhysX物理引擎将很快支持GeForce加速——许多一流的开发商已经把GeForce PhysX应用到游戏中,并且看到了极好的效果。一些支持GeForce PhysX,即将上市的一流游戏包括:Ubisoft开发的《孤岛惊魂2》(英文为Far cry 2)、Capcom开发的《生化尖兵》(英文为Bionic Commando)、Nurien开发的《Mstar》、 GSC Games开发的《S.T.A.L.K.E.R:Clear Sky》以及Natural Motion开发的《Backbreaker》。

    说的稍微深入一点,但也同样激动人心的是我们最近和NaturalMotion公司的合作,这个合作项目将把我们的PhysX物理编程接口与他们的Morpheme动画引擎组合在一起。从Morpheme 2.0发布版开始,大家就可以看到合作的成果了。很快,在利用GeForce平台上的PhysX和Morpheme开发的游戏中,你将会看到惊人的动画,包括模拟的动画和动态的动画。

饭田庆太:GTX 280带给游戏更多的机会
Backbreaker,物理引擎会给游戏带来新变革吗?

    Backbreaker是一款美式足球游戏,在里面有前所未有的最真实的球员动画。请注意看看!世界上最好的物理处理器(GeForce GTX280和260)已经整合了非常先进的、被广泛接受的物理引擎(PhysX),为我们带来了前所未有的完美游戏平台。并且很快得,甚至动画、动态或模拟的动画都将在GPU(图形处理器)上进行处理。我们把这些进步合称为“动态现实”。

Console平台的现状给予显卡更多机会

    我们注意到,新一代家用电视游戏机,现在任天堂Wii销售优势很大,但是Wii性能又比较弱,画面来说和上代主流机PS2相比进步不大。如果Wii最终获胜成为主流,PC游戏在画面上将会极大领先Console游戏,这对于PC游戏和显卡都是一种机会。

饭田庆太:GTX 280带给游戏更多的机会
Wii的游戏画面某种程度上确实会给PC游戏更多机会

    游戏主机是一种很棒的娱乐设备,它们可以提供“即插即用”的游戏体验,同时,这种体验是固定的。换句话来说,就图像质量而言,使用游戏主机的玩家——比如一个正在玩《侠盗猎车》的人,他的体验和所有其他玩同款游戏的人完全相同而对于使用电脑玩游戏的玩家而言,他们所得到的体验则依赖于多种因素,当然最大的影响是来自于GPU(图形处理器)。

    游戏主机的规格在五到六年的时间内保持不变。因此,玩家不能够期望游戏主机上游戏的图形质量能够与装备最新GeForce GPU(图形处理器)的电脑相媲美。

饭田庆太:GTX 280带给游戏更多的机会
PS3的GPU RSX

    在游戏主机游戏开发商的教育和支持方面:在某种程度上,我们做了一些工作。我们很高兴回答他们的问题(特别是关于PS3的RSX处理器,因为我们熟悉这个)。但是,我们并不是Wii,PS3或Xbox 360这些平台的所有者。一直以来,为开发商提供的支持是由平台所有者,如任天堂、索尼和微软来管理的。

OL游戏也会获得更多机会
 
    在与许多最受欢迎的网络游戏的合作方面,我们有很长的,同时令人骄傲的历史。《魔兽世界》、《天堂2》、《Soul of the Ultimate NATIon(SUN)》、《柯南时代》和《最终幻想XI》,以及其他许多网络游戏都参加了我们的“游戏之道(“The Way It''s Meant To Be Played”)计划。

饭田庆太:GTX 280带给游戏更多的机会
OL游戏也会因新显卡有全新的体验

    Webzen开发的Huxley是一个广受期待的多人在线的第一人称射击游戏——在它的开发过程中,我们就已经与他们合作,这是从2004年开始的。Nurien(我想这就是你所指的韩国网络游戏开发商)有可能开辟一个新的领域。它不仅独特、新颖,而且不同于其他的网络社区,它将提供较好的视觉体验。我们已经与他们合作很长时间了,特别是关于GeForce PhysX功能的实现方面。当天使跳舞的时候,她们裙子极其真实的运动的画面是你绝对不能错过的!

第八章/第二节 邓培智:性能翻倍 DirectX 10.1非主流

    邓培智:NVIDIA中国区产品技术经理,专营显卡多年,对于显卡技术有着非常深刻的见解和研究。

产品性能:还是翻倍

    GeForce GTX 200系列GPU在架构上和上一代统一架构GPU产品相比有了进一步改进。首先是增加了核心数量,由上一代的最多128核增加为240核。其次在架构内部针对图形和计算两方面的应用都作了进一步的优化,支持双精度浮点计算。GeForce GTX 200系列GPU架构上的改进带来的直接变化是无论在图形和并行计算两方面性能又有较大的提升;双精度浮点数的支持扩展了GTX200系列GPU在科学计算中的应用范围;而增加一倍的寄存器数量无论对复杂的shader程序还是并行计算程序都有更高的效率。另外,GTX 200系列GPU在显存带宽上与原有产品相比也有接近翻番的提升。

DirectX 10.1:不会是主流

邓培智:性能翻倍 DirectX 10.1非主流
唯一支持DirectX 10.1的游戏最近取消了支持

    到目前为止,DirectX 10.1尚未成为主流的3D API,目前几乎所有的新游戏均采用DirectX 10或者DirectX 9而非DirectX 10.1。 DirectX 10.1是一个DirectX  10较小的改进版本。

功耗:提升物有所值

    满负荷情况下GTX 280的功耗为236W左右,考虑到这个GPU的惊人性能,我认为这个功耗还是合理的。对于高端用户来说,他们对绝对的功耗数字也许并不敏感,更高的性能才是他们追求的。实际上,单纯谈论功耗是没有意义的,更有意义的是每瓦的功耗能够提供多高的性能。在这个方面,NVIDIA一直是领先业界的。比如说我们目前正在销售的Geforce 9600GT和9800 GTX这样的产品,其峰值功耗都不很高,但是性能非常好。与目前最快的CPU相比,GeForce 9800 GTX在与之类似的功耗下可以提供至少5倍的浮点计算能力,这样比较才是更合理的方式。

未来:保持技术和产品创新

    继续保持技术和产品创新,本着为用户解决最复杂的视觉计算问题的目标,为用户带来更完美的视觉体验。

第八章/第三节 全文总结

● 图形性能测试总结:

    在GTX200系列显卡强大的性能面前,给我们印象最深的非全特效流畅运行Crysis莫属,虽然9800GX2也能达到同样的效果,但是靠的却是两个核心。对于发烧友来说顶多使用两块9800GX2,但是GTX280就不同,支持三路SLI是其攀登性能巅峰的杀手锏。

    GTX280在3DMark Vantage中流畅的画面与不错的成绩令人刮目相看,可以说在这方面GTX200核心是没有对手的。3DMark Vantage测试项目加入了不少物理计算来考验CPU性能,实际上将这部分运算交给GPU更加合适,GTX200核心具备了更强的物理加速技术,但这需要游戏的支持。我们有理由相信将来会有不少PC游戏涉及物理运算,并且让GPU来处理,届时GTX200系列的潜能就可以进一步发挥!

● 并行计算测试总结:

    14亿个晶体管是个什么概念?可能很多人还不太理解,这里举个例子:Intel下一代六核心至强7400处理器(Dunnington核心)拥有19亿晶体管,这颗处理器是由三颗双核心处理器封装而成,外加16M三级缓存,所有的这些累计起来也才19亿,并使用45nm工艺制造而成。而GTX200核心是真正的原生单GPU,使用较早的65nm工艺制造而成,GTX200不仅是最复杂的GPU,而且是史上最复杂的半导体芯片,它的诞生具有划时代意义!

     在NVIDIA连续三年稳居3D图形王座的格局下,GTX200的发布不仅仅是为了巩固王位,其更高层次的目的就是,从3D图形走向通用计算,从而向CPU发起挑战。GTX200的核心架构是图形架构和并行结算架构的统一体,NVIDIA在设计之初就考虑到了通用计算的需要,为此对核心诸多模块进行了优化设计,硬件方面做好了充分准备;在软件方面,基于C语言的CUDA平台被越来越多的开发者所采用,简单易上手的开发套件为GPU的通用计算扫清了障碍,现在GPGPU被大规模采用只是时间问题。

游戏不是唯一!GPU加速图片/视频前瞻

    NVIDIA只花了一个月的时间,就完成了将PhysX物理引擎从PPU到GPU的移植,由此足以证明CUDA强大的功能及易用性。现在,很多基于GPU的非3D程序正在开发中(已经有Beta版本),比如本文中测试过的BadaBOOM视频转换软件、Folding Home分布式科学计算、Adobe Reader PDF浏览加速、PhotoShop CS4硬件加速、图片/地图搜索加速……可以预见的是,未来必将会有更多的GPU非图形应用走入千家万户!

{imageTitle}

● 迎接视觉计算时代来临:

    从GeForce(民用消费)、Quadro(专业设计)、Tesla(科学计算)再到针对移动手持设备的Tegra,黄仁勋(Jen-Hsun Huang)领军的NVIDIA正一步步开创着属于他的图形帝国、引领视觉计算时代的来临。相比CPU处理器多年面临的需求不足,NVIDIA创造需求推陈出新的做法使其更受推崇。

    然而横挡在NVIDIA面前的仍然是座大山(Intel),尽管这座大山看上去那么遥不可及。但在黄仁勋看来,3D图形终将成为PC(个人电脑)产业中,最重要的应用之一。<

2人已赞

关注我们

泡泡网

手机扫码关注