成就3D图形霸业!NVIDIA历代显卡回顾
1995年11月6日,从3DFX发布首款具有3D加速功能的VOODOO芯片开始,电脑图形核心正式进入了3D时代。在此之后,众多的3D显示产品设计、制造厂商投入到了这个全新的领域中,不过经过多年来激烈的市场竞争的洗礼,时至今日,NVIDIA与ATI的两强争霸成为了桌面独立图形领域竞争的主旋律。而当年也曾叱诧一时的许多名字,如SGI、SIS、TRIDENT、3DFX、等都已成为了历史,不禁让人唏嘘不已。
一代枭雄“野人”S3被VIA收购,3D时代昙花一现的TRIDENT被SIS收购(改名XGI图形部门),曾经不可一世的3DFX被NVIDIA收购,XGI被ATI收购,最后ATI被AMD所收购(依然是ATI图形部门)……能够在激烈的市场竞争中成功的生存并发展壮大,显然不是一件简单的事情,那么NVIDIA与ATI多年来得成功经验,也值得我们去探讨与总结。
去年在ATI被AMD收购之后,也就是在ATI 21周岁生日那天,我们曾对这位图形巨人的全系列显示产品进行了全方位回顾与介绍。接下来本文就通过对NVIDIA产品的总结及回顾,让读者对这些年来图形芯片市场的竞争有个全面的了解。
显卡经典回顾文章:风风雨雨21载!ATI经典显示芯片回顾
● 1993年NVIDIA诞生,年轻的NVIDIA后来者居上:
NVIDIA成立于1993年1月,总部位于美国加州圣克拉拉,目前已成为在全球拥有超过3,600名员工,股票市值超过100亿美元!其图形产品广泛应用于包括个人数字媒体PC、商用PC、专业工作站、数字内容创建系统、笔记本电脑、军用导航系统和视频游戏控制台等在内的多个领域。
同时我们也看到,NVIDIA“并不是一个人战斗”——NVIDIA一直以来采用的都是芯片授权开放政策,在NVIDIA在自身发展的同时,也实现了与自己的合作伙伴共同发展。随着NVIDIA的发展壮大,合作伙伴的规模越来越大,也逐渐形成了一套AIC(Add-in-Cards亲密合作伙伴)制度。这无疑使得NVIDIA整体阵营实现了一个良性的发展,得以在激烈市场竞争中立于不败之地。
● 文章导航:
[第2页] NVIDIA的处女作:NV1——声卡显卡二合一
NV2胎死腹中,但获得世嘉资金支援
[第3页] NV3=Riva 128,发力DirectX,首次大获成功
[第4页] 雷管引爆TNT系列,打垮3DFX
NV4=TNT震撼发布,雷管引爆性能
NV5=TNT2,性能翻倍,奠定NVIDIA王朝
NV6=NV5工艺改进版,TNT2 Pro/M64/Vanta狂扫中低端
[第5页] 硬件T&L,首款GPU诞生,GeForce的时代来临
[第6页] 纹理填充率过亿,GeForce 2 GTS的纪念意义
[第7页] 高端低端泾渭分明,GeForce 2 Ti/MX诞生
细分产品线,高端GeForce 2 Ti出世
一代经典GeForce 2 MX横扫地段
[第8页] DX8时代遭遇强敌,两强争霸格局已成
首款DX8显卡,GeForce 3发布
对抗8500,GeForce 3细分为Ti 500/200
[第9页] 为了王位!GeForce 4 Ti打垮8500
[第10页] 不可磨灭的经典,GeForce 4 MX系列无敌了
[第11页] 最具争议的作品——GeForce FX系列
[第12页] 备受指责的FX5800衍生物——FX5600和FX5200
[第13页] 亡羊补牢之作——NV35,FX5900
重新审视NV30的失败之处
亡羊补牢、为时不晚——FX5900扭转败局
[第14页] FX5900、FX5700苦苦支撑,经典产品为数不少
[第15页] GeForce 6系列问世,NVIDIA一雪前耻
NVIDIA陷入苦战,需要强力产品扭转局面
卧薪尝胆!GeForce 6系列问世,NVIDIA一雪前耻
[第16页]既叫好又叫坐 6800经典产品介绍
[第17页] NV大举反攻,GF6收复失地
[第18页]6600/6200产品及TruboCache技术详细介绍
[第19页] 让对手疲于奔命——GeForce 7800发布
6800压倒性优势战胜X800
不给对手喘息机会,GeForce 7提前面世
[第20页] 性能并不是唯一,7900从成本、功耗、发热方面胜出
NV攻其不备,ATI措手不及
性能并不是唯一,G71从成本、功耗、发热方面胜出
完美演绎性价比,7600/7300又是一代经典
[第21页] DX9末代的较量
R580确实强大,双核7950GX2出世
RV570遭遇强敌,难过7950GT一关
[第22页] 未来游戏发展趋势及GPU通用计算简介
算术操作比例提高 GPU并行处理能力性能空前
[第23页] DX10提前降临!8800领先ATI长达半年
[第24页] NVIDIA DX10产品线部署完毕,全文总结与展望
1993年1月,NVIDIA总裁兼首席执行官Jen-Hsun Huang(黄仁勋)与IBM专业图形适配器的技术师Curtis Priem以及Sun Microsystems的资深高级工程师Chris Malachowsky一起成了NVIDIA公司,开始了新的创业。
当时,NVIDIA的缔造者黄仁勋先生经过细致、认真的市场调查,还咨询过Bay Area公司的图形芯片业分析师Jon Peddie,最后决定正式进入当时甚至还没有形成市场的独立3D图形芯片行业。
● NVIDIA的处女作:NV1——声卡显卡二合一
1995年5月, 在SGS-Thomson Microelectronics(ST Micro)的帮助下,发布了第一款3D图形加速芯片NV1,并为著名的Diamond EDGE3D所采用。
Diamond EDGE3D
NVIDIA选择的3D实现方式是几家电视游戏机公司使用的forward-rendered quads技术与二次方程纹理映射(Quadratic Texture Maps,一种派生自NURBS:nonuniform rational B-splines 的算法)。而且,当时很多的3D加速卡都用到大量的小多边形来生成图形的曲线部分,由于每个多边形都包含了若干的顶点,大量的顶点处理提高了CPU的计算强度。
而NV1采用了一种更聪明的办法,通俗的说就是把正方形自身的边线弯曲化后再组合起来,所以整体减少了多边形的用量,也将低了计算强度。二次曲面技术可以提高很好的成像质量,但是当时这一技术并未被广泛采用。
NV1还整合了一个具有350MIPS的音频处理核心,具有32路并行音频通道。音频部分支持相位抖动,很适合游戏中的特效表现(怪兽的呼吸声、枪声)。另外,音频部分具有一个DMA引擎,可以通过PCI或者VL-Bus接口直接从主存中读取数据,避免了占有显卡的存储器。
在研发期间,多边形还没有成为3D应用程序的标准。不过,当时的3D游戏程序不少都是基于3DFX的GLIDE API开发,S3 Graphics ViRGE, Matrox Mystique, ATI Rage,和Rendition Verite V1000等显卡也都支持多边形技术,而微软在Windows 95系统中引入了以多边形填充为基础的Direct3D API,由于NV1并不支持上述两种API,而且不支持MPEG-1解码功能,所以NV1并未被PC市场所接受。
同时,正像NVIDIA副总裁Chris指出的那样,个人电脑市场的趋势是将显卡、声卡和游戏手柄等功能分开。然而,NV1采用的集成设计,虽然提高了产品成本,但技术上背道而驰缺乏竞争力。不过,即便NV1并不成功,但是由于其提供了诸如二次纹理映射功等功能,NVIDIA逐渐树立起技术派先驱的形象。
虽然在市场上吃了闭门羹,但是在游戏机市场,尤其是当时与任天堂双雄并立的日本家用游戏机巨头世嘉SEGA,在其新一代游戏机土星上使用了orward-rendered quads技术,这些游戏也使得NV1逐渐有了用武之地,而且SEGA也作了不少努力将土星平台的游戏移植到PC平台,如铁甲飞龙和VR战士。因此NVIDIA和SEGA也建立紧密的合作关系。
● NV2胎死腹中,但获得世嘉资金支援
就在NVIDIA因为NV1而陷入财政危机的时候,SEGA给NVIDIA送来了700万美元的定金,用于下一代游戏机显示芯片的开发。但是当时SEGA发现QTM有所缺陷,而且日本的游戏开发人员也开始逐渐接受了多边形成像技术,所以SEGA也希望NV2能有所进步,并派图形设计工程师小组到NVIDIA协助开发。
但是NVIDIA则固执的坚持使用QTM技术,这也使SEGA十分失望。为了给新主机一个更好的开发环境,SEGA同时也开始与在PC游戏领域风头正劲的3DFX接触,甚至在1997年2月同SEGA秘密签署了合同,采用Banshee的onBoard版本。当然由于NEC在中间的作用,最终SEGA采用了NEC/Videologic的产品,即PowerVR(Imagination Technologies 的子公司)的图形芯片,NV2也被SEGA所弃用,最终不了了之。
1995年8月,微软发布了Windows95操作系统,凭借崭新的图形交互式界面设计,很快席卷了全球个人电脑市场。在PC领域,微软的成功是空前的,几乎没有遇到任何可以匹敌的对手。微软的Windows95操作系统凭借接近90%(PC OS)的市场占有率,直接代动了相关硬件产品的需求,也使得全球的硬件软件厂商都不得不向其靠拢。由于微软的Windows95采用图形交互式界面(GDI),对于显示芯片有了更高的要求,这也使个人电脑市场的大幕正式揭开了!
在之前的1995年2月,微软收购英国Rendermorphics公司,利用其所有的RealityLab 2.0技术制定了Direct3D标准,整合在其WINDOWS操作系统中,对PC图形芯片市场产生了巨大影响。
● NV3=Riva 128,首次大获成功:
此时的NVIDIA总结了前2款芯片的经验教训,在经过细致的市场分析之后,将研发的方向定位于市场前景广阔的PC图形芯片市场,并且决定加入对DirectX的支持。这无疑是个非常明智的选择,在当时由于3DFX的GLIDE的成功,各家显示芯片公司纷纷效仿,也想推出自己的3D API,例如,3dfx有GLIDE、PowerVR的PowerSGL、ATI的3DCIF,无疑使得微软Direct 3D的推广十分缓慢,NVIDIA此时选择旗帜鲜明的站到了Direct 3D的一边,这种做法也受到了微软的赏识,从而有了一个坚强的后盾。
另外,当时在3D FPS游戏市场,独领风骚的是ID SOFRWARE的QUAKE系列,而其程序设计师JOHN CARMARK明确的拒绝了3DFX采用GLIDE的建议,而是基于公开的OPENGL API开发,这无疑也是NVIDIA得以崛起的另一个因素。而且,经过时间的考验,至今这两家公司仍然保持了非常好的关系。后来在Quake3的硬件加速问题上,John Carmack甚至拒绝提供任何形式的MiniGL加速,而要求所有图形卡运行在OpenGL ICD环境下,使得3DFX相当难堪。
NV3-RIVA 128
接着,为配合研发方向的转变,NVIDIA聘请了David Kirk(NVIDIA首席科学家,现已当选美国国家工程院院士),并将其任命为技术总监。1997年,NV3终于面世,被命名为RIVA 128。它也是第一个提供硬件三角形引擎的128 bit图形芯片,虽然RIVA 128的图像质量比不上3dfx Voodoo,但是凭借100M/秒的像素填充率和对OPENGL的良好支持,RIVA 128在非GLIDE API的游戏中完全超过了Voodoo,迅速赢得了消费者和一些OEM厂商的青睐。
RIVA 128显卡
Riva128支持AGP 1x规范,可以配合Intel的LX芯片组主板使用。1997年底,Dell、Gateway等厂商相继使用了RIVA 128显卡。零售市场上,Diamond、STB、ASUS、ELSA和Canopus等也都相继推出了基于此芯片的产品。不到一年,Riva 128的出货量就突破100万颗,NVIDIA终于凭借NV3打了个翻身仗。
总的来看,Riva 128取得成功的因素是多方面的,本身的处理性能固然很重要,但是1998年游戏软件方面的发展变化也很关键:
首先,年初ID开放了QUAKE2引擎的授权,包括VALVE在内的游戏软件开发商在3月份就获得了QUAKE2引擎的源代码,并用于游戏的开发,使得QUAKE2引擎的3D游戏名作诸如《异教徒》、《半条命》等大量上市,Riva 128良好的OpenGL性能得到了充分的发挥。
名称 | RIVA TNT | RIVA TNT2 |
架构 | NV4 | NV5 |
制造工艺 | 0.35 Micron | 0.25 Micron |
晶体管数目 | 7 Million | 15 Million |
DirectX支持 | 6 | 6 |
顶点管线 | 1 | 1 |
VS版本 | - | - |
像素管线 | 2 x 1 | 2 x 1 |
PS版本 | - | - |
核心频率 | 90 MHz | 125 MHz |
填充率 | 180 MTexels/s | 250 MTexels/s |
显存位宽 | 128-bits | 128/64-bits |
显存类型 | SDR | SDR |
显存速度 | 110 MHz | 150 MHz |
显存带宽 | 1.76 GB/s | 2.40/1.00 GB/s |
从TNT2开始NVIDIA对产品进行了市场化细分,在高中低端,面向多种不同的用户,TNT2芯片衍生出TNT2 Vanta、TNT2 M64、TNT2、TNT2 Pro、TNT2 Ultra等不同的型号产品,搭配不同显存的容量,产品线覆盖了大部分的市场。
Inno3D TNT2 Ultra
TNT2 Ultra是系列最高端产品,也是NVIDIA第一次使用Ultra后缀命名高端产品,TNT2 Ultra只是从NV6核心中挑选出的品质优秀的芯片,并搭配了速度最快的显存,其核心/显存频率高达150/183MHz,后期更是提高到175/200MHz,性能上超过了3DFX的VOODOO3 3500以及MATROX的G400 Max,而且支持的特效也很全面(比G400少一个EBM环境凹凸贴图),成为当时性能之王。当然TNT2 Ultra的售价也很高,当时丽台、华硕、创新等一线品牌TNT2 Ultra的国内上市售价高达2300元(1999年5月)。
TNT2标准版是高端系列的普及型产品,也是TNT2 Ultra的降频版,核心/显存频率为125/150MHz,但是由于TNT2采用0.25微米工艺,核心普遍可以工作在150MHz左右,所以也造就了良好的超频能力,于是众多游戏发烧友更倾向于购买TNT2标准版版超频至TNT2 Ultra来使用,记得当时甚至还有不少玩家超到了165/200MHz的水平,性能也是也达到了一个新的高度。价格上TNT2标准版也更有优势,32MB显存的TNT2国内上市售价为1500-1750元左右,16MB的TNT2 Pro则在1350-1500左右。
● NV6=NV5工艺改进版,TNT2 Pro/M64/Vanta诞生
后期随着制程的进步,NV6也使用了0.22微米工艺,并被命名为TNT2 PRO,也被用于部分TNT2 Ultra。由于使用0.22微米制程后,TNT2 PRO的成本、功耗有、发热有明显下降,超频能力更强,性价比进一步提高。除了高中端的TNT2标准版外,NVIDIA同时也利用0.22微米工艺的NV6芯片,推出了针对中低端用户的TNT2 Vanta和TNT2 M64。
Inno3D TNT2 M64
TNT2 M64是NVIDIA在中端的力作,针对125美元以下的主流市场,对手为S3 Savage 4 Pro。为了降低成本,其显存接口从128bit降到了64bit,显存带宽为1GB/s,其他方面和相差不大,最大也可以支持32MB显存容量,AGP4X规范。性能上M64介于TNT2 VANTA和TNT2 Pro之间,只是在高分辨率及32BIT色深下的性能下降不少。其在国内的上市价格也在1000元以下, TNT2 M64也成为中端市场曝光率最高的显卡,凭借出色雷管驱动程序,M64也战胜了Savage 4 Pro。整个TNT2家族在1999年几乎抢占了80%的独立3D显卡市场。使得NVIDIA不仅在技术上,在市场上也领先于3dfx。
TNT Vanta规格和M64相同,频率降至100/125MHz,主要面向OEM市场
TNT Vanta是系列的入门级产品,针对OEM市场,相比TNT2 M64核心/显存频率降到了100/125 MHz,有8/16MB两个版本。价格也更低廉,价格在600元以内。由于性能不俗且价格优势明显,后期采用了0.22微米工艺NV6芯片的产品竞争力更强。NVIDIA第一次进军OEM市场便取得了非常好的成绩,也使在这一领域经营多年的ATI感受到了相当的压力,凭借RAGE系列出色的DVD解压能力,总算保住了一定的市场份额。
1999年8月,伴随着微软DirectX7.0的发布,引入基于图形核心的多边形转换与光源处理(Transform and Lighting),而且10月上市QUAKE3引擎也采用了这种技术。
Geforce 256具有了现代GPU的大部分的初步特征,核心采用了256位渲染引擎,具有4条象素管线,每管线一个纹理映射单元,它也是第一个使用DDR显存的PC显卡。Geforce 256核心频率为120MHz,三角形生成率为1500万个/秒,峰值像素填充率达到480 M/s,并使用了四纹理(Quad Texel)引擎,相同频率下,Geforce 256的纹理处理性能是TNT2的两倍。特效方面,支持立方体环境映(Cube environment mapping)以及顶点混合、纹理压缩和凹凸映射贴图等。视频方面,为了加强为MPEG-2视频回放性能,NV10中加入了硬件动态补偿功能。
GeForce2上也首开了PC图形核心通用计算的先河,凭借其强大的多纹理处理性能,结合纹理环境参数和纹理函数可以实现一些很灵活的应用。它具有Texture Shader以及Register Combiner单元,有一定的数值计算能力。开发人员可以利用Texture Shader的依赖纹理进行数据访问,用Register Combiner进行计算。GeForce2被用于求解数学上的扩散方程,成为GPU通用计算的最早应用。
GeForce4 Ti采用了第二代nfiniteFX 引擎,它是从GeForce3时代开创的nFiniteFX引擎改进而来的,顶点SHADER单元增加到2个,像素着色单元的效率显著的提升。GeForce4 Ti也同时引入了第二代LightSpeed Memory Architecture II(LMA II)光速显存构架技术,在全屏反锯齿方面,GeForce4 Ti采用了新的Accuview AA技术。从总体上看,GeForce4 Ti也是从GeForce3的加强优化版本,核心增加了一个顶点单元,同时频率也比GeForce3有了很大的提升。
NVIDIA采用和以往相同的方法,通过运行频率的高低将高端的GeForce 4 Ti系列细分为4600、4400、4200三个系列,其中的GeForce 4 Ti 4200性价比高,性价比高,深深受消费者喜爱。其原本用于OEM市场,也是寿命最长的一款GeForce 4 Ti产品。
后来随着AGP8X规范的普及,NVIDIA推出了NV25的AGP8X版本—NV28,核心频率和显存频率略有提升。NV28也有三个型号的产品:GeForce4 Ti4200-8X和GF4 TI4800SE和GF4 TI4800。GeForce4 Ti4200-8X和GF4 TI4800SE和GF4 TI4800可以看成是GeForce4 Ti4200、GeForce4 Ti4400、GeForce4 Ti4600的AGP8X版本。
GeForce4 Ti4200又分为64MB和128MB两个版本。64M版本GeForce4 Ti4200会搭配64MB的3.5ns DDR SDRAM显存(频率500MHz),128MB版本则搭配128MB钓4ns的DDR SDRAM显存(频率444MHz)。从官方价格上看,后者会比前者贵20美元,显然对于游戏玩家来说。64M 3.5ns DDR SDRAM的版本是非常好的的选择。
Inno3D GeForce 4 Ti 4400显卡,该显卡使用了和GeForce Ti 4600相同的PCB,只是用料上略有简化。也是唯一一款Inno3D品牌的红色PCB的显卡产品。
GeForce 4 Ti 4400的运行频率275 / 275 MHz,和GeForce 4 Ti 4600一样使用8层PCB及3.6 ns显存颗粒。由于频率和GeForce 4 Ti 4600相差不大,性能也接近GeForce 4 Ti 4600,但价格却下降不少,所以性价比也更高。
公元2002年11月18日,Comdex 2002上,NVIDIA发布了研发代号NV30的GeForce FX,这也成了历史上Nvidia最具争议的一款产品。在回顾GeForce FX系列产品前,我们不妨先对NV30的问世背景做个简单介绍。
不过NVIDIA的一家独大也引起了一些业内人士的不满,他们指责NVIDIA是图形业内的INTEL。当然这也使与NVIDIA一贯合作良好的微软有所注意,尤其是NVIDIA在DirectX 8标准制定过程中的某些做法以及开发自主的CG语言等,使得微软不等不重新审视这个昔日的合作伙伴,两家公司的开始逐渐变得貌合神离。
在CineFX着色引擎中,具有32个128位浮点处理器。并在PC图形核心历史上首次提供了128bit色彩精度的支持,并且可以在同一个着色程序中的不同色彩精度中切换。
NV30的顶点着色单元较前代也有了质的飞跃,可以支持到Vertex Shader 2.0+,所能处理的最大指令数为65536,这一点远远高于DX9.0的规范。而且,初级的动态循环和分支指令的引入提高了着色单元的可编程性。像素着色单元支持Pixel Shader 2.0+,同样也超出了DX9.0规范,最大指令数提高到1024,对于每一个像素最大可进行16个纹理贴图操作,而且像素单元可以支持更多的高级指令,并且可以进行指令预判。总的来说,CineFX引擎支持更多的指令,因此可以带给开发者更大的发挥空间。
同时CineFX引擎也可以很好的支持NVIDIA的Cg(C for Graphics)编程语言,使得开发人员可以利用Cg语言而无需针对底层硬件进行编程,从而降低了图形编程的难度,可以更方便、快捷的开发出游戏所需要的渲染效果。
在反锯齿方面,4X FSAA是NV30设计的中心,也是NV30硬件效率最高的操作。为了使4X FSAA运行更快,NV30在反锯齿设计上进行了重新制定,每个数据通道的宽度都为4X FSAA做了优化。同时,NV30还首次采用了Intellisample(智能采样)、(Adaptive Texture Filtering)自适应纹理过滤等技术一提供更好画面质量。
在内存控制方面,NV30采用了4X32bit共128bit的位宽。由于采用了全新的DDR-II显存,所以NV30在GeForce 4的LMA II的基础上(Lightspeed Memory Architecture,光速内存结构)针对DDR-II做了相应的优化设计。这款内存控制器实际上是全新设计,对4X FASS进行了全速优化。ROP(光栅化处理器)、帧缓存等都是根据它来设计的。而且它运行在2X的核心频率上,可以充分利用DDR-II的特性。
GeForce FX 5800 Ultra的DDR-II SDRAM显存运行频率为1GHz,不过由于是128BIT位宽,和对手的Radeon 9700相比,其峰值带宽落后25%。但由于新型LMA内存控制器提高了Z-culling和压缩方面的性能,顶点、纹理和Z轴数据都进行了压缩以节省带宽,在程序配合较好的情况下,NV30可以更有效的使用带宽。再加上Z-occlusion和纹理压缩等技术,GeForce FX 5800 Ultra的实际最大带宽可以达到20GB/s。
● 备受指责的5800衍生物——FX5600和FX5200
由于GeForce FX 5800 Ultra高昂的价格,显然很难为普通的消费者所接受,旗舰级产品更多的是为了技术实力,只能面向规模较小的高端市场。为了加快GeForce FX系列的普及,2003年3月的GDC大会上,NVIDIA发布了面向主流市场的NV31和NV34,即GeForce FX5600和GeForce FX5200系列,这标志着NVIDIA开始全面更新其产品线,使得更多的普通用户也可以体验到GeForce FX系列的新技术。
Geforce FX5600 Ultra显示芯片内部研发代号为NV31,同样采用0.13um制程工艺生产,晶体管数量约为8000万个,和NV30相比减少了36%。产品定位于Geforce Ti4200接替者,是DX9级别的中端主力显卡。NV31采用了四条像素管线,每条管线的纹理单元缩减到了一个,也是进入Shader时代后,NVIDIA第一个基于4×1架构的核心。显存方面,NV31采用了主流的DDR,虽然速度不及FX 5800 Ultra的DDRII,但是成本及功耗都有大幅的下降。NV31的显存控制方面也有所变动,用两个64-bit显存控制器而不是FX 5800那种四个32-bit显存控制器的设计。NV31也采用CineFX引擎,具有与高端NV30完全一样的技术特性,不过浮点运算单元的数量被精简,具体为Vertex Shader缩减到NV30的1/3,Pixel Shader数量则为NV30的3/4。
Geforce FX5600 Ultra是系列的最强版本,核心频率最初为350MHz,后来经过改进后提升至400MHz。虽然GeForce FX 5600 Ultra被定为Ti4200接班人,但早期低频版(350MHz)在当时的一些游戏中得性能提升得有限,甚至在部分游戏中还输给了超频后的GeForce4 Ti 4200,这样的表现无疑令人感到意外。面对Radeon 9600 PRO的强劲攻势,GeForce FX 5600 Ultra显然难以招架,只能将对手定为Radeon 9600。
为了进一步提升Geforce FX5600 Ultra的竞争力,NVIDIA协同TSMC将NV31的封装方式进行了改进,核心频率也提升到400MHz,和Radeon 9600 PRO相同。同时,显存速度也提升到800MHz,这时FX5600 Ultra才真正超越了GeForce4 Ti 4200,与Radeon 9600 PRO也的差距被缩小了很多。不过这也延误了不少时间,新版的FX5600 Ultra直到7月份才上市,让Radeon 9600 PRO独占中端市场数月之久。NVIDIA后来还迁怒于TSMC,并将Geforce FX 5700的NV36核心改由IBM生产。
Geforce FX5200 Ultra显示芯片的研发代号为NV34,目的是取代Geforce MX440,FX5200的出现也标志着NVIDIA的低端产品线跳过了DX8而直接进入DX9。NV34采用更为成熟的0.15微米工艺,集成的集体管数目大约在4500万个。架构方面和NV31相同,具有4条像素管线及4个TMU单元。NV34核心作为Geforce FX家族中的低端产品,但也采用了CineFX引擎,完整支持DirectX 9.0的Pixel Shader 2.0+与Vertex Shader 2.0+ ,但是去掉了对IntelliSample技术的支持。不过NV34集成TV编码器、TMDS传送器和两个350 MHz RAMDAC,支持高画质电视输出,在多媒体方面有更好的表现。
Geforce FX5200 Ultra的核心/显存频率分别为325/650MHz;5200标准版则为250/400MHz。Geforce FX5200的推出有效缓解了NVIDIA在低端市场的压力,因为只支持DX7的MX440已经无法胜任新一代游戏。同时在DirectX 规格上Geforce FX5200 也领先对手的Radeon 9000和Radeon 9100。
但是遗憾的是,由于0.13微米工艺的不成熟,NVIDIA在NV31核心的生产过程中并不顺利,产量始终难以满足市场的需求,而且由于NV31核心设计上的不成熟,很快就让位于NV36核心的GeForce FX5700Ultra。
现在回过头来看,NV30在架构的设计上还是存在着不少问题,其中最主要的就是Piexl Shader的处理能力低下。由于NV30的Piexl Shader单元没有co-issue(标量指令+矢量指令并行处理)能力,而在DirectX9.0中,单周期3D+1D是最常见指令处理方式,即在很多情况下RGB+A是需要非绑定执行的,这时候NV30就无法并行执行,指令吞吐量大大降低。其次,NV30没有miniALU单元,也限制了NV30的浮点运算能力。
另外,NV30在寄存器设计(数量及调用方式)、指令存储方式(读写至显存)等方面也有缺陷。NV30的寄存器数量较少,不能满足实际程序的需要。而且,用微软的HLSL语言所编写的pixel shader2.0代码可以说NV30的“天敌”,这些shader代码会使用大量的临时寄存器,并且将材质指令打包成块,但是NV30所采用的显存是DDR-SDRAM,不具备块操作能力。同时,NV30材质数据的读取效率低下,导致核心的cache命中率有所下降,对显存带宽的消耗进一步加大。
寄存器调用
同时,由于NV30是VILW(超长指令,可同时包含标量和SIMD指令)设计类型的处理器,对显卡驱动的shader编译器效率有较高的要求。排列顺序恰当的shader代码可以大幅度提升核心的处理能力。NVIDIA也和微软合作开发了"Shader Model 2.0A",可以为NV30产生更优化的代码。在早期的一些游戏中,这种优化还是起到了一定的作用。但对于后期Shader运算任务更为繁重的游戏则效果不大。
从宏观上说,NV30的整体架构更像是一个DirectX7(固定功能TRUE T&L单元)、DirectX 8(FX12combiner DX8整数处理单元)、DirectX 9(浮点像素单元)的混合体。而在DirectX 9的应用中,不能出现非浮点精度的运算,所以前两者是不起作用的,造成了NV30晶体管资源的浪费,同时也影响了性能。而NV30这种DirectX 7、8、9三带同堂的架构也让我们想起了一个至今仍在广泛使用的3D测试软件: 3DMark03——这会是一种巧合吗?
虽然NV30的架构决定了它在DirectX 9游戏中的表现不会很好,但是由于在整个2003年,DirectX 9并未成为游戏开发的主流,所以NV30的架构缺陷并未暴露出来。即便如此,NVIDIA还是意识到了NV30的一些不足,并迅速对NV30的像素着色单元做出了改进,并于2003年5月的GDC上,发布了新一代研发代号为NV35的5900系列。
● 亡羊补牢之作——NV35,FX5900
NV35芯片采用更加成熟了的0.13微米铜互联工艺,芯片的良率比NV30大幅度提升。核心面积为40mm×40mm,采用1309针FCPGA封装,内部晶体管数量达到了1.3亿。虽然比NV30又增加了500万个晶体管,不过通过改进的工艺,NV35的发热量略有降低,因此没有搭配Flow FX散热系统。
NV35
新的NV35采用了CineFX2.0引擎,和第1代CineFX相比,NVIDIA对Piexl Shader做出了一定的改进,在保留FX12 combiner的同时增加了两个可进行浮点运算的miniALU,虽然miniALU的功能有限,但是还是使得NV35的浮点运算能力提高了一倍。
NV30中的CineFX2.0还改进了Intellisample(智能采样)技术,增加了更多的高级纹理、色彩以及Z轴压缩算法以提升图象质量,并重新命名为“Intellisample HTC(高分辨率压缩技术)”技术。
CineFX 2.0引擎引的另一个改进是引入了UltraShadow的技术。UltraShadow也可以说是为IDSoftware的新一代DOOM3引擎量身打造的,因为DOOM3引擎大量采用了体积阴影技术(Volumetric Shadow),Shadow Volume可以更加精确的表现动态光影效果的场景,但由于阴影体积引入了额外的顶点和面,也加大了光影计算的强度。而Ultra Shadow可以简化光影计算的过程,它允许程序员定义场景中一个区域,将物体的阴影计算限定在一个特定范围内,从而加速阴影的计算速度。此外,UltraShadow技术还允许程序员在一些关键的区域对阴影进行调整,从而创造出可与真实情况媲美的优秀视觉效果。Ultra Shadow还能利用Intellisample HTC技术以确保阴影边缘的
NV35刚发布时有两个版本——GeForceFX 5900和5900 Ultra,核心频率分别为400MHz和450MHz,而显存频率都是850MHz。因此显存带宽达到27.2GB/s,不仅远远超过GeForceFX 5800 Ultra的16GB/s,也比Radeon 9800Pro的21.8GB/s高出不少。
虽然在5月发布的5900系列为NVIDIA在高端产品线挽回了不少损失,但是在市场规模、利润最大的中端方面,却面临更严峻的形势,由于ATI在3月发布了RV350,也就是Radeon 9600 系列,再加上因为具有修改潜力而已经颇具人气的Radeon 9500,使其竞争力大幅度提高,而NVIDIA则只能由经典但已显老迈的TI 4200、新一代的5600 Ultra来抵挡ATI的攻势,但是早期的5600 Ultra(350/700)因为自身架构和频率的原因,难以独当一面,在一些应用中性能甚至不敌Ti4200。后期的高频版5600 Ultra(400/800)则迟到了近2个月而且产量有限,业界还传出了NVIDIA在GeForce FX 5600 Ultra的生产上遇到了困难的消息。总之,NVIDIA的一系列变故使得ATI在中端主流市场轻松的获得了领先。
显然由于市场竞争的激烈态势,GeForce FX 5700 Ultra才是这次发布的重头戏。GeForce FX 5700芯片的开发代号为NV36,目的是替代GeForce FX 5600和GeForce FX 5600 Ultra。NV36内部集成了8200万个晶体管,虽然同样为4X1架构,具有4条像素管线及每管线一个TMU单元,由于继承了NV35的Cine FX2.0体系架构和Ultra Shadow阴影加速技术,顶点处理能力、特别是浮点性能比NV31提高了200%--300%。显存方面和NV31相同,使用了两个64-BIT显存控制器支持128-BIT的显存位宽。
有鉴于在NV31核心的生产遇到的种种意外,这次nVidia 将NV36交由IBM 生产,GeForce FX 5700也是IBM与nVidia合作的第一款产品。不过GeForce FX 5900/5950仍由TSMC负责生产。和GeForce FX 5600一样,GeForce FX 5700也基于0.13微米工艺制造,但是IBM采用了低介电系数材料工艺(low-k dielectric),用来绝缘核心中的导体环路,在不增加功耗的情况进一步提升核心频率。
所以GeForce FX 5700 Ultra核心频率提高到475MHz,比FX 5600 Ultra高出75MHz。显存方面则搭配了日趋成熟DDR2的显存,工作频率900MHz,提高了性能的同时,也减少了功耗。后来,GDDR3显存的FX5700Ultra,GDDR2跟GDDR3的针脚是兼容的,所以不用重新设计PCB。由于GDDR-3的Latency比GDDR-2要高,所以将其显存工作频率升至950MHz 。
整体来看,GeForce FX时代让NVIDIA陷入低潮,高中低端都损失了大量份额,但在当时N卡凭借价格优势和NVIDIA自身驱动方面的优势还是一大批忠实的拥护,尤其是在FX5900和FX5700发布之后,诞生了一大批经典产品:
● 亡羊补牢为时不晚,FX5900衍生物苦苦支撑到GF6发布
驱动中泄漏的 FX5900SE
实际上NVIDIA的产品线中并没有“ FX5900SE"这款芯片,尽管目前有不少显卡厂商使用这样的名称来命名自己的显卡产品。根据当时NVIDIA的规定, NV35系列的显卡,除了GF FX5900Ultra外, FX5900的规格,比如PCB,显存/核心频率等参数,厂商均可以自由设定。同时,NVIDIA在2003年秋季也针对GF FX5900开发出了第二种公版,也就是P177板型,P177简化了P172板型的10层PCB设计而采用8层,厂商可以使用这种板型,搭配相应规格的显存来推出“普及型”的 FX5900。
综上所述,叫做“FX5900SE"的显卡,使用的芯片和标准 FX5900是完全一样的NV35。只不过在做工和频率方面, "GF FX5900SE"有所简化与降低。这种简化却使FX5900SE拥有比GF FX5900标准版更超值的价格,显卡的性价比大幅度提高。这也就是FX5900SE推出的市场背景。
Inno3D GeForce FX 5900SE,核心频率和标准版一样为400MHz。采用了P177公版,是8层PCB简化设计,比FX5900的十层PCB和奢华的供电系统,成本大幅度降低,这也是FX5900se能够以1999元价格上市的原因。
总的来说,Inno3D GeForceFX 5900SE只是FX5900的低频版,做工方面也保持了相当的水准,三洋OS-CON Low ESR固态电容的使用使得产品的超频能力更强大。根据当时的评测结果,大部分GeForceFX 5900SE都可以GeForceFX 5900Ultra的频率,性价比很高。
由于对手ATI用“XT"后缀命名高端产品,例如Radeon 9800XT,NVIDIA则用“XT"命名了5900的低频版,这种做法虽然引起了一些非议,但是市场效果还是不错,也反映了NVIDIA市场手段的灵活。
现在来看,GeForce FX5700 Ultra的定位与GeForceFX 5900XT有些重叠,当时二者的售价都在200美元左右,显然FX 5900XT的性能更高,这也注定了GeForce FX5700 Ultra的尴尬的地位。
如果说GeForce FX 5600并不是GeForce4 Ti4200合格的接班人的话,那么凭借改进的CineFX 2.0架构以及较高的运行频率(默425MHz/550MHz),GeForce FX 5700才真正有资格作为Ti4200的继任者。GeForce FX 5700采用了公版P191设计,为6层PCB,周边电路有所简化,成本上也更低,相比FX5700 Ultra 200美元的价格,FX5700的上市售价也仅为135美元,性价比较高,也吸引了相当多的注重性价比的中端游戏玩家。
为了挽回在低端市场的劣势,NVIDIA推出了GeForce FX 5700的降频版——GeForce FX 5700LE,以顶替FX5600XT的位置。GeForce FX 5700 LE核心/显存频率为250 / 200 MHz,和对手的Radeon 9550相同。FX 5700LE采用了专门开发的4层P222公版PCB,通过降低运行频率,可以大幅度降低成本,同时由于支持CINFX 2.0以及Ultra Shadow等新技术,其在DOOM3中的表现也很不错,伴随着DOOM3的热卖,所以GeForce FX5700LE成为当时500-700元市场的有力竞争者。同时,FX5700LE同样采用的是0.13微米、FC-PGA封装的NV36核心,朝频潜力很大,对ATI构成了一定的威胁。所以,在FX5700LE发布的当天,ATI就不得不把Radeon 9600SE的产品价格降低30%。
GeForce FX5700LE并不是5700家族的最后一款产品,2004年后期,NVIDIA还推出了GeForce FX5700VE,是一款专门针对OEM市场核心。随着后期FX5700/5700 Ultra的停产,为了弥补低端AGP接口产品线的缺口,其也被用于零售市场的销售。FX5700VE采用和标准版同的34x34封装,而FX5700LE采用了31x31封装,除此以外,二者规格完全相同,此处不再详细介绍。
2003年第四季度,NVIDIA在图形核心市场的占有率首次被ATI以微弱优势所超过,这也说明GeForce FX系列显卡在与Radeon 9系列的较量中处于下风。不过在整个2003年,由于基于DirectX 9开发的游戏屈指可数,所以中高端市场上GeForce FX显卡的表现并不差,高端方面,除了GeForceFX5800输给了Radeon 9700以外,GeForce FX5900又很快收复了失地,并与Radeon 9800旗鼓相当。在整体利润最大的中端尤其是150美元左右的市场,NVIDIA囤积重兵,先后使用了GeForce4 Ti、GeForce FX5600、GeForce FX5700三款产品,而Radeon 9500、9600在当时没有DirectX 9游戏支持的情况下,并没有占得太大的便宜。
Q1''04又夺回了第二的位置
然而在低端100美元以下市场上,NVIDIA就很不好过了。主要是GeForce4 MX440、GeForce3 Ti200、GeForce FX5200完败给对手的Radeon 9000/9200。和MX440相比,Radeon 9000在成本相当的情况下有规格优势,而与GeForce FX5200相比,Radeon 9000除了成本、功耗的优势外,凭借优秀的着色器效率,在性能上也略微领先,低端市场对占有率影响更大,这就是ATI占有率得以反超的原因。
不过在高端方面,新一代的NV40已是即将发布,NVIDIA绝地反击的大幕也将被拉开。
NV40采用了0.13微米工艺制造,由于引入了SM3.0电路,其内部集成了2.22个亿晶体管,由于这已经是当时0.13微米工艺的极限,NVIDIA通过IBM合作,引入冗余电路技术,提高了NV40良品率。
CineFX 3.0引擎在着色器单元部分的提高更大。首先在Vertex Shader方面,NV40完整支持Vertex Shader3.0,为了更好的利用动态条件分支的特性,顶点单元采用了MIMD的设计,每个单元由一个4D向量处理器和一个1D标量处理器及以及顶点纹理取样(Vertex Texture Fetch)单元构成,可进行指令的并行处理。
Vertex Shader结构
NV40可以支持的Vertex Shader指令长度不再受到限制,开发人员可以根据自己的需要任意长度的顶点着色代码。顶点单元具有完整的程序流程控制的能力,程序员通过“if、else、then"等指令能够在各个分支中跳转,还可以方便的调用子程序,从而使着色程序执行效率显著提高,尤其对于取消指令长度后的着色程序更为有效。
NV40的Vertex Shader还有一个特点就是可以支持顶点纹理拾取。它允许Vertex Shader像Pixel Shader一样从纹理中读取数据。在渲染过程中,程序把包含了有效顶点位置的网格(mesh)传入到vertex shader中,顶点纹理拾取就能将纹理转换为几何体。
另外,NV40还支持Vertex Texturing,可以在单个pass里完成4个纹理的查找操作。使用Vertex Texture后,在游戏中可以获得更真实的水面模拟效果等更高级的特效。过去,开发人员一般使用凹凸贴图模拟水面,但是与采用Vertex Texture和几何位移算法实现的效果比相差甚远。
在Pixel Shader方面,NV40采用了超标量的设计,增加了一个完整运算功能的FP32 Shader Unit2,所以NV40的两个Shader Unit都具备完整的mini ALU以及浮点运算能力,而Shader Unit1还可以进行纹理定址至以及执行用于计算法线的nrm指令。NV40共有32个FP32 Shader Unit,峰值浮点计算性能可以达到76.8 GFlops。
NV3X的Pixel Shader由于不具备co-issue能力,指令并行处理能力较低。有鉴于此,NV40中也提供了对co-issue的支持,并被命名为Dual-Issue,执行方式上也更灵活,不仅支持常见的3D+1D,还可进行了2D+2D的操作,使NV40的峰值Pixel Shader指令吞吐量达到了空前的25600 MIPS。另外,nVidia重新设计NV40的寄存器部分,还增加了寄存器的数量,VS3拥有32个,256个常数寄存器,Pixel Shader拥有10个interpolated寄存器、32个临时寄存器、224个常数寄存器,保证Shader具有充足的Register资源可以利用。
另外,NV40的Pixel Shader也具有动态程序流程控制,完全支持子程序、循环和分支的程序流程,提供了循环计数寄存器和条件码的支持,还提供了一个新的back/face寄存器,不仅提高了编程的灵活性,还可以减少无效渲染。
NV40的ROP单元也采用了全新的设计,支持16位浮点像素混合(FP BLENDING)功能,可实现优异FP精度的HDR效果(nVidia将其命名为HPDR,采用OpenEXR做为运算的缓存格式)。ROP单元还支持多渲染目标(Multiple Render Targets)技术,使光照可以在所有几何图形被渲染以后最后进行应用,不再需要进行多步的渲染。因而这种技术也可以被称为延期着色(Deferred Shading)。
NV40还引入了全新的 IntelliSample 3.0 抗锯齿技术。 其核心是一套旋转网格线( Rotated-grid )的抗锯齿采样算法,旋转栅格方式允许子像素更好地覆盖在水平方向和垂直方向上,能为多边形边缘提供更高的色彩精确性。
NV40也采用了第二代UltraShadow技术,UltraShadow II技术具有32 Z/stencil渲染能力,即在渲染stencil shadow volume等效于32管线。NVIDIA宣称UltraShadowII速比Ultra Shadow第一代高出四倍,可以提高显卡在Doom3中的性能表现。UltraShadowⅡ技术同样能和的IntelliSample 3.0 配合,确保阴影边缘能获得正确抗锯齿效果。
另外,NV40在视频方面也是进步不小,提供了强大的视频编码、解码支持,能够实现MPEG-2(标准分辨率以及高清晰分辨率)、MPEG-4(DiVX)、WMV9(标准分辨率和高清晰分辨率)的硬件编码和硬件解码。内建的VP单元(Video Processor)还提供了自适应消除场交错现象、高品质的缩放、伽马纠正、噪点降低、WMV9/H.264的运动补偿和色块消除的硬件支持。
Geforce 6800 Ultra显卡全部由NVIDIA统一制造,并提供给显卡厂商,所以市场上各个品牌的Geforce 6800Ultra显卡几乎一模一样。GeForce 6800Ultra显卡完全采用P201公板设计,10层PCB板上覆盖有超大型的散热器,需要占据一条PCI槽的空间,将热管散热和风冷散热有机地结合到了一起,能够非常有效地控制内含2.22亿个晶体管的GPU和GDDR3显存颗粒的温度。
显存方面GeForce 6800Ultra也有巨大的提升,采用了速度最快的GDDR3,工作率高达1100MHz,配合256位显存位宽,NV40的显存带宽高达空前的35.2GB/s。
由于晶体管规模庞大,GeForce 6800Ultra核心的峰值功耗达到100瓦,由于AGP 8X总线无法提供足够的功率,6800Ultra显卡不得不使用了两个外接电源接口。在NVIDIA的测试指南中,推荐使用480瓦的高功率电源。
NVIDIA推出GeForce 6800标准版,也有其市场意义。自从2004年3月份ATI 将高端产品9800PRO降到250美元后,在这个价位上NVIDIA一直没有合适的产品与之抗衡,而GeForce 6800标准版凭借12条渲染管线以及NV40核心的众多先进技术,在性能上完全领先9800PRO,官方报价却仅为299美元,显然更有竞争力。
Inno3D GeForce6800显卡采用NVIDIA公板P212设计,是8层的PCB。显卡使用了更加成熟的DDR显存颗粒,在保证显示卡性能发挥的前提下极大的降低了成本。由于仍然是256BIT显存位宽,显存工作在700MHz的频率仍然为核心提供了高达22.4GB/s的显存带宽。
Inno3D GeForce 6800LE的工作频率为300/700MHz外,为了降低成本也使用了DDR显存颗粒。6800 LE具8条像素渲染管线/4组顶点单元。和GeForce 6600系列相比,GeForce 6800LE的优势在于具有256 bit显存位宽、8个ROP单元,在高分辨率、反锯齿打开的情况下,比6600更有优势。但因为默认频率过低的原因,总体性能上GeForce 6800LE仍旧落后于GeForce 6600GT。但是,Inno3D GeForce 6800LE显卡具有较强的超频能力和改造潜力,尤其是改造成GeForce 6800标准版的可能性极大,运气好的话甚至可以打开全部的管线。
在2005年中端市场,NVIDIA的GeForce 6600系列在于ATI的X700的较量中占得了上风,为了扭转劣势,ATI 将高端的Radeon X800引入中端,以颇具竞争力的价格推出了Radeon X800GT。考虑当时很多厂商私下里都推出了零售版的6800LE,市场反映很好,于是2005年9月,NVIDIA针对Radeon X800GT推出了GeForce 6800XT,基本上就是。虽然当时PCIE接口已经成为市场的主流,但由于市场惯性,AGP平台依然占有相当大的市场份额,GeForce6800 XT也有AGP的版本,以弥补6600 AGP供货不足的缺口。
PCIE版本的GeForce 6800XT共有NV41和NV42两种核心,其中后者是0.11微米工艺,功耗、成本更低,超频能力更强。AGP版本的GeForce 6800XT则采用了NV40核心。在规格上GeForce 6800XT和GeForce 6800LE完全相同,都是8PS+4VS+8ROP的设计,并采用了256BIT显存接口。
6800XT的默认频率为400MHz/700MHz,也可以说是6800LE的高频版本。和6800LE一样,GeForce 6800XT也同样具有修改的潜力,PCIE版本最高可以改为6800标准版的12PS/5VS,而AGP版本则有机会改为NV40。
2004年4月份发布基于NV40的GeForce 6800ULTRA后,凭借16条超标量浮点像素渲染管线,NVIDIA成功夺回了失去已久显卡性能的王冠。而且由于NV40支持ShaderModel3.0以及FP HDR等业界领先的新技术,此前GeForce FX时期人们对NVIDIA技术实力的怀疑也被一扫而空。NV40作为NVIDIA技术实力的象征,在500美元左右的高端市场大举收复失地,获得了很多高端3D发烧玩家的青睐。
相比在高端市场的大获成功,但是在市场规模最大、整体利润更高的主流市场中,NVIDIA却面临着进入新世纪以来的最困难的一段时期。在250美元以内的中端市场,GeForce FX系列仍是市场上的主力。但是2004年开始,DirectX 9游戏的普及速度突然被加快,大量的DirectX 9游戏纷纷上市,使得GeForce FX的架构缺陷暴露的更彻底,因此GeForce FX系列显卡也在竞争中全面落败,NVIDIA的市场占有率也是逐步走低。因此,将新一代GeForce 6系列引入中端,也就成了NVIDIA的当务之急。不过中端产品除了性能外,对成本的要求较高,所以NVIDIA也决定等待0.11微米制造工艺的成熟,但这多少也延误了一些时间。
终于,2004年8月13日,在QuakeCon2004上,NVIDIA正式了GeForce 6家族中的主流产品,GeForce 6600系列显卡。
由于当时在200美元以下的中端PCI Express图形市场中,一直没有出色的显卡产品,几乎是个空白。而这部分市场伴随着Intel 915/925主板的普及规模越来越大,NV43的推出恰好符合了这部分用户的对高性能产品的渴望。而对手ATI虽然早就将高端产品全部转向PCI Express接口,但是产品价格都在300美元以上,而中端的RV410迟迟不见踪影,直到9月底才正式发布,性能处于下风且供货也不稳定,让GeForce 6600轻松占领了大部分市场,NVIDIA敏锐的市场洞察力体现的很充分。
NV43为TSMC 0.11微米工艺制造,集成了1.43亿个晶体管。由于制程的改进并且引入了low-k 技术,NV43的频率可以轻松达到500MHz,同时成本以及功耗都控制在可以接受的范围内。
在核心架构方面,NV40不惜代价引入SM3.0电路对于核心成本的副作用也很明显,所以NV43上不等不进行了大幅度的精简,基本上缩减了一半处理单元。即便如此,NV43的晶体管数量还是达到了1.43亿,而对手RV410(X700)在顶点着色管线、ROP单元都2倍于NV43的情况下,晶体管数量仅为1.2亿个。
NV43架构图
NV40中,16条像素着色管线以四个组成一组,每组称为一个“Quad",所以NV40中共有4组Quad单元。而在NV43上有两组Quad单元,所以共有8条像素着色管线(每管线一个TMU单元),和对手X700相同。NV43的顶点单元为3组。为了进一步控制成本,NVIDIA果断的缩减了ROP单元的数量,只保留了4个ROP单元(这也是NV43被认为使4X2架构的原因),仅为对手X700的一半,但是本身6600GT只支持128-bit显存位宽,且频率只有1GHz,如果采用8个ROP单元,受到显存带宽的制约很明显。即便只有四个ROP单元,充分发挥后,在象素填充能力上和X700差距并不大。事实也是6600凭借性能优异的Pixel Shader处理单元事实也是6600凭借性能优异的Pixel Shader处理单元(NV43的超标量PS管线为单周期4条指令并发,理论上是RV410的两倍),在与X700的竞争中以完胜而告终。
NV43核心的另一个特点就是率先实现了对SLI技术的支持。2004年下半年,PCI Express技术的逐渐普及,这是SLI技术得以重现的一个必备条件。SLI技术最早源自3dfx,全称是Scan Line Interleave ,基于PCI接口,随着AGP接口的普及逐渐被谈玩。而NVIDIA SLI(Scalable Link Interface)在很多方面都有较大的进步。首先,PCI Express可以提供60倍于PCI总线的总带宽。其次,3dfx SLI为隔行扫描,属于模拟应用,可能因为数模转换差异造成图像质量欠佳。NVIDIA SLI技术则是基于PCI Express技术,采用一种完全数字化的帧组合方法,对图像质量无任何影响,可提高几何性能,支持多种实现灵活伸缩性的算法,能够根据应用需要选用最有效的方法来实现灵活伸缩性。
NV43虽然发布于2004年8月,GeForce6600显卡在9月份开始向OEM客户出货,到10月份才正式登录零售市场,距离NV40发布已有半年时间。而AGP版本的GeForce6600显卡更是直到11月中旬才上市。
GeForce 6600GT是GeForce 6600系列的最高端版本,也是最先提供SLI功能的显卡,上市伊始便受到众多3D发烧玩家的关注。GeForce 6600GT核心/显存频率高达500/1000MHz,采用128Bit的GDDR3显存。AGP版本的GeForce 6600GT则是采用原生PCI-Express的NV43核心+桥接芯片(HIS)的方式来实现AGP界面。6600GT AGP的供电电路也有所改变,采用了P218 公版PCB(前者是P216),并引入了外接电源接口,以弥补AGP总线功率不足的缺陷,同时其显存频率也比PCIE版本的6600GT低100MHz。
由于当时GeForce 6800系列的出色表现,游戏玩家显然也对GeForce 6600GT充满了期待,而6600GT的性能也没有让用户失望。而且其219美元的实际零售价格也得到了中端用户的认可,尤其是6600GT AGP的强劲表现与合理的价格直接导致了当时ATI中端的9800PRO大幅度降价,在PCIE平台,也迫使ATI不等不提前发布了RV410(X700)。
GeForce 6600标准版是系列的普及型产品,定位于整体利润最高的150美元中端主流市场,担负着为NVIDIA夺回市场份额的重任。在规格上,NVIDIA也采用了很灵活的的策略,早期的6600标准版采用了TSOP封装的DDR显存,推荐核心/显存频率为300/550MHz。以后又有DDR II显存的版本,频率提高到400MHz/800MHz。但NVIDIA对6600标准版的工作频率并未限制,板卡厂商可以根据自己的市场策略来设定最终的工作频率,因此GeForce 6600显卡的产品也是十分丰富。
事实上,NV43核心的超频能力普遍不错,6600标准版核心的默认频率虽然只有300MHz,但反而留给用户更大的超频空间,所以性价比也更高。后期NVIDIA解除对6600标准版的SLI限制后,不少厂商还推出了采用6600GT PCB的GeForce 6600 GDDR3加强版,深受广大DIY玩家所喜爱。
由于6600系列在性能的较量中完胜对手的X700系列,以及NVIDIA与各个AIC厂商的通力配合,GeForce 6600系列在很长一段时间内占领了相当份额的中端市场,为NVIDIA扩大市场占有率立下了汗马功劳,也是一代相当经典的中端佳作。
不过在2004年中后期,在入门级市场上,NVIDIA的GeForce FX5700、FX5500、FX5200在对手Radeon 9250、Radeon 9550的夹击下,全线溃败,丢失了大量的市场份额,在中高端市场布局完毕后,NVIDIA也开始着手扭转在低端方面的局势,于2004年10月中旬发布了GeForce 6200,之后,又在12月16日发布了GeForce 6200TC。
GeForce 6200采用了NV43-V核心,是NV43生产过程中的瑕疵品,如果NV43核心中有一个QUAD有问题或者不能全速运行,就将这一组管线屏蔽,并用于6200显卡。因此,除了只有四条像素管线外,NV43-V的核心特性和NV43相同,也采用CINFX3.0引擎,支持Shader Model 3.0、UltraShadow II及Intellisample 3.0。不过GeForce 6200显卡的ROP功能受到了一定简化,去掉了对Color-compression、Z-compress以及OpenEXR这三个技术的支持。
GeForce 6200显卡的默认频率为300MHz/500MHz,也有AGP和PCIE两个版本。由于采用了NV43-V核心,6200也具有相当的改造潜力,尤其是当年NV43-V A2版本的核心普遍可以打开被屏蔽的4条像素管线。即便不改造,NV43-V也具有良好的超频能力。根据相关测试,6200 AGP在默认频率下性能就已经完全超过了Radeon 9550,在DOOM3中超过Radeon 9600PRO达30%之多。
不过性能上的优势并没有使得GeForce 6200有太大作为,原因就是其过高的售价。尤其是AGP版本的6200,采用的NV43-V+HSI桥接芯片的方案使其在国内的上市售价竟然高达900元以上,对Radeon9550没有直接的威胁。
由于新一代PCI-Experss技术,采用点对点的串行连接方式,允许和每个设备建立独立的数据传输通道,充分保障各设备的带宽资源独立,从而拥有较高的数据传输带宽。PCI-E X16的单向传输带宽为4G/s,是AGP 8X的两倍,并且PCI Express总线能够真正做到双向对等的数据传输,最大数据传输带宽可达到8GB/s。PCI-E的带宽优势,也是实现与系统共享内存资源的基础。
TurboCache技术正是充分利用了PCI-Experss总线的数据带宽优势,从而实现了共享系统内存资源。TurboCache中的内存管理技术可以“允许GPU在分配和不分配系统内存时无缝切换,并且高效的读写内存”。这个工作由驱动程序中名叫TC的管理部分执行。6200TC还新引入了内存管理单元(Memory Manage Unit,MMU),能够让GPU同过PCI-E总线直接对系统内存进行读取和写操作,自动把渲染结果和纹理分配在本地内存或者系统内存上,以虚拟寻址方式自由地分配帧缓存以及纹理缓存。
6200 TC 采用TurboCache技术后,能够利用PCI Express的Auxiliary Memory Channel,动态的调用系统主内存和以满足板载少量显存不足的情况,同时也可以直接从系统内存中获得另外一条相对等的显存位宽,使只有64Bit本地显存位宽的Geforce6200TC变成128Bit(32Bit也可以变成64Bit)。
6200 TC 作为GeForce6 系列在低端唯一的原生PCIE核心,也是低端PCI Express市场的主力产品,针对ATI的Radeon X300系列。由于是原生4管线设计,核心成本明显降低,加上可以板载更少的显存,价格上很有竞争力。同时性能上64MB/64 bit显存的6200 TC可以略微超过128 bit显存的Radeon X300,尤其是32bit显存6200 TC凭借出色的成本几乎更扫了Radeon X300SE。6200 TC 能有这样的表现实属于不易,因而也得到了入门级用户的肯定。
2004年,nVidia继推出了Geforce 6600、Geforce 6200、Geforce 6200TC后,6系已完整覆盖了PCI-E方面高中低三个层次的产品线。进入2005年后,虽然中高端PC市场上PCI-Express已经成为主流,但是再低端AGP平台依然占有较大的市场份额,而Radeon 9550的持续热卖对NVIDIA依然是个难以解决的问题。由于消费者对DX9性能低下的GeForce FX5200、FX5700 LE 系列并不买账,而之前推出的GeForce 6200AGP的售价居高不下,而且长期使用NV43-V+HSI桥接芯片来生产Geforce 6200这样的低端型号产品也绝非上策,毕竟对于这种入门级显卡而言,HSI桥芯片成本所占显卡成本的比例是不能忽略的。于是,在2005年3月中旬,NVIDIA发布了采用核心代号NV44A的Geforce6200A显示卡。
Geforce6200A所采用的NV44A是原生AGP接口的核心,采用0.11微米制程,核心含有7500万个晶体管,其核心面积较NV43缩小的一半,所以成本也更低廉。规格上和NV44相同,配备3个顶点着色单元和4条像素着色管线以及2个ROP单元,支持64Bit显存位宽。显卡采用NVIDIA P362的4层公版PCB板,默认频率为350/500MHz。由于基于AGP接口,所以并不支持Turbo Cache技术。
Geforce6200A在性能上可以和默认频率的Radeon 9550持平,在DOOM3中还可以小幅度领先。但是当Radeon 9550超频后,即便Geforce6200A同时也超频,后者还是会落后不小的一段距离,再加上用户对64BIT显存位宽根深蒂固的偏见,Geforce6200A在零售市场的表现也很一般,消费者还是更倾向于128 BIT显存位宽的Radeon 9550。
从理论上说,显卡的性能是其各项指标的一个综合结果,这些指标包括核心架构、运行频率,显存规格等等诸多因素。 GeForce 6600标准版受制于过低的核心、显存频率,性能发挥受到很大。所以在中低端市场,NVIDIA也准备为 GeForce 6600标准版增加一个助手,所以在2005年中又推出了GeForce 6600LE。
GeForce 6600 LE图形芯片将渲染管线的数量由8条缩减到4条,而且制程上更加成熟,甚至可以超到600 MHz,极大的弥补了管线减少带来的影响。 NVIDIA的本意是使用GeForce 6600 LE来填补GeForce 6200A和GeForce 6600标准版之间的空间,但是Inno3D凭借出色的设计和制造技术,并采用了GeForce 6600的PCB,将GeForce 6600 LE的核心/显存默认频率提升至425 / 1000 MHz,极高的运行频率弥补了渲染管线的缺憾,在此频率下GeForce 6600 LE的性能已经完全超过了GeForce 6600标准版,加上还有相当的超频潜力,凭借当时6XX左右的价格,性价比非常出色。
随着新一代GeForce 6800系列的上市,高端市场中,NVIDIA的局势有了很显著的改观,根据统计,在2004年第三季度NVIDIA出货了约150万片高端DirectX 9.0图形卡,占整个高端图形市场的64%,而对手ATi的占有率为下降到36%。而Geforce6800系列刚推出市场的时候,NVIDIA的占有率还仅仅为26%。
优异的产品虽然出货量不大,但是却可以展示一个公司的技术实力并且可以在行业内提高自身的威望。作为GeForce 6系列的旗舰产品,GeForce 6800ULTRA有效的帮助NVIDIA在用户中重新树立起技术、性能领先的地位,对系列中端的热卖起到了相当的促进作用。
完整支持SM3.0、HDR技术的NV4X核心,不仅使NVIDIA重新树立起技术领先的形象,也给对手不小的震动。例如,当时ATI的工程师就对NVIDIA能够在110nm制程上实现SM3.0技术感到惊讶。
不过也要指出的是,在GeForce 6发布后,某些软件厂商在SM3.0标准的推广上态度消极,像2004年底发布的测试软件3DMARK2005,就没有采用SM3.0技术。这种状况一直持续到2005年后期,才逐渐开始有新游戏基于SM3.0标准开发,而SM3.0的游戏也直到2006年才开始大规模普及,这也客观上帮助了当时还不能支持SM3.0的竞争对手。所以说GeForce 6系列显卡在技术上的领先优势在当时并未得到充分发挥,也是一个不小的遗憾。
对于新技术的支持,也使NVIDIA付出了高昂的成本代价,GeForce 6系列在成本上比对手的同档次产品也要高,这也是6系列显卡主要的一个缺点。所以在PC独立图形核心的市场占有率方面,NVIDIA也未能反超ATI。
不过在整体图形市场占有率上,根据Mercury Research的统计,2004年第三季度NVIDIA的占有率却跌倒了谷底,从第二季度的23%下降到了15%。同时在全部的独立图形核心占有率统计上,也只有37%,Radeon系列在入门级桌面市场和移动平台的出色表现,使ATI的占有率上升到59%。不过好在NVIDIA的反弹趋势也很明显,凭借9月份上市的Geforce 6600系列的优秀表现,以及西方圣诞节期间的热销,在2004年第四季度,NVIDIA的占有率迅速回升到21%,并维持了良好的发展态势。另一个引人注目的成绩,是当时Intel 的915/925系列整合芯片组已经大规模登陆市场,在图形市场上的占有率达到39%。
在渡过了2004年中后期在市场上的困难时期后,吸取了GeForce FX系列的经验教训的NVIDIA也变得更加成熟,同时已经在技术上取得领先优势的NVIDIA并不给对手以喘息的机会,在2005年6月22日,在美国旧金山举行的GeForce LAN 2.0大会上正式发布新一代图形芯片G70。
在G70图形核心上,NVIDIA采用了新的命名方式,G70的含义就是GeForce系列的第7代核心。G70公认还有一个内部代号为NV47,不过根据NVIDIA的表示:“原本NV47的项目已经取消,因为工程师已经能够做出比NV47更强的芯片,才决定整个跳过NV47"。
G70为TSMC 0.11微米工艺制造,由于管线数达到空前的24条,其内部集成了3.02个亿晶体管,核心面积超过300平方毫米,也是当时业内最复杂图形核心。但是由于制程的改进,其功耗可以略低于NV40。
G70的CineFX4.0的架构最容易被忽视的一个提高就是SM3.0中的动态分支性能,相对于NV40初代的动态分支性能,由于改进的多线程调度分配机制,G70的动态分支能力有了成倍的提升,不过在05年SM3.0游戏还不多,所以未能在实际中应用体现。
在Vertex Shader方面,G70采用了与NV40相同的MIMD架构设计,由一个4D向量处理器和一个1D标量处理器及以及顶点纹理取样(Vertex Texture Fetch)单元构成。Vertex Shader的数量增加了两个,达到8个。处理能力随之也提高了33%左右。
新的Vertex Shader单元具有单周期MADD指令运算能力,其中的特殊功能单元(SFU :special function unit,用于单周期执行SIN、COS、SCS 等运算)的标量处理性能也得到了提高。
同时Setup Engine(3D顶点坐标转换为2D平面坐标)性能也提高了将近50%,以配合Vertex Shader数量的增加。
由于游戏中Vertex Texture(顶点纹理,配合几何位移算法使用)的使用越来越普及,顶点单元的Vertex Texture Fetch性能也很重要。由于Vertex Texture Fetch是比较消耗资源的操作,过开发人员不得不尽量减少在顶点程序中的纹理读取次数。G70的Vertex Texture Fetch性能也获得了提高,使开发人员可以更自由的读取纹理数据。另外,G70的Vertex Shader也和NV40一样为128bit长的VLIW型指令集。
在Pixel Shader方面,G70也沿用了NV40的超标量的设计,不过数量上增加了两个QUAD,即8条Pixel Shader管线。Pixel Shader内部和NV40一样具有两个FP32的4D矢量单元,不过NV40的Shader Core 1不支持MADD(Multiply-ADD几何运算中常见的操作 )、ADD,而G70的两个Shader Core 都可以支持 ADD、MUL、MADD这三种操作。
G70通过提高Pixel Shader内的并行性,来提高Shader单元的指令级并行计算能力 (Instruction-Level Parallelism:ILP)。G70的Pixel Shader同样支持dual-issue,可以进行交错运算,并为MADD作了优化。NVIDIA的技术文档中表明G70的Shader(430MHz)运算性能是313 GFLOP,远高于NV40的120 GFLOPS。
G70的纹理映射单元(TMU)数量上也增加到了24个,同时纹理拾取的能力也得到了增强,可以提高向异性过滤的性能,同时可以略微提高核心的HDR渲染性能。
G70的ROP单元在数量上并没有增加,这也是因为纹理操作在新游戏中的比例越来越小,而且显存带宽也不足以分配给更多ROP单元。ROP单元性能上有所增强,其Single Texture Alpha Blend的测试成绩超过NV40约20%。在ROP单元在功能上有所增强,可以支持的全新的透明超级取样(transparent supersampling)及透明多重采样(transparent multisampling)技术。另外G70也可以支持64bit浮点精度的HDR渲染。
GeForce 7800GTX是GeForce 7系列的旗舰级产品,相比NV40发布后一个月后,GeForce 6800才上市的情况不同,在G70发布的同时,GeForce 7800GTX也就正式发售,说明NVIDIA这次准备的也更充分,对GeForce 7800GTX也寄予了厚望。
和Geforce 6800Ultra相同,GeForce 7800GTX也全部由NVIDIA统一制造。7800GTX虽然在功耗上有所下降,但是其供电电路却比 6800Ultra还要奢华。7800GTX采用了10层P347公版PCB,板长达到了229mm ,所以外观看上去比以往任何PC显卡都要长。供电系统的用料相当奢华,由3组、每组3个的英飞凌优质Mofset及3组VITEC高频电感构成了三项增强型供电。大量陶瓷积层电容的使用,使得7800GTX的品质可以和高端专业级显卡相媲美。
GeForce 7800GTX的散热器不再是Geforce 6800Ultra那种笨重的双槽设计,而是看上去轻盈且更美观的单槽热管系统,也说明G70核心的功耗、和发热也控制得很好。
GeForce 7800GTX配备了256M GDDR3显存,而其采用P347公版PCB设计之初也可以用于512M显存,不过后来GeForce 7800GTX 512M使用了P348 PCB。GeForce 7800GTX采用了当时速度最快的三星1.6NS GDDR3显存颗粒,工作频率1.2GHz,提供高达38.4 GB/s的显存带宽,也是当时PC级显卡的最高峰。
作为旗舰级产品,GeForce 7800GTX的上市价格高达599美元,比上一代Geforce 6800Ultra还高,当然NVIDIA这么做的原因主要为了给Geforce 6800系列清理库存。后来,GeForce 7800GTX的价格也是很快降到500美元以内,成为2005年夏天显卡市场上最具热点的产品。
7800GT被屏蔽了4条管线,PCB也被作了一定程度的简化,因此成本低很多,上市价格在3000元左右,因此还是有不小的市场。
● NV攻其不备,ATI措手不及
2005年6月份GeForce 7800GTX发布后,在很长一段时间内都没有对手。竞争对手ATI则忙于游戏平台领域的开发(微软的XBOX360、任天堂的WII ),以及公司内部也是斗争不断,使其下一代产品Radeon X1800XT系列一直拖延,竟然到10月中旬才上市,也失去了不小的市场份额。NVIDIA则抓住时间,全线出击,除了高端发布了GeForce 7800GTX,中低端除了降低下格外,还不断细化市场,推出了众多基于GeForce6系列的高性价比产品,其在图形市场中的占有率也进一步扩大。到第三季度,Nvidia的在独立图形芯片市场上的份额为50.4%反超ATI的47.9%。在整个2005年,NVIDIA实现了23.7亿美元的营业收入,净利润达到3.02亿美元。
R520比G70晚了近4个月的时间才发布,但是Radeon X1800XT的性能却只能和GeForce 7800GTX打成平手,而前者的工作频率为600MHz/1400MHz,远远高于7800GTX的430MHz/1200MHz,所以看起来R520的核心处理效率偏低。但是R520的最大特色在于引入了全新的(Ultra-Threading dispatch processor)超线程分配处理器,最大能够同时处理512个并行的线程,大幅度的提高了核心的动态分支能力,动态分支也是SM3.0引入的动态控制流中的一个重要特性。而且在动态分支性能的测试中,X1800XT也确实高出GeForce 7800GTX不少。不过X1800XT的这个新特性在当时却没有体现出来,一个原因就是当时基于SM3.0开发的游戏还比较少,另一个就是,虽然R520可以支持多达512个的并行线程,SIMD流水线的并行度也很高,但是每个线程内的处理资源却严重不足,也就是R520的运算单元过少且效率一般(R520只有16个可以执行MADD指令的FP32 mainALU,而G70有48个可以执行MADD指令的FP32 mainALU),空有强大的动态分支能力,却无法充分发挥。
当然ATI也清楚这一点,所以早在R520还没正式发布的时候就已经完成了R580的设计,并将相关信息通过一些文档透露出来。等到90nm工艺更成熟后,在2006年1月发布了R580以及X1900XT。R580相对于R520的扩充很大,ATI为其设计了规模空前的48个像素着色器单元(48个可以执行MADD指令的FP32 mainALU+48个 mini ALU),所以R580即有较高的动态分支性能(不过batch size也增大到了48),又有规模空前的浮点运算单元,SM3.0性能自然也上了个档次,在一些采用SM3.0、HDR技术的新游戏中也反映的很明显。不过R580并不能算是DirectX 9.0c级别的最完美的核心,这主要是因为90nm制程下,即便R580通过3:1的架构(在提高Shader性能(3)的同时降低了ROP、TMU等单元的比例(1)以减少不必要的晶体管消耗),但仍集成了3.84亿个晶体管,所以其功耗、发热也是很难控制,适用性不高。
2006年3月9日,在CeBIT2006展会上NVIDIA正式推出了G70的继任者G71图形核心。当时G71核心发布后,也使很多人都感到惊讶,因为新发布的优异核心在晶体管数量上反而低于其前任,这在历史上恐怕还是第一次,这也反映出了NVIDIA的魄力与对局势的准确把握。
作为NV新一代旗舰级核心,G71拥有2.78亿个晶体管,较G70下降10%,而且由于采用了成熟的90nm工艺,核心面积仅有196mm2 ,远低于R580的352mm2,以及G70的346mm2,使得制造成本显著下降,良品率更高。同时可以在降低功耗、发热的同时,大幅度提高核心的运行频率,7900GTX(650MHz)的核心频率比7800GTX(430MHz)高出了220MHz,提升达50%,两代优异显卡的频率差距(220MHz)如此之大,在历史上恐怕也不多见。
架构方面,G71与G70完全相同,也是CineFX4.0引擎的设计,具有24条像素渲染管线、8个顶点着色单元和16个ROP单元。G71的RTL(register transfer logic )被重新设计,并且精简了管线中一些不必要的cache,所以晶体管数得以减少,同时所有处理单元都保留了下来。G71架构的具体内容前面已介绍过的G70相同,这里就不再赘述。
G71针脚定义与G70相同,和G70是Pin-to-Pin兼容的设计,因此7900GTX所使用的PCB和7800GTX 512MB一样都是P348公版。同时沿用了7800GTX 512MB的双槽散热器。显存方面,7900GTX采用了三星1.1ns GDDR3,显存默认频率为1600MHz。
为旗舰级产品,GeForce7900GTX的售价为599美元,相比GeForce 7800GTX 599美元、X1900XTX 的649美元要也合理的多。
NVIDIA在2006年三月发布了采用90nm工艺的GeForce 7900系列显卡,在成本、功耗和发热等方面都控制的较好,产品的性价比、易用性都达到了一个新的高度。
反观ATI方面,除了06年初发布的R580由于成本问题导致价格居高不下,让大多数消费者望而却步。不过随着时间推移,80nm制程逐渐成熟,ATI也准备推出RV570、RV560进行反击。
不过NVIDIA早就预料到此种局面,早在RV570、RV560发布前就把原本只用于OEM市场的7900GS推向了零售市场,产品性价比再次攀升,受到广大游戏爱好者的热捧。
GeForce 7900GS在默认频率下的性能在X1950Pro与X1650XT之间,但是超频后提升不小,远高于X1650XT也接近X1950Pro。GeForce 7900GS的出现使得ATI凭借X1950Pro与X1650XT进行反击的效果打了不小的折扣,X1950Pro还被迫与GeForce 7900GS进行价格战,7900GS很好的担当了一个阻击者的角色。
后来ATI改变策略,用X1950Pro瞄准7900GS,以及2007年初又推出了X1950GT,使得7900GS的压力突然增大。不过NVIDIA也应对自如,在下调7900GS价格进入千元以下的同时大幅度提升显卡的频率,取得了不错的效果。
GeForce 7900GS充分反映了NVIDIA对产品性能的知己知彼以及市场手段的灵活多变,对于消费者来说,GeForce 7900GS降价后也是具有相当的性价比的产品。
7600GT采用了90nm工艺G73核心,拥有12条像素管线和5个顶点单元,规格基本接近6800标准版,比6600GT高出一个档次,尤其是TMU、ROP单元数量是Radeon X1600XT的2倍,高分辨率下的反锯齿性能要强的多。默认核心频率达560MHz。
90nm的GeForce 7系列的显卡大都具有高频、低功耗的特性,而GeForce 7600GT把这些特性发挥到了及至。7600GT基于公版P456 PCB制造,虽然7600GT的频率大幅提高,但功耗控制依旧非常出色,不会超过PCI-E接口75W的上限,所以省掉了外接供电。
因为是中端产品,所以7600GT采用了128Bit显存接口,搭配4颗显存组成256MB/128Bit的规格,显存频率1400MHz。
由于NVIDIA在G73内部集成了SLI处理模块,通过显卡PCB上SLI金手指,就可以非常方便的组建SLI系统,获得更大的性能提升。
过去在中端市场中,GeForce 6600GT虽然有技术、性能优势,但是成本比对手的Radeon X700高出不少,无形中降低了显卡的性价比。而在G73核心中只有1.77亿晶体管,比X1600XT的1.57亿仅仅多了10%,在90nm制程下,成本差距下几乎可以忽略。而性能方面,1280X1024的分辨率下,7600GT在游戏中的性能几乎平均都有X1600XT的1.5倍,在DOOM3中更是2倍于X1600XT,所以在中端市场,7600GT取得了近乎辉煌的胜利,也是继GeForce 6600GT之后,又一个中端性能之王。
GS这个后缀是从6800GS开始出现在我们的视线中的,由于6800GS出众的性能以及平易近人的价格, GS后缀命名的N卡从此给人留下了高性价比的印象。毫无疑问7600GS也是一款物美价廉的产品,从厂商到消费者都对其十分喜爱,从某种意义上说,7600GS才是6600GT真正的接班人。早期的7600GS是90nm制程,并以GDDR2 256M为主。随着后期80nm G73-B1核心的采用,7600GS的性价比进一步提高,而去年底599元128M GDDR3版本的上市使其达到了性价比的巅峰.
直到发布一年后的今天,7600GS的传奇仍在继续,也是目前中低端市场中最成熟、产品最丰富、销量最大的显卡之一,深受消费者推崇,堪称一代以高性价比为特点的经典之作。
NVIDIA上一次中低端称霸还要追溯到GeForce4 MX440时期,那时候MX440凭借出色的性价比、良好的驱动支持,在低端及OEM市场全面开花,NVIDIA甚至还凭借GeForce GO MX440打入了ATI传统的移动独立核心市场。但是自从2002年在ATI发布Radeon 9000之后,NVIDIA在低端市场上就再没有领先过,其后的FX 5200、6200LE、6600LE都因为成本或是性能原因为Radeon 9250、9550、X550所压制,这一状况也一直持续到GeForce 7300GT 的发布。
GeForce 7300GT采用了与7600GT相同的90nm G73核心,但为了合理划分档次,NV在硬件规格上作了限制,屏蔽掉了4条像素渲染管线和1个顶点着色单元,但是保留了全部的ROP单元因此7300GT的规格是8PS和4VS+8ROP的全8管线配置,在硬件规格上7300GT全面领先6600也是其成功的根本因素。部分管线的屏蔽还使得GeForce 7300GT的发热、功耗进一步缩小,超频能力也最高。
NVIDIA对于GeForce 7300GT显卡的政策与以往完全不同,最出人意料就在于并没有限定7300GT的频率以及显存规格,也没有公版显卡参考标准。因此7300GT显卡种类繁多、规格各异,绝大多数厂商均推出了三款以上7300GT规格,令人惊叹。
由于7300GT依然是G73核心,所以厂商既可以选择直接使用7600GS的各种公版/非公版PCB,也可以开发成本更低的方案,性价比优势更加明显。而且7300GT也可以支持SLI功能,两块显卡的价格不过1000左右,大大降低了SLI的价格门槛。
550/1600MHz的7300GT GDDR3在绝大多数游戏中均领先于ATI最高频的X1600XT,而7300GT GDDR2(450/800)也全面领先的X1600Pro(450/800),在成本相近的情况下几乎把X1600系列逼上了绝境。
2006年后期基于全新80nm制造工艺G73-B1的7300GT GDDR3也大量上市,不仅功耗下降,发热量更是大为降低,在1.4V的电压下,核心超频频率轻松达到700MHz以上,十分惊人,不仅横扫500元以下的显卡市场,G73-B1核心还被大量用于移动平台,移动平台独立显示核心也是今后增长最快的市场,以往ATI具有的传统的功耗优势从G73开始也被逐渐削弱。。
7300GT的出现无疑了完善了整个GeForce 7系列产品线布局,也使得NVIDIA重新获得了丢失已久的主流市场。直到今天,7300GT仍然拼杀在500元以下的市场中,为NVIDIA扩大整体市场占有率立下了汗马功劳
进入2005年后期,NVIDIA和ATI在追求显卡的优异性能上走上了不同的道路,ATI的做法是在单个GPU核心上集成更多的晶体管,而NVIDIA则采用了多核心以SLI方式协同工作的方式。
Quad SLI最早出现在CES 2006展会上,NVIDIA和Dell正式将基于2组Geforce 7800 GTX 512的Quad SLI系统公开亮相,在为世人所瞩目。之后,NVIDIA又在3月份的Cebit2006大会上又发布了Geforce 7900GX2,为Quad SLI技术的实用化以及进一步推广奠定了物质基础。但当时的Geforce 7900GX2限于制造成本的高昂,驱动程序也有待完善,大规模上市的时机并不成熟,因此只为OEM和System Builder制造,没有在零售市场销售。
7950GX2双芯片显卡最大的区别就是采用了双PCB解决方案,每块核心都集成在自己的PCB上,具备完整的板载显存和供电电路,而此前推出的双芯片方案都采用单PCB设计。作为NVIDIA亲自研发的多核心解决方案,在驱动等方面等会得到更好的支持,前景也更广阔。
7950GX2 Quad SLI无疑是G80面世之前目前性能最强的桌面级显卡系统,尤其是在高分辨率下打开反锯齿后,游戏的FPS下降的幅度相对以往来说要小的多,其独特的SLi Antialiasing反锯齿技术可以带来最优异的画质体验,而且7950GX2 Quad SLI对游戏的推动能力非常优秀,其最低FPS的数值比过去有了明显提高,也就说游戏帧数的波动小的多,能够明显感觉到游戏运行时流畅程度大为改善。但Quad SLI系统面临的主要是驱动问题,NVIDIA首次官方正式提供GeForce 7950GX2 Quad SLI的支持在去年7月份,但是还有些的问题有待解决,尤其是与DirectX的配合问题。由于多卡些同的工作模式对驱动的管理、控制功能要求更高,如果可以妥善解决,Quad SLI还有较大的提升潜力。
例如,电影特效和游戏中广泛应用的水面模拟就属于计算机图形学中的流体模拟,过去工程计算常用、较为复杂的NSEs(navier-stokes equations)也开始被用于互动娱乐软件的开发,当然,2D波方程因为计算量较小而应用的更广泛。对游戏中光线的模拟也是如此,例如有些游戏中使用了Radiosity方式的光照贴图,就包括了对光传输方程的求解。还有去年开始大规模的普及的HDR特效,其中在色调映射这个步骤中,也使用了三个计算密集型的数学方程,包含大规模的算术操作。另外物理引擎的大规模采用,如现在使用广泛的HAVOK物理引擎,也使游戏中出现了不少动力学方程。总之,这些都使得游戏中数学计算的比例越来越高,未来游戏也会和目前的通用计算相似,依靠更多的数值计算来提高3D显示、物理效果。
目前的图形核心已经发展成为具备强劲并行计算性能并且编程方便的处理器。GPU不但提供了巨大的存储带宽和计算能力,也把运算提升到了浮点的精度(对现在通用计算来说,浮点精度是必须的条件),所以能够将现代的GPU看作是一种通用的流式信息处理器(stream processor),它完全适用于对任何流信息模型进行处理。
由于GPU强大的并行处理能力,它的数值计算性能上大幅度超过同时代的CPU,因为后者更像是一种控制密集的型的处理器,并且拥有大量的CACHE。如Intel Xeon微处理器集成了1.08亿各晶体管,但是60%应用在CACHE上。而GPU则把大量的晶体管应用在算术逻辑单元(ALU)上,其不具有大容量的CACHE,直接在芯片上利用临时寄存器作流数据的操作。
应用GPU进行数值计算的研究很早也就开始了,图形处理的并行性以及可编程功能一直是图形硬件发展所追求的目标。上世纪80年代出现的Pixel Planes 系列图形系统就可进行二次多项式的并行计算。进入新世纪后,2001年GeForce2的Texture Shader+Register Combiner就被用于求解扩散方程,2002年具有可编程Shader单元的GeForce3出现后,也被用来进行矢量、矩阵的基本代数运算,及求解有限差分方程组。
未来,GPU将被越来越多的应用到传统图形处理以外的数值计算上,更多的基础数值算法也将被移植到 GPU 上,随之产生各种实时交互的模拟应用,比如对流体、光线物理行为的交互模拟,成为计算机科学的一个新兴领域。
2006年无疑是NVIDIA的历史中非常成功的一年,凭借90nm GeForce 7系列产品的优异表现,NVIDIA在桌面独立核心的占有率(Q3)达到57%,尤其是在移动独立图形核心方面达到了53%的占有率,这对NVIDIA无疑是具有历史意义的,因为在移动独立图形核心一直是ATI最据优势的领域,是ATI多年来唯一没有失守的部分。而且和桌面独立核心市场已经出现萎缩的情况相反,移动核心的市场却大幅度增长。NVIDIA在移动平台的出色表现,也说明90nm G7X核心的功耗、发热控制的非常出色。
2006年NVIDIA总收入为30.7亿美元,创公司年度营收新高,比上一年度的23.8亿美元,增长高达29%。其中净利润为4.488亿美元,也比上一年度的3.012亿美元增长幅度接近50%。
面对非常有利的局面,NVIDIA还是保持了非常清醒的头脑,在产品研发上也没有丝毫懈怠。并于2006年11月09日发布了全新一代的GeForce 8800GTX显卡,将PC显示核心正式引入DirectX 10时代。
GeForce 8800GTX带来的不仅仅是令人惊叹的效能,更在于它所采用的统一渲染架构以及DirectX 10支持,同时强大的通用计算性能使其超强的物理加速能力,可以给三维游戏带来最真实的画面、互动效果。所以NVIDIA也把GeForce 8定调为“真实重新定义”的主题。
GeForce 8800GTX的核心研发代号为G80,是PC平台上首颗采用统一渲染架构的GPU,同时也是首款支持DirectX 10、Shader Mode 4.0的GPU,极具历史意义。G80图形核心基于TSMC的90nm工艺生产,核心集成集
成6.8亿个晶体管,核心频率为575MHz,其中Unified Shader的运行频率为1350MHz。
虽然80纳米工艺在已经被引入实际生产,但是对于晶体管数量庞大G80来说,台积电80纳米工艺还无法提供必需的良品率。而且新工艺生产的核心工作频率不总是比旧的高,像130纳米的R480和110纳米的R430就是一个很好的例子,所以采用90纳米工艺无疑更保险。
在架构方面,G80的统一渲染架构中Vertex Shader(顶点)和Pixel Shader(像素)的区别已经不复存在,取而代之的是8组并行的阵列,每组阵列中有16个Stream Processor(流处理器)和8个Texture Filtering Unit(纹理单元),这样G80总共拥有128个流处理器和64个纹理单元。
G80的统一渲染架构基于庞大规模的流处理器(Stream processor)来动态分配给各种操作。可以让每个处理单元都参与运算,每个流处理器均能够处理顶点、像素和几何操作,从而达到提高GPU的利用效率。
过去,自从NV40以后,GPU核心中Shader单元中的每个ALU都有能力单周期完成一个3D+1D(也就是3D矢量+1D标量指令,它们如果并行,被称做co-issue)或者2D+2D总共4D这样的指令操作。而G80核心中,采用了采用完全的标量化设计,将3D+1D或者2D+2D这样执行能力为4D的“大”ALU拆分为1D的“小”ALU,然后将这些ALU组成8个阵列(TCP),每个TCP拥有16个ALU,它们被称做1D Scalar Streaming Processors。每个1D ALU都有各自的指令发射端口和控制资源,相对于4D ALU的浪费现象被杜绝,可以保证100%的执行效率。通过独特的内部分频技术,这些流处理器以超过时钟频率2倍多的频率(1.35GHz)运行,所以GeForce 8800 GTX的128个标量流处理器性能和64个4D SIMD的性能差距不是很大。当然也必须看到,在3D图形的着色程序中,3D+1D操作使用的更为广泛,所以传统“3D+1D”设计有一定的优势。但是,1D ALU的设计分配更加灵活、效率更高,更适合通用计算领域的应用。
由于 SM4.0中提供了全新纹理阵列(Texture arrays)的支持,NVIDIA继续保持了2:1的比例,纹理单元数目也提高到了空前的64个。
ROP方面,G80拥有6组ROP(Raster Operation Partitions),比G71多了2组,既有24个ROPs单元,每组连接64bit显存控制器,这样G80就总共拥有规模空前的384bit的显存位宽,能够支持GDDR1、GDDR2、GDDR3和GDDR4显存。
由于在G80身上GPU架构发生较大的变化,因此NVIDIA放弃了传统的CineFX命名,将其架构命名为Lumenex Engine(流明引擎),这里也简单介绍下流明引擎的新特性:
1. Coverage Sampling Anti-Aliasing (CSAA),引入多种全新抗锯齿模式:8xAA、16xAA和16xQ AA,单颗GPU就能实现高达16倍抗锯齿;
2. Lumenex Texture Filtering Engine,流明纹理过滤引擎,各项异性过滤图像质量大幅提高;
3. 支持128bit HDR,配合CSAA完美实现高倍HDR+AA;
4. 10bit Display Pipeline,64倍于上代产品的输出颜色数;
5. Quantum Effects,GPU物理加速技术。
由于GeForce 8800GTX的最高功耗为145瓦,整卡的长度达到32厘米,都是历史上PC显卡的最高纪录,显卡被一块体积硕大的散热器所覆盖,不过风扇噪音控制的比较好,即便在全速运行状态下也是非常安静。同时显卡上集成了两个6Pin接口,比单个接头+12V的电流输入的方式更加安全。显卡上也集成了两个SLI金手指,可以组建更为强大的GeForce 8800GTX SLI双卡互连。
GeForce 8800GTX配备了PC显卡上最高的768MB GDDR3显存,显存为384bit位宽,频率为900MHz带宽更达到空前的86GB/s。
GeForce 8800GTX零售价为599美元,非常具有竞争力,于2006年11月8日正式发布迄今已出货40万块,不仅叫好而且叫座。
GeForce 8800GTS是GeForce 8800GTX的简化版,也是GeForce 8800系列的普及版,默认频率500/1600MHz ,Stream Processor精简了2组,从128个减至96个,另外ROP单元减少了1组共4个,纹理单元为48个,显存减少了320MB 320Bit的规格。相对上一代优异显卡来说,这样的规格仍然十分强大。
8800GTS采用10颗8M×32Bit的显存就组成了320MB 320Bit的规格,显存的速度为1.2ns,默认显存频率为1600MHz。
8800GTS散热器和8800GTX的结构完全相同,体积上要比GTX小一号,不过8800GTX的频率有所下降、部分管线也被屏蔽,所以功耗和发热都小得多。同时,8800GTS由于功耗的降低,只提供了一个6Pin接口供电,另外,显卡上的SLI接口也只保留了一个。
Geforce 8800GTS 320MB的售价为299美元,非常具有竞争力,国内目前甚至已经打出了1999元的超值价格,比ATI的X1950XTX价格便宜很多,但性能却反而高出不少,所以Geforce 8800GTS 320MB无疑是目前性价比高的准高端显卡。
2007年4月17日,NVIDIA终于正式发布了基于G80图形架构的中端G84核心及低端G86核心,至此NVIDIA GeForce 8系列DX10全线显卡构建完成,DX10的普及之路由此开始,改朝换代的时刻终于来临了!
虽然NVIDIA和ATI两强争霸的局面还将持续下去,但是在GPU这个充分依靠技术实力的领域中,NVIDIA对先进技术的孜孜追求也将使其立于不败之地。未来,NVIDIA将在多个领域呈现强劲的增长势头, 第一,NVIDIA IGP芯片组将深入Intel平台市场,。第二,新一代Vista操作系统、DirectX10的普及与也使得GPU在PC系统中的地位进一步提高,NVIDIA的影响力也将进一步扩大。另外在移动GPU平台,NVIDIA去年实现了对ATI的反超,GeForce7系列的优秀的性能/功耗比也将使NVIDIA在这个强劲增长的领域内获得更大的成就。
从NV1到G80,在3D图形核心的发展历史中,NVIDIA的产品一直都占有相当重要的地位。凭借不懈的努力,NVIDIA用实际行动实践了每6个发布一款新核心的诺言,也为推动这一领域的技术进步做出了自己的贡献,给消费者带来更精彩的视觉体验。10多年来,NVIDIA依靠自身的技术实力,创造了一个又一个的成长奇迹,在对手纷纷倒下的同时实现了自身的空前发展,成为GPU领域当之无愧的霸主。未来NVIDIA还将演绎怎样的传奇,就让我们拭目以待吧!