成就3D图形霸业！NVIDIA历代显卡回顾-泡泡网

泡泡网显卡频道 PCPOP首页 / 显卡 / 评测 / 正文

成就3D图形霸业！NVIDIA历代显卡回顾

2007年04月28日 00:00作者：吴庆编辑：孙敏杰

1995年11月6日，从3DFX发布首款具有3D加速功能的VOODOO芯片开始，电脑图形核心正式进入了3D时代。在此之后，众多的3D显示产品设计、制造厂商投入到了这个全新的领域中，不过经过多年来激烈的市场竞争的洗礼，时至今日，NVIDIA与ATI的两强争霸成为了桌面独立图形领域竞争的主旋律。而当年也曾叱诧一时的许多名字，如SGI、SIS、TRIDENT、3DFX、等都已成为了历史，不禁让人唏嘘不已。

一代枭雄“野人”S3被VIA收购，3D时代昙花一现的TRIDENT被SIS收购（改名XGI图形部门），曾经不可一世的3DFX被NVIDIA收购，XGI被ATI收购，最后ATI被AMD所收购（依然是ATI图形部门）……能够在激烈的市场竞争中成功的生存并发展壮大，显然不是一件简单的事情，那么NVIDIA与ATI多年来得成功经验，也值得我们去探讨与总结。

去年在ATI被AMD收购之后，也就是在ATI 21周岁生日那天，我们曾对这位图形巨人的全系列显示产品进行了全方位回顾与介绍。接下来本文就通过对NVIDIA产品的总结及回顾，让读者对这些年来图形芯片市场的竞争有个全面的了解。

显卡经典回顾文章：风风雨雨21载！ATI经典显示芯片回顾

市占率稳居榜首！Intel显示芯片回顾

● 1993年NVIDIA诞生，年轻的NVIDIA后来者居上：

NVIDIA成立于1993年1月，总部位于美国加州圣克拉拉，目前已成为在全球拥有超过3,600名员工，股票市值超过100亿美元！其图形产品广泛应用于包括个人数字媒体PC、商用PC、专业工作站、数字内容创建系统、笔记本电脑、军用导航系统和视频游戏控制台等在内的多个领域。

NVIDIA总部

同时我们也看到，NVIDIA“并不是一个人战斗”——NVIDIA一直以来采用的都是芯片授权开放政策，在NVIDIA在自身发展的同时，也实现了与自己的合作伙伴共同发展。随着NVIDIA的发展壮大，合作伙伴的规模越来越大，也逐渐形成了一套AIC（Add－in－Cards亲密合作伙伴）制度。这无疑使得NVIDIA整体阵营实现了一个良性的发展，得以在激烈市场竞争中立于不败之地。

编者注：鸣谢NVIDIA的老牌AIC合作伙伴映众（Inno3D）独家提供全线NVIDIA显卡；并感谢NVIDIA亚太区邓培智先生提供相关技术支持。

● 文章导航：

[第2页] NVIDIA的处女作：NV1——声卡显卡二合一
        NV2胎死腹中，但获得世嘉资金支援
[第3页] NV3＝Riva 128，发力DirectX，首次大获成功
 [第4页] 雷管引爆TNT系列，打垮3DFX
        NV4＝TNT震撼发布，雷管引爆性能
        NV5＝TNT2，性能翻倍，奠定NVIDIA王朝
        NV6＝NV5工艺改进版，TNT2 Pro/M64/Vanta狂扫中低端
[第5页] 硬件T&L，首款GPU诞生，GeForce的时代来临
 [第6页] 纹理填充率过亿，GeForce 2 GTS的纪念意义
 [第7页] 高端低端泾渭分明，GeForce 2 Ti/MX诞生
        细分产品线，高端GeForce 2 Ti出世
        一代经典GeForce 2 MX横扫地段
[第8页] DX8时代遭遇强敌，两强争霸格局已成
        首款DX8显卡，GeForce 3发布
       对抗8500，GeForce 3细分为Ti 500/200
[第9页] 为了王位！GeForce 4 Ti打垮8500
[第10页] 不可磨灭的经典，GeForce 4 MX系列无敌了
 [第11页] 最具争议的作品——GeForce FX系列
 [第12页] 备受指责的FX5800衍生物——FX5600和FX5200
[第13页] 亡羊补牢之作——NV35，FX5900
        重新审视NV30的失败之处
        亡羊补牢、为时不晚——FX5900扭转败局
[第14页] FX5900、FX5700苦苦支撑，经典产品为数不少
 [第15页] GeForce 6系列问世，NVIDIA一雪前耻
        NVIDIA陷入苦战，需要强力产品扭转局面
         卧薪尝胆！GeForce 6系列问世，NVIDIA一雪前耻
[第16页]既叫好又叫坐 6800经典产品介绍
[第17页] NV大举反攻，GF6收复失地
 [第18页]6600/6200产品及TruboCache技术详细介绍
 [第19页] 让对手疲于奔命——GeForce 7800发布
        6800压倒性优势战胜X800
        不给对手喘息机会，GeForce 7提前面世
[第20页] 性能并不是唯一，7900从成本、功耗、发热方面胜出
        NV攻其不备，ATI措手不及
        性能并不是唯一，G71从成本、功耗、发热方面胜出
        完美演绎性价比，7600/7300又是一代经典
[第21页] DX9末代的较量
        R580确实强大，双核7950GX2出世
        RV570遭遇强敌，难过7950GT一关
[第22页] 未来游戏发展趋势及GPU通用计算简介
        算术操作比例提高 GPU并行处理能力性能空前
[第23页] DX10提前降临！8800领先ATI长达半年
 [第24页] NVIDIA DX10产品线部署完毕，全文总结与展望

1993年1月，NVIDIA总裁兼首席执行官Jen-Hsun Huang(黄仁勋)与IBM专业图形适配器的技术师Curtis Priem以及Sun Microsystems的资深高级工程师Chris Malachowsky一起成了NVIDIA公司，开始了新的创业。

NVIDIA总裁兼首席执行官Jen-Hsun Huang(黄仁勋)

当时，NVIDIA的缔造者黄仁勋先生经过细致、认真的市场调查，还咨询过Bay Area公司的图形芯片业分析师Jon Peddie，最后决定正式进入当时甚至还没有形成市场的独立3D图形芯片行业。

● NVIDIA的处女作：NV1——声卡显卡二合一

1995年5月，在SGS-Thomson Microelectronics（ST Micro）的帮助下，发布了第一款3D图形加速芯片NV1，并为著名的Diamond EDGE3D所采用。

Diamond EDGE3D

NVIDIA选择的3D实现方式是几家电视游戏机公司使用的forward-rendered quads技术与二次方程纹理映射（Quadratic Texture Maps，一种派生自NURBS：nonuniform rational B-splines 的算法）。而且，当时很多的3D加速卡都用到大量的小多边形来生成图形的曲线部分，由于每个多边形都包含了若干的顶点，大量的顶点处理提高了CPU的计算强度。

而NV1采用了一种更聪明的办法，通俗的说就是把正方形自身的边线弯曲化后再组合起来，所以整体减少了多边形的用量，也将低了计算强度。二次曲面技术可以提高很好的成像质量，但是当时这一技术并未被广泛采用。

另外一个版本的NV1

NV1还整合了一个具有350MIPS的音频处理核心，具有32路并行音频通道。音频部分支持相位抖动，很适合游戏中的特效表现（怪兽的呼吸声、枪声）。另外，音频部分具有一个DMA引擎，可以通过PCI或者VL-Bus接口直接从主存中读取数据，避免了占有显卡的存储器。

在研发期间，多边形还没有成为3D应用程序的标准。不过，当时的3D游戏程序不少都是基于3DFX的GLIDE API开发，S3 Graphics ViRGE, Matrox Mystique, ATI Rage,和Rendition Verite V1000等显卡也都支持多边形技术，而微软在Windows 95系统中引入了以多边形填充为基础的Direct3D API，由于NV1并不支持上述两种API，而且不支持MPEG-1解码功能，所以NV1并未被PC市场所接受。

同时，正像NVIDIA副总裁Chris指出的那样，个人电脑市场的趋势是将显卡、声卡和游戏手柄等功能分开。然而，NV1采用的集成设计，虽然提高了产品成本，但技术上背道而驰缺乏竞争力。不过，即便NV1并不成功，但是由于其提供了诸如二次纹理映射功等功能，NVIDIA逐渐树立起技术派先驱的形象。

虽然在市场上吃了闭门羹，但是在游戏机市场，尤其是当时与任天堂双雄并立的日本家用游戏机巨头世嘉SEGA，在其新一代游戏机土星上使用了orward-rendered quads技术，这些游戏也使得NV1逐渐有了用武之地，而且SEGA也作了不少努力将土星平台的游戏移植到PC平台，如铁甲飞龙和VR战士。因此NVIDIA和SEGA也建立紧密的合作关系。

● NV2胎死腹中，但获得世嘉资金支援

就在NVIDIA因为NV1而陷入财政危机的时候，SEGA给NVIDIA送来了700万美元的定金，用于下一代游戏机显示芯片的开发。但是当时SEGA发现QTM有所缺陷，而且日本的游戏开发人员也开始逐渐接受了多边形成像技术，所以SEGA也希望NV2能有所进步，并派图形设计工程师小组到NVIDIA协助开发。

但是NVIDIA则固执的坚持使用QTM技术，这也使SEGA十分失望。为了给新主机一个更好的开发环境，SEGA同时也开始与在PC游戏领域风头正劲的3DFX接触，甚至在1997年2月同SEGA秘密签署了合同，采用Banshee的onBoard版本。当然由于NEC在中间的作用，最终SEGA采用了NEC/Videologic的产品，即PowerVR（Imagination Technologies 的子公司）的图形芯片，NV2也被SEGA所弃用，最终不了了之。

    1995年8月，微软发布了Windows95操作系统，凭借崭新的图形交互式界面设计，很快席卷了全球个人电脑市场。在PC领域，微软的成功是空前的，几乎没有遇到任何可以匹敌的对手。微软的Windows95操作系统凭借接近90%（PC OS）的市场占有率，直接代动了相关硬件产品的需求,也使得全球的硬件软件厂商都不得不向其靠拢。由于微软的Windows95采用图形交互式界面（GDI），对于显示芯片有了更高的要求，这也使个人电脑市场的大幕正式揭开了！

Windows 95的震撼力远大于如今的Vista
    在之前的1995年2月，微软收购英国Rendermorphics公司，利用其所有的RealityLab 2.0技术制定了Direct3D标准，整合在其WINDOWS操作系统中，对PC图形芯片市场产生了巨大影响。
● NV3＝Riva 128，首次大获成功：
    此时的NVIDIA总结了前2款芯片的经验教训，在经过细致的市场分析之后，将研发的方向定位于市场前景广阔的PC图形芯片市场，并且决定加入对DirectX的支持。这无疑是个非常明智的选择，在当时由于3DFX的GLIDE的成功，各家显示芯片公司纷纷效仿，也想推出自己的3D API，例如，3dfx有GLIDE、PowerVR的PowerSGL、ATI的3DCIF，无疑使得微软Direct 3D的推广十分缓慢，NVIDIA此时选择旗帜鲜明的站到了Direct 3D的一边，这种做法也受到了微软的赏识，从而有了一个坚强的后盾。
    另外，当时在3D FPS游戏市场，独领风骚的是ID SOFRWARE的QUAKE系列，而其程序设计师JOHN CARMARK明确的拒绝了3DFX采用GLIDE的建议，而是基于公开的OPENGL API开发，这无疑也是NVIDIA得以崛起的另一个因素。而且，经过时间的考验，至今这两家公司仍然保持了非常好的关系。后来在Quake3的硬件加速问题上，John Carmack甚至拒绝提供任何形式的MiniGL加速，而要求所有图形卡运行在OpenGL ICD环境下，使得3DFX相当难堪。
NV3－RIVA 128
    接着，为配合研发方向的转变，NVIDIA聘请了David Kirk（NVIDIA首席科学家，现已当选美国国家工程院院士），并将其任命为技术总监。1997年，NV3终于面世，被命名为RIVA 128。它也是第一个提供硬件三角形引擎的128 bit图形芯片，虽然RIVA 128的图像质量比不上3dfx Voodoo，但是凭借100M/秒的像素填充率和对OPENGL的良好支持，RIVA 128在非GLIDE API的游戏中完全超过了Voodoo，迅速赢得了消费者和一些OEM厂商的青睐。
RIVA 128显卡
    Riva128支持AGP 1x规范，可以配合Intel的LX芯片组主板使用。1997年底，Dell、Gateway等厂商相继使用了RIVA 128显卡。零售市场上，Diamond、STB、ASUS、ELSA和Canopus等也都相继推出了基于此芯片的产品。不到一年，Riva 128的出货量就突破100万颗，NVIDIA终于凭借NV3打了个翻身仗。
    总的来看，Riva 128取得成功的因素是多方面的，本身的处理性能固然很重要，但是1998年游戏软件方面的发展变化也很关键：
    首先，年初ID开放了QUAKE2引擎的授权，包括VALVE在内的游戏软件开发商在3月份就获得了QUAKE2引擎的源代码，并用于游戏的开发，使得QUAKE2引擎的3D游戏名作诸如《异教徒》、《半条命》等大量上市，Riva 128良好的OpenGL性能得到了充分的发挥。
    第二，3DFX的GLIDE API失去了过去在游戏开发领域的统治地位，最著名的两个例子就当时称得上是风靡世界的古墓丽影2和优品飞车3，这两个过去本来是GLIDE的御用游戏，都加入了对D3D的支持，Riva 128等非VOODOO显卡也可以通过D3D接口很完美的运行游戏。

当时主要3D显卡规格对比

    半年后，NVIDIA又发布了Riva 128ZX，并为它提供了完整的OpenGL支持，在Win95/98和WinNT4.0下都有完整的OpenGL ICD驱动程序。同时，Riva 128ZX还解决了Riva 128的一些BUG，显存也增至8MB，效能改善比较明显。

● NV4＝TNT震撼发布，雷管引爆性能

    1998年10月，NVIDIA发布了TNT，TNT是TwiN Texel的缩写。核心架构为2条32bit象素流水线的渲染体系，每条象素流水线有1个TMU，在每个时钟周期内并行处理两个纹理。这样工作在90MHz的RivaTNT最大填充率能达到180M Texels/sec。同时Riva TNT还首次拥有24bit Z缓冲（Z－Buffer）以及8位的stencil buffer。



    TNT的设计目标是要达到Voodoo2两倍的性能，不过由于0.25微米制程在当时没有完善，NVIDIA只好采用了0.35微米制程，使得RivaTNT只能工作在90MHz下。不过即便如此，RivaTNT还是击败了Voodoo2，成为当时速度最快的3D加速卡。超过Voodoo2两倍性能的任务也就交给了后面的TNT2来完成。

    而且NVIDIA也注意到优良的驱动程序对充分发挥显示芯片性能的重要性，并为RIVA TNT编写了全新的驱动，并命名为“雷管”（Detonator）。

    凭借出色的3D性能，德国的ELSA 、美国的Canopus等四家显卡生产商宣布加入NVIDIA阵营，著名的Creative公司也在第一时间推出了基于TNT显示芯片的产品。9月，NVIDIA被《个人电脑杂志》评为最有影响力的显示芯片生产商，而TNT被Mercury研究公司评为速度最快的显示芯片。同时，NVIDIA还被OpenGL架构委员会吸纳为新成员，成为第一个加入OPGL ARB的专业显示芯片设计公司。

● NV5＝TNT2，性能翻倍，奠定NVIDIA王朝

    1999年4月，核心代号为NV5的RivaTNT2发布了，由于采用了0.25 微米制程，TNT2标准版的频率提高到125MHz，频率的提升以及核心内部的优化，RivaTNT2的性能有了一个较大的飞跃，性能在当时无人可及。后期RivaTNT2还采用了0.22微米制程，频率进一步提升。



名称
RIVA TNT
RIVA TNT2
架构
NV4
NV5
制造工艺
0.35 Micron
0.25 Micron
晶体管数目
7 Million
15 Million
DirectX支持
6
6
顶点管线
1
1
VS版本
-
-
像素管线
2 x 1
2 x 1
PS版本
-
-
核心频率
90 MHz
125 MHz
填充率
180 MTexels/s
250 MTexels/s
显存位宽
128-bits
128/64-bits
显存类型
SDR
SDR
显存速度
110 MHz
150 MHz
显存带宽
1.76 GB/s
2.40/1.00 GB/s
    从TNT2开始NVIDIA对产品进行了市场化细分，在高中低端，面向多种不同的用户，TNT2芯片衍生出TNT2 Vanta、TNT2 M64、TNT2、TNT2 Pro、TNT2 Ultra等不同的型号产品，搭配不同显存的容量，产品线覆盖了大部分的市场。
Inno3D TNT2 Ultra
    TNT2 Ultra是系列最高端产品，也是NVIDIA第一次使用Ultra后缀命名高端产品，TNT2 Ultra只是从NV6核心中挑选出的品质优秀的芯片，并搭配了速度最快的显存，其核心/显存频率高达150/183MHz，后期更是提高到175/200MHz，性能上超过了3DFX的VOODOO3 3500以及MATROX的G400 Max，而且支持的特效也很全面（比G400少一个EBM环境凹凸贴图），成为当时性能之王。当然TNT2 Ultra的售价也很高，当时丽台、华硕、创新等一线品牌TNT2 Ultra的国内上市售价高达2300元（1999年5月）。
    TNT2标准版是高端系列的普及型产品，也是TNT2 Ultra的降频版，核心/显存频率为125/150MHz，但是由于TNT2采用0.25微米工艺，核心普遍可以工作在150MHz左右，所以也造就了良好的超频能力，于是众多游戏发烧友更倾向于购买TNT2标准版版超频至TNT2 Ultra来使用，记得当时甚至还有不少玩家超到了165/200MHz的水平，性能也是也达到了一个新的高度。价格上TNT2标准版也更有优势，32MB显存的TNT2国内上市售价为1500-1750元左右，16MB的TNT2 Pro则在1350-1500左右。
● NV6＝NV5工艺改进版，TNT2 Pro/M64/Vanta诞生
    后期随着制程的进步，NV6也使用了0.22微米工艺，并被命名为TNT2 PRO，也被用于部分TNT2 Ultra。由于使用0.22微米制程后，TNT2 PRO的成本、功耗有、发热有明显下降，超频能力更强，性价比进一步提高。除了高中端的TNT2标准版外，NVIDIA同时也利用0.22微米工艺的NV6芯片，推出了针对中低端用户的TNT2 Vanta和TNT2 M64。
Inno3D TNT2 M64
    TNT2 M64是NVIDIA在中端的力作，针对125美元以下的主流市场，对手为S3 Savage 4 Pro。为了降低成本，其显存接口从128bit降到了64bit，显存带宽为1GB/s，其他方面和相差不大，最大也可以支持32MB显存容量，AGP4X规范。性能上M64介于TNT2 VANTA和TNT2 Pro之间，只是在高分辨率及32BIT色深下的性能下降不少。其在国内的上市价格也在1000元以下， TNT2 M64也成为中端市场曝光率最高的显卡，凭借出色雷管驱动程序，M64也战胜了Savage 4 Pro。整个TNT2家族在1999年几乎抢占了80%的独立3D显卡市场。使得NVIDIA不仅在技术上，在市场上也领先于3dfx。
TNT Vanta规格和M64相同，频率降至100/125MHz，主要面向OEM市场
   TNT Vanta是系列的入门级产品，针对OEM市场，相比TNT2 M64核心/显存频率降到了100/125 MHz，有8/16MB两个版本。价格也更低廉，价格在600元以内。由于性能不俗且价格优势明显，后期采用了0.22微米工艺NV6芯片的产品竞争力更强。NVIDIA第一次进军OEM市场便取得了非常好的成绩，也使在这一领域经营多年的ATI感受到了相当的压力，凭借RAGE系列出色的DVD解压能力，总算保住了一定的市场份额。
    1999年8月，伴随着微软DirectX7.0的发布，引入基于图形核心的多边形转换与光源处理（Transform and Lighting），而且10月上市QUAKE3引擎也采用了这种技术。

● 硬件T&L，首款GPU诞生，GeForce的时代来临

传统3D图形管线

    在Direct7时代,多边形转换和光照处理是由CPU负责的，大量复杂的数学运算对CPU造成了极大的负担，而GeForce 256可以支持硬件Transform and Lighting，也成为了第一个GPU图形核心。


    GeForce 256是被作为一个图形处理单元(GPU)来设计的，GPU是一个单芯片处理器。它有完整的转换、光照、三角形设置和渲染引擎(分别为:Transform、Lighting、Setup、Rendering)等四种3D处理引擎，一些以前必须由CPU来完成的图形运算工作现在可以由GeForce256 GPU芯片独立完成，大多数情况下具有完整的传输和光照相引擎的GPU运算速度比CPU快2-4倍，同时也有效地减轻了CPU的浮点运算负担，减少了对CPU的依赖性。

    NV10图形核心，为0.22微米工艺制造，集成了2300万个晶体管，在当时已经超过了PentiumIII的数量，本应采用0.18微米的制造工艺，不过为了尽早抢占市场，仍然采用了0.22微米，如此大量的晶体管数量芯片的发热和功耗也是不小的问题，NVID1A公司只好将其核心频率定为120MHz，不过凭借创纪录的有4条象素管线，峰值像素填充率达到480M/s，远高于TNT2 Ultra。

    Geforce 256具有了现代GPU的大部分的初步特征，核心采用了256位渲染引擎，具有4条象素管线，每管线一个纹理映射单元，它也是第一个使用DDR显存的PC显卡。Geforce 256核心频率为120MHz，三角形生成率为1500万个/秒，峰值像素填充率达到480 M/s，并使用了四纹理（Quad Texel）引擎，相同频率下，Geforce 256的纹理处理性能是TNT2的两倍。特效方面，支持立方体环境映(Cube environment mapping）以及顶点混合、纹理压缩和凹凸映射贴图等。视频方面，为了加强为MPEG-2视频回放性能，NV10中加入了硬件动态补偿功能。

GeForce 256 DDR

    GeForce 256 DDR的显存频率为300MHz，带宽由SDRAM的2.66 GHz提升至4.8 GHz，也达到了当时PC图形卡的巅峰，使得GeForce 256像素填充能力进一步爆发，在高分辨率下、32BIT渲染环境中表现趋于完美。由于当时DDR显存售价也是十分的昂贵，所以GeForce 256 DDR的售价也是高达到2500元以上。

GeForce 256 SDR

    GeForce 256 SDR版的售价上有不小的优势，在国内的售价至少比GeForce 256 DDR要便宜500元。其显存频率为200MHz，带宽2.4GB/S，这样对NV10核心的性能有了不小的限制，高分辨率、32为色深下的性能下降很大，几乎和TNT2 Ultra相近，但由于成本下降不少因此销量也不错。
● GeForce 2代，您知道GTS的含义吗？

    2000年5月，研发代号为NV15的新一代图形核心问世，由于其纹理填充率达到了创纪录1.6Giga texels/sec，也是第一个纹理填充率过亿的GPU，所以NVIDIA将其命名为GeForce2 GTS以纪念其特殊的历史含义。


    GeForce2 GTS 采用了更先进的0.18微米制程，核心频率200MHz，也具有4条象素管线，和GeForce256不同的是，每管线采用了两个纹理映射单元，这一经典的4x2架构一直延续GeForce4才结束。

    NV15采用了第二代的T&L引擎(2nd Generation Transform and lighting) ，支持立方体环境映(Cube environment mapping) 、顶点混合(Vertex blending)、材质保护(Protective textures) 、材质压缩(Texture compression）、逐象素着色控制（Per-Pixel Shading Control），核心还具有多结构图形Single Pass处理、硬体反锯齿(Anti-Aliasing)效果处理、各异向性过滤(Anisotropic)处理。

    GeForce2上也首开了PC图形核心通用计算的先河，凭借其强大的多纹理处理性能，结合纹理环境参数和纹理函数可以实现一些很灵活的应用。它具有Texture Shader以及Register Combiner单元，有一定的数值计算能力。开发人员可以利用Texture Shader的依赖纹理进行数据访问，用Register Combiner进行计算。GeForce2被用于求解数学上的扩散方程，成为GPU通用计算的最早应用。

规格一览

    值得注意的是，在GeForce2 GTS 上，NVIDIA Shading Rasterizer(NSR)技术被正式引入。NSR让处理器每次可对单一像素进行七项运算，包括：基本贴图、单像素曲面映射(bump mapping)、单像素diffuse lighting、单像素specular lighting、颜色烟雾效果、ambient light、以及Alpha transperency。过去，GPU对Vertex（即三角形的三点）上的像素进行运算，再以平均值来决定整个三角形的光影和bump mapping（凹凸映射）等效果。而NV15可以对三角形上的每个像素(Per-Pixel Shading )进行运算，因此光影效果更加细致和准确。

Geforce2架构图

    另外，相比GeForce 256，GeForce 2 GTS另一个进步是采用单周期双纹理处理技术，不仅拥有4条像素渲染管线，而且每管线每周期可以处理两个纹理贴图，当时游戏画面的提高基本上都是通过大量的多边形、更复杂的贴图来实现的，QUAKE3引擎以DirectX 7来说都是如此，所以强大的纹理贴图对提高游戏速度很有帮助。三角形生成率为2500万个/秒。

    GeForce2 GTS 的另一个革新在于其首次采用了0.18微米工艺制程，由TSMC制造的GeForce2 GTS(0.18微米,564 PBGA 封装)中，晶体管数目已经增加到了2500万，采用0.22微米GeForce256的晶体管数目为2200万到2300万。GeForce2 GTS的耗电量是GeForce256 18瓦特的一半，10瓦特左右，功耗大幅度下降。因此，GeForce2 GTS 也成为了核心频率首次超过200MHz的GPU。

GeForce 2 GTS 显卡

    由于完整支持DirectX 7.0与OpenGL 1.2 ICD，所以不仅在3D游戏的表现超越了所有的同级显卡，在工作站级3D应用设计上也有不俗的表现。GeForce2 GTS在多媒体性能也有一定的提高，可以连接更多的周边设备。 DVD压缩方面使用新一代Enhance Motion Compensation硬件解压缩，使得 DVD的品质与速度都非常不错。

视频功能强大

    2000年10月，在ATI正式发布Radeon256后，NVIDIA推出了GeForce 2 Ultra，依然牢牢控制着显示性能的制高点。


GeForce 2 Ultra

    GeForce 2 Ultra相比GeForce 2 GTS有着更高的显存及核心频率。其核心频率为250 MHz，所以GeForce 2 Ultra的峰值像素填充率达到了1GB/s，而其纹理填充率高到2GB/s，后来的GeForce3 TI 500甚至也没能超过这个高度，也遥遥领先于其竞争对手Radeon256。
● 细分产品线，高端GeForce 2 Ti出世：

    2001年秋，NVIDIA又推出了GeForce2 Titanium以及低频率版本的GeForce2 Ti VX，也成为了GeForce Titanium系列的开端。GeForce2 Ti其实就是改进了部分线路设计的GeForce2 Pro显示卡，规格与后者完全一样，GeForce2 Ti采用了全新的简化PCB，并减少周边PWM元件的使用。不过，GeForce2 Ti 的核心频率依然保持在250MHz，显卡的性能并不会受到影响，但其成本价格却会降低20美元左右。

Inno3D GeForce 2 TI

● 细分产品线，低端一代经典GeForce 2 MX出世：

    除了在高端领域独领风骚，在低端领域，NVIDIA也是大展拳脚，推出了支持硬件T&L的GeForce 2 MX，它是NV15芯片的简化版，面向中低端市场。Geforce2 MX具有两条像素管线和TNT2一样。虽然管道数减少，但是Geforce2 MX采用了源于NV15的部分特性，支持第二代硬件T&L。由于频率提高，材质填充速度也比Geforce 256的快。这让Geforce2 MX在中低分辨率下的性能并不逊于Geforce 256 SDR。Geforce2 MX可以支持64bit SDR/DDR SDRAM或者128bit SDR SDRAM，但去掉了对128bit DDR SDRAM的支持，对于只有2条像素管线的Geforce2 MX也确是没有必要。

Geforce2 MX

    Geforce2 MX推出后，迅速成为了市场的宠儿，在对于性价比更为关注的国内尤其是如此，很多国内用户都是从Geforce2 MX开始领略了3D游戏的魅力。它在全球范围内显卡市场上的出货量也是屡创新高，一直持续到GeForce4 MX440。NVIDIA继续采取了细分市场的策略，把Geforce2 MX分化成频率、显存规格的不同而分为MX400、MX200、MX100等几种产品，专业应用方面也推出了Quadro2 MXR，Geforce2 MX系列，可以满足不同层次、多种领域的不同用户的需求。

    GeForce2 MX 还不只是一个的精简版，芯片还增加了两个重要的特点。一是TwinView 技术，这一技术有点类似于Matrox 的双头技术，可以让一块显卡同时驱动两个独立的显示器。第二，就是它做了一些修改，可以支持 Macintosh平台。因此也被选中作为Apple Power Macintosh G4 的缺省高挡图形方案。

    2000年9月，NVIDIA推出了以Geforce2 MX 为基础的GeForce2 Go 登场。正式进军移动图形领域。

GeForce 2 MX 32M

GeForce 2 MX 200

    GeForce 2 MX 400是GeForce 2 MX系列的最高端产品，GeForce 2 MX 400核心与GeForce 2 MX完全一样，只是频率由175/166 MHz提升至200/166 MHz。由于有了完整128bit的显存支持，其性能表现相当不俗，全面领先于GeForce 2 MX 。

GeForce 2 MX 400

    这是采用Low Profile设计Inno3D GeForce 2 MX 400 64m 64 bit显卡，专为小机箱及准系统设计。

GeForce 2 MX 400 64M

    2000年底，NVIDIA以一亿一千二百万美元的价格正式收购了竞争对手3DFX，成为当时轰动一时的新闻，也标志NVIDIA成为了PC独立显示核心领域的霸主。不过2000年还有一桩收购虽然默默无闻，但是对后来的影响更大并持续到今天，那就是ATI收购ARTX。

● DX8时代，考验像素和顶点能力

    2001年以后，由于NVIDIA已经完成了对3DFX的收购，显卡市场演变为NVIDIA与ATI两雄争霸的局势。

    而在此时，微软正式推出了划时代的DIRECTX8 ，将可编程的着色管线概念正式引入到GPU,新的shaders（光影处理器）数据处理方式也是DirectX 8中最具意义的创新。Shader采用了新的数据处理程序模型，这与旧有的预定义模型是不同的。这种模型中，数据是透过virtual machine以一个类似于带有特殊汇编指令集的pre-arranged（事先安排好）程序进行处理的，程序员可以直接对其进行编程。

    凭借可编程几何管线和可编程像素管线，使用者可以自由的控制几何和像素的代码设计。这对于图形开发者是空前的，他们可以通过基本的着色器，利用开发工具，产生全新的，极具创造力的效果。也正是可编程管线的引入，为GPU发展翻开了新的篇章，GPU开始向SIMD处理器方向发展，凭借强大的并行处理性能，使得GPU开始用有了部分流式处理器特征。

● 首款DX8显卡，GeForce 3发布

    2001年初，NVIDIA正式发布Geforce 3 ，代号NV20。从Geforce 3开始，可编程的nFiniteFX SHADER引擎正式被引入，完整实现了对Pixel shaders和Vertex shaders 处理单元的硬件支持，Geforce 3也是2001年上半年唯一完全可以支持DirectX8.0的GPU。

    Geforce 3默认核心频率为200MHz，拥有4条管线，每管线2个TMU(纹理贴图单元)，这和Geforce 2是一样的，所不同的是Geforce 3还拥有一个Vertex shaders 单元，以及4个Pixel shaders单元，这也是和Geforce 2质的区别。

Geforce 3

    NVIDIA在Geforce3还在采用了第一代的“光速显存架构”（Light Speed Memory Architecture）采用了一系列新技术来充分利用显存提供的带宽。光速显存架构采用的第一个技术是“显存交错控制”技术，由芯片内核集成的专门的显存控制单元来完成。光速显存架构另一个技术是“无损Z压缩算法”，在不降低画质的前提下大大降低了Z-缓存数据对显存带宽的占用。除此之外，Geforce3中还加入了一个被称之为Z轴吸收选择（Z-Occlusion Culling）的技术来达到隐面消除技术（HSR）的效果以尽量减少不必要的资源消耗。

    不过Geforce 3上市后在当时大部分DX7以及QUAKE3游戏的主流分辨率中，GeForce 3并没有能完全超过GeForce 2 ULTRA，确实出乎所有人意料。但由于首次使用交错内存结构，超高的内存效率使得GeForce 3在高分辨率下还是有很强的优势。此后随时间的推着移，大量DIRECTX8的游戏上市，人们才意识到在画面Geforce 3特效方面带来的革新与震撼。

● 对抗8500，GeForce 3细分为Ti 500/200

    GeForce 3上市后，伴随着新一代DirectX8的游戏引起了不小的轰动，市场反响也很不错，，但是300多美元的售价阻碍了GeForce 3的普及。2001年秋，NVIDIA又对市场进行了细分，由GeForce 3派生出面向中端的GeForce 3 Ti 200和具有最优异性能、直接对抗Radeon 8500的GeForce 3 Ti 500。

GeForce3 Ti200

   GeForce3 Ti200相对于标准版的GeForce 3，核心/显存频率从200/230 MHz降至175/200 MHz，这样在性能上与GeForce 3标准版拉开了一定的距离，而且较低的运行频率提高了使得对良品率的要求不再苛刻，同时供电电路的精简也使板卡厂商降低生产成本。过低的默认频率也给了GeForce3 Ti200相当大的超频潜力，从而成为当时2000元左右最具性价比的高端产品。由于硬件上可以完整支持DirectX8，在这个价位上优势明显，所以迫使对手ATI把仅支持DirectX7的Radeon 7500从上市初的1999元降到了1500以内。根据当年测试表明，Inno3D GeForce3 Ti200显卡凭借出色的品质很容易通过超频达到GeForce 3标准版的200/230 MHz频率下，受到游戏玩家的追捧。

GeForce3 TI500

    GeForce3 TI500拥有系列中最高的频率，达到240/250 MHz。GeForce3 Ti500使用8层PCB以及更奢华的作工用料来确保高频率下的稳定运行，价格因此也居高不下，当时售价为3000人民币左右。面对晶体管数量更多、频率高于自己Radeon 8500，GeForce3 TI500得益于优秀的驱动支持，在于Radeon 8500对抗中丝毫不落下风，但功耗方面却更具优势，成为当时高端游戏显卡的首选。

    由于竞争对手ATI在2001年秋发布了的Radeon 8500，也是在高端市场上第一次略微领先了NVIDIA。虽然凭借出色的驱动支持，TI500在游戏中仍然有一定的优势，但是即使这样，Radeon 8500和TI500的势均力敌的态势，还是给了NVIDIA一定的压力。

● 为了王位！GeForce 4 Ti发布

NV25

    于是，2002年2月，NVIDIA发布了研发代号为NV25的GeForce4 Ti系列显卡，也是DirectX 8时代下最强劲的GPU图形处理器。。GeForce4 Ti芯片内部包含的晶体管数量高达6千3百万，为改良的TSMC 0.15微米工艺生产，采用了新的PBGA封装，运行频率达到了300MHz。核心集成的6300万个晶体管相当于Athlon CPU的2倍，发热也不小，所以GeForce4 Ti系列显卡上都配备了散热风扇。

NV25核心内部

    NV25拥有4条素管线，每管线2个TMU(纹理贴图单元)，这和前两代产品是一样的，所不同的是Geforce 4还拥有2个Vertex shaders单元，以及4个Pixel shader单元。

GeForce4 Ti采用了第二代nfiniteFX 引擎，它是从GeForce3时代开创的nFiniteFX引擎改进而来的，顶点SHADER单元增加到2个，像素着色单元的效率显著的提升。GeForce4 Ti也同时引入了第二代LightSpeed Memory Architecture II(LMA II)光速显存构架技术，在全屏反锯齿方面，GeForce4 Ti采用了新的Accuview AA技术。从总体上看，GeForce4 Ti也是从GeForce3的加强优化版本，核心增加了一个顶点单元，同时频率也比GeForce3有了很大的提升。

    NVIDIA采用和以往相同的方法，通过运行频率的高低将高端的GeForce 4 Ti系列细分为4600、4400、4200三个系列，其中的GeForce 4 Ti 4200性价比高，性价比高，深深受消费者喜爱。其原本用于OEM市场，也是寿命最长的一款GeForce 4 Ti产品。

    后来随着AGP8X规范的普及，NVIDIA推出了NV25的AGP8X版本—NV28，核心频率和显存频率略有提升。NV28也有三个型号的产品：GeForce4 Ti4200-8X和GF4 TI4800SE和GF4 TI4800。GeForce4 Ti4200-8X和GF4 TI4800SE和GF4 TI4800可以看成是GeForce4 Ti4200、GeForce4 Ti4400、GeForce4 Ti4600的AGP8X版本。

GeForce 4 Ti 4200

    在2002年2月5日NV25和NV17发布后，分别对应高中低端市场的GeForce4 Ti4600、GeForce4 Ti4400与GeForce4 MX460、GeForce4 MX440、GeForce4 MX420都相继上市，只有GeForce4 Ti4200则一直没有露面。主要原因是价格定位在179美元左右的Ti4200和GeForce4 MX460、GeForce3 Ti200完全重叠，而且nVIDIA也正需要一段时间来消化自己的GeForce3 Ti200库存，GeForce4 Ti4200的推迟推出也就不足为怪了。也成为了有史以来性价比高的显卡。


    GeForce4 Ti4200又分为64MB和128MB两个版本。64M版本GeForce4 Ti4200会搭配64MB的3.5ns DDR SDRAM显存(频率500MHz)，128MB版本则搭配128MB钓4ns的DDR SDRAM显存(频率444MHz)。从官方价格上看，后者会比前者贵20美元，显然对于游戏玩家来说。64M 3.5ns DDR SDRAM的版本是非常好的的选择。

    GeForce4 Ti4200作为nv历史上最经典的产品之一，它的寿命也是非常长的。横跨了200－2004年，在2004年中后期，由于低端的 GeForceFX 5200及 GeForce4 MX440性能不济，而GeForceFX 5700短时间还无法降价，使对手的Radeon 9550在低端市场给NVIDIA造成了的冲击相当的大，为了挽回局面，Ti4200又被临危授命，重新披挂上阵，并以500元左右的超值价格发售。由于Ti4200的DX8性能仍旧高出当时市场上的大多数低端显卡，也深受广大主流用户的喜爱。

    而且，当时国内无论是NVIDIA一线AIC厂商还是众多通路品牌，都非常配合的推出了GeForce4 Ti4200产品，一方面反映了Ti4200产品本身的高性价比，另外也可看出NVIDIA与众多AIC厂商的患难与共、默契配合。

GeForce 4 Ti 4400

    Inno3D GeForce 4 Ti 4400显卡，该显卡使用了和GeForce Ti 4600相同的PCB，只是用料上略有简化。也是唯一一款Inno3D品牌的红色PCB的显卡产品。

    GeForce 4 Ti 4400的运行频率275 / 275 MHz，和GeForce 4 Ti 4600一样使用8层PCB及3.6 ns显存颗粒。由于频率和GeForce 4 Ti 4600相差不大，性能也接近GeForce 4 Ti 4600，但价格却下降不少，所以性价比也更高。

GeForce 4 Ti 4800SE

    GeForce 4 Ti 4800se显卡采用NV28图形核心，支持AGP 8X，后期的产品工艺更加成熟，核心的发热及功耗有所下降。所以GeForce 4 Ti 4800se频率275 / 275 MHz，GeForce 4 Ti 4400相同，但没有使用加长的PCB，供电电路也有所精简。

GeForce 4 Ti 4600 128MB

   GeForce Ti 4600是系列的最强的产品，GeForce 4 Ti 4600显卡使用了加长型PCB,供电电路较另两款产品更加充足，并使用了3NS的mbga封装的GDDR显存。GeForce 4 Ti 4600工作频率为惊人的300 / 300 MHz，对于一款拥有6400万晶体管的核心来说，在当时实在是难能可贵。不过GeForce Ti 4600 当时300美元以上的售价也是非常昂贵，所以只能成本展示技术实力的“SHOWCASE”产品。
● 不能磨灭的经典，GeForce 4 MX系列

NV17核心内部

    除了高端的GeForce 4 Ti 系列，在中低端， nVIDIA推出了核心代号为NV18的GeForce 4 MX440，GeForce 4 MX 定位于GeForce 2 MX 的升级产品。NV18具有两条像素管线，并且每条像素管线拥有两个纹理单元，是唯一一款2x2架构的核心，像素处理单元也被简化掉了，晶体管数量也由5700万缩减为了2900万，对手是Radeon7500和Radeon7200。不过由于其部分特性源自GeForce 4，拥有较高的核心效率，高于在很多DX7尤其是OPENGL应用中可以领先GeForce 2 GTS以及低频率的TI200。

    GeForce 4 MX也支持nView技术，以前的GeForce2 MX也能实现双显示输出，但都是依靠额外的附加芯片来完成的，在GeForce4 MX中已经将DVI/CRT双头显示以及TV OUT视频输出等功能都集成进了显示芯片内部，所以很容易实现nView功能。

　GeForce4 MX具备硬件的MPEG-2 视频解码能力，它除了动态补偿功能，还具备了IDCT运算支持，可以大幅降低进行MPEG-2 视频解码时的CPU 占用率。



    由于在2002年中，主流游戏还没有完全过渡到DX8,而且QUAKE3引擎仍然为很多的游戏所采用，在游戏市场中仍然不小的比例。GeForce 4 MX 440还有很大的生存空间。在中低端由于竞争对手的产品没有得力的产品，MX 440迅速占领了市场，成为低端市场上名副其实的霸主。

    和GeForce 2MX系列一样，GeForce 4 MX 也分为了 GeForce 4 MX 460 / 440 / 420三款产品但是由于GeForce 4 MX 420采用64BIT显存，性能也是最低。为了提高产品的性加比，nVIDIA还推出了GeForce 4 MX 440SE，显存搭配更灵活，超频空间更大。以上显卡均基于NV17图形核心，除了在芯片频率和理论填充速率这几个指标上略有差异以外，它们最重要的差别在于GeForce4 MX460/MX440支持DDR显存，而GeForce4 MX420只能支持SDRAM显存。

    GeForce4 MX460核心/显存频率为300MHz/550MHz，性能在该系列中最强大，但价格偏贵甚至和GeForce4 4200相当；而GeForce4 MX440核心频率为270MH/400MHz。最低端GeForce4 MX420，核心频率只有250MHz，而且搭配了166MHz的SDRAM显存。

GeForce 4 MX 440 8x 64m

GeForce 4 MX 440SE

    GF4 MX440SE的定位是取代GF2 MX400，基本保持MX 440的性能同时降低产品的成为，MX440SE与MX440的区别只在于后者对64bit ddr、128bit SDRAM显存提供了支持.   GeForce4 MX440 SE芯片的额定工作频率为250MHz，相对于MX440低了20MHz；官方推荐搭配128bit 6ns DDR显存，工作频率只有333MHz，而GeForce4 MX440是400MHz DDR，略微低了一些

GeForce 4 MX 440 64bit 32M

    MX440系列以良好的性价比，成为低端显卡市场中主流产品。为了更多的延续低端热门显卡MX440系列的生命，NVIDIA后来还推出了GeForce MX4000图形显卡，其实是以前GeForce4 MX440-8X的NV18B版。NV18B芯片支持128MB或64MB容量的128-bit / 64-bit DDR显存，可以使用FX5200的PCB板来生产MX4000产品，其核心/显存频率为275/400 MHz，支持D-Sub、DVI-I和TV-Out端口。核心整合TMDS和S-Video控制器，采用128位显存位宽的产品性能与GeForce4 MX440-8X相当。

    总的来说GeForce 4系列产品获得空前的成功，由于对手ATI在8500、7500犯下了严重的错误－－片面的追求显卡的性能而丧失了自己一贯成本的优势，另外，ATI Radeon8500 在设计上也有不少问题，不仅核心着色体系的效率低下，而且ATI一直以来的驱动问题也反映的很明显，使得Radeon8500在竞争中一直处于劣势。而Radeon7500则由于采用了2x3架构，较多的TMU单元带了的性能提升很小，却导致了成本的上升。不仅在零售市场，ATI传统优势的OEM市场也逐渐被GeForce 所蚕食。甚至在移动领域，GeForce 4 mx440 go的出现，使得NVIDIA在在产品的性能和功耗上找到了一个较好的平衡点，也占据了一定的份额。在这一时期，ATI在竞争中完败于NVIDIA，不过这也客观上加速了ARTX从幕后走向台前。

● 最具争议的作品——GeForce FX系列

    公元2002年11月18日，Comdex 2002上，NVIDIA发布了研发代号NV30的GeForce FX，这也成了历史上Nvidia最具争议的一款产品。在回顾GeForce FX系列产品前，我们不妨先对NV30的问世背景做个简单介绍。

GeForce FX看上去很美好

    众所周知，从DirectX 6时代确立优势地位以来，经过DirectX 7、8两代的发展，伴随着与微软的良好合作，NVIDIA成为了桌面PC独立显示核心的霸主，市场占有率成倍提升。在收购了3DFX以后，NVIDIA又通过GeForce 3、4两代产品在市场占有率方面击败了另一个对手ATI，而且，通过雄厚的技术实力，其每半年更新一代的做法也令对手疲于奔命。随着GeForce 4的成功，NVIDIA也处于历史上的最巅峰时期，产品不仅局限于PC显示核心，更延伸到主版芯片组，电视游戏机领域。

    不过NVIDIA的一家独大也引起了一些业内人士的不满，他们指责NVIDIA是图形业内的INTEL。当然这也使与NVIDIA一贯合作良好的微软有所注意，尤其是NVIDIA在DirectX 8标准制定过程中的某些做法以及开发自主的CG语言等，使得微软不等不重新审视这个昔日的合作伙伴，两家公司的开始逐渐变得貌合神离。

    后来，在NVIDIA为微软提供XBOX硬件解决方案的过程中，随着制造工艺的进步，硬件产品的制造成本是逐渐下降的，但是NVIDIA与微软的合同中并未考虑这一点，等到微软意识到这一点后，希望修改合同中的部分内容，但却遭到了NVIDIA的拒绝……

DX9第一代产品让NVIDIA一败涂地

    作为回应，DirectX 9规范的制定过程中，竟然没有考虑任何NVIDIA的意见。在参考了ATI的部分提议后，微软将24BIT渲染精度、着重于Shader并行处理性能等作为DirectX 9的主要特点。除此之外，在年底发布的3DMARK03中，微软的影响也是显而易见，NVIDIA这时再也按耐不住，对3DMARK的开发公司Futuremark进行了公开的指责。

NVIDIA忙碌于芯片组的研发

    再来看NVIDIA自身方面，2001年秋到2002年底也是其历史上最忙碌的一段时间。除了半年一次的GPU升级之外，NVIDIA还要根据合同为微软开发XBOX用SoundStorm音频处理芯片以及XBOX的主板。而且在主版芯片组领域，NVIDIA的压力更大，在经历了NForce遭受冷遇的开局后，无疑对雄心勃勃的NVIDIA打击不小。所以在NForce2上，NVIDIA倾尽全力，誓要在AMD平台与VIA一较高下。摊子铺的过开，也使NVIDIA开发资源变得分散。

    综上所述，在这种大背景下，经过数次延期修改，并打破了NVIDIA过去半年发布一款核心的规律之后，NV30问世了。由于采用了3DFX的反锯齿技术，NVIDIA将其正式命名为GeForce FX 5800 Ultra，并于2003年初上市。



    NV30像素管线部分采用了成熟的4X2架构，为当时领先的0.13微米制程制造，核心集成的晶体管数达到创纪录的1.25亿个，由于较高的默认频率，所以其功耗、与发热非常之大，为此NVIDIA使用了称为名为“FX Flow”的散热系统，包含一个铜制散热片、热管和换气装置。

“FX Flow”散热系统

    GeForce FX 5800 Ultra使用Flip-Chip封装设计，频率提高到了惊人的500MHz。BGA和Flip-Chip封装方式的芯片，可以直接和插槽接触，缩短布线距离，同时也提高了信噪比，可以适应更高频率，并降低功耗。

Flip-Chip BGA
    核心渲染架构方面，NV30首次引入了CineFX着色引擎。其中的Cine是Cinematic（电影般的）的缩写，而FX则表示其部分技术源自3DFX。CineFX的意思就是指新一代核心可以渲染出电影般的视觉效。

CineFX引擎

    在CineFX着色引擎中，具有32个128位浮点处理器。并在PC图形核心历史上首次提供了128bit色彩精度的支持，并且可以在同一个着色程序中的不同色彩精度中切换。

SHADER规格对比

     NV30的顶点着色单元较前代也有了质的飞跃，可以支持到Vertex Shader 2.0+，所能处理的最大指令数为65536，这一点远远高于DX9.0的规范。而且，初级的动态循环和分支指令的引入提高了着色单元的可编程性。像素着色单元支持Pixel Shader 2.0+，同样也超出了DX9.0规范，最大指令数提高到1024，对于每一个像素最大可进行16个纹理贴图操作，而且像素单元可以支持更多的高级指令，并且可以进行指令预判。总的来说，CineFX引擎支持更多的指令，因此可以带给开发者更大的发挥空间。

    同时CineFX引擎也可以很好的支持NVIDIA的Cg(C for Graphics)编程语言，使得开发人员可以利用Cg语言而无需针对底层硬件进行编程，从而降低了图形编程的难度，可以更方便、快捷的开发出游戏所需要的渲染效果。

高度灵活的CG语言

    在反锯齿方面，4X FSAA是NV30设计的中心，也是NV30硬件效率最高的操作。为了使4X FSAA运行更快，NV30在反锯齿设计上进行了重新制定，每个数据通道的宽度都为4X FSAA做了优化。同时，NV30还首次采用了Intellisample（智能采样）、（Adaptive Texture Filtering）自适应纹理过滤等技术一提供更好画面质量。

让人想入非非的渲染效果

    在内存控制方面，NV30采用了4X32bit共128bit的位宽。由于采用了全新的DDR-II显存，所以NV30在GeForce 4的LMA II的基础上（Lightspeed Memory Architecture，光速内存结构）针对DDR-II做了相应的优化设计。这款内存控制器实际上是全新设计，对4X FASS进行了全速优化。ROP（光栅化处理器）、帧缓存等都是根据它来设计的。而且它运行在2X的核心频率上，可以充分利用DDR-II的特性。

DDR-II SDRAM

    GeForce FX 5800 Ultra的DDR-II SDRAM显存运行频率为1GHz，不过由于是128BIT位宽，和对手的Radeon 9700相比，其峰值带宽落后25％。但由于新型LMA内存控制器提高了Z-culling和压缩方面的性能，顶点、纹理和Z轴数据都进行了压缩以节省带宽，在程序配合较好的情况下，NV30可以更有效的使用带宽。再加上Z-occlusion和纹理压缩等技术，GeForce FX 5800 Ultra的实际最大带宽可以达到20GB/s。

    虽然在2002年11月18日NV30就已经发布，但是由于0.13微米制程等因素的延误，直到2003年2月，GeForce FX 5800 Ultra才正式上市，而且由于当时0.13微米工艺并不完善以及较高的核心频率，导致NV30芯片发热量极大，必须采用“FX Flow"散热系统。为了保证核心以及DDRII显存在高达500MHz的频率下稳定工作，nVidia不等不比较独特的采用12层PCB设计，同时供电电路的做工用料也是非常豪华，再加上DDRII显存在当时的价格也是十分昂贵，这些因素使得GeForce FX 5800 Ultra的成本异常之高且功耗也十分巨大。所以其上市售价也接近500美元，十分惊人。由于上市时间的延误以及核心自身的不成熟，GeForce FX 5800系列的辉煌也只持续了不到3个月，就被下一代的GeForce FX 5900所替代。
● 备受指责的5800衍生物——FX5600和FX5200

    由于GeForce FX 5800 Ultra高昂的价格，显然很难为普通的消费者所接受，旗舰级产品更多的是为了技术实力，只能面向规模较小的高端市场。为了加快GeForce FX系列的普及，2003年3月的GDC大会上，NVIDIA发布了面向主流市场的NV31和NV34，即GeForce FX5600和GeForce FX5200系列，这标志着NVIDIA开始全面更新其产品线，使得更多的普通用户也可以体验到GeForce FX系列的新技术。

    按照以往惯例，GeForce FX 5600系列按工作频率不同分为GeForce FX 5600 Ultra和GeForce FX 5600两个版本，GeForce FX 5200系列也同样包括GeForce FX 5200 Ultra和GeForce FX 5200两个版本，它们的核心设计上都基于NV30的“CineFX"架构，这意味着它们在对3D特性上的支持基本与GeForce FX 5800 Ultra相同。

规格一览

    Geforce FX5600 Ultra显示芯片内部研发代号为NV31，同样采用0.13um制程工艺生产，晶体管数量约为8000万个，和NV30相比减少了36％。产品定位于Geforce Ti4200接替者，是DX9级别的中端主力显卡。NV31采用了四条像素管线，每条管线的纹理单元缩减到了一个，也是进入Shader时代后，NVIDIA第一个基于4×1架构的核心。显存方面，NV31采用了主流的DDR，虽然速度不及FX 5800 Ultra的DDRII，但是成本及功耗都有大幅的下降。NV31的显存控制方面也有所变动，用两个64-bit显存控制器而不是FX 5800那种四个32-bit显存控制器的设计。NV31也采用CineFX引擎，具有与高端NV30完全一样的技术特性，不过浮点运算单元的数量被精简，具体为Vertex Shader缩减到NV30的1/3，Pixel Shader数量则为NV30的3/4。

    Geforce FX5600 Ultra是系列的最强版本，核心频率最初为350MHz，后来经过改进后提升至400MHz。虽然GeForce FX 5600 Ultra被定为Ti4200接班人，但早期低频版（350MHz）在当时的一些游戏中得性能提升得有限，甚至在部分游戏中还输给了超频后的GeForce4 Ti 4200，这样的表现无疑令人感到意外。面对Radeon 9600 PRO的强劲攻势，GeForce FX 5600 Ultra显然难以招架，只能将对手定为Radeon 9600。

    为了进一步提升Geforce FX5600 Ultra的竞争力，NVIDIA协同TSMC将NV31的封装方式进行了改进，核心频率也提升到400MHz，和Radeon 9600 PRO相同。同时，显存速度也提升到800MHz，这时FX5600 Ultra才真正超越了GeForce4 Ti 4200，与Radeon 9600 PRO也的差距被缩小了很多。不过这也延误了不少时间，新版的FX5600 Ultra直到7月份才上市，让Radeon 9600 PRO独占中端市场数月之久。NVIDIA后来还迁怒于TSMC，并将Geforce FX 5700的NV36核心改由IBM生产。

    Geforce FX5200 Ultra显示芯片的研发代号为NV34，目的是取代Geforce MX440，FX5200的出现也标志着NVIDIA的低端产品线跳过了DX8而直接进入DX9。NV34采用更为成熟的0.15微米工艺，集成的集体管数目大约在4500万个。架构方面和NV31相同，具有4条像素管线及4个TMU单元。NV34核心作为Geforce FX家族中的低端产品，但也采用了CineFX引擎，完整支持DirectX 9.0的Pixel Shader 2.0+与Vertex Shader 2.0+ ，但是去掉了对IntelliSample技术的支持。不过NV34集成TV编码器、TMDS传送器和两个350 MHz RAMDAC，支持高画质电视输出，在多媒体方面有更好的表现。

    Geforce FX5200 Ultra的核心/显存频率分别为325/650MHz；5200标准版则为250/400MHz。Geforce FX5200的推出有效缓解了NVIDIA在低端市场的压力，因为只支持DX7的MX440已经无法胜任新一代游戏。同时在DirectX 规格上Geforce FX5200 也领先对手的Radeon 9000和Radeon 9100。



GeForce FX 5200 Ultra

    GeForce FX 5200 Ultra是NV34系列的的最高版本，运行频率325/650MHz，性能较上一代的MX460有一定的提升，而且规格上也是全面领先。但是较高的工作频率使得FX 5200 Ultra必须使用6层PCB（Inno3D 这款采用了8层的公板P140 PCB）以及外接供电设计，这些都提高了该产品的生产成本，FX 5200Ultra版本比普通版本高出至少20美元，接近于FX 5600 XT的售价使其在当时低端市场的地位也是比较尴尬。



GeForce FX 5200 TV Tuner

    在低端显卡的市场上，消费者往往对产品的3D性能并不十分关心，但是对显卡的多媒体功能有较全面的的要求，所以Inno3D还推出了GeForce FX 5200 TV Tuner,也是NVIDIA Personal Cinema系列的第二代产品，针对当时的All-In-Wonder Radeon 9000。FX 5200 TV Tuner显卡上板载了一颗数字高频头，以及飞利浦或者其他第三方的解码芯片，配合附送的丰富的专业处理软件，可以为用户提供从家庭影院到视频剪辑、编辑等全方位的数码娱乐体验。总的来说，虽然进入多媒体领域较晚，但是凭借Personal Cinema系列的出色表现，NVIDIA大有后来者居上的架势。



GeForce X5600Ultra

    GeForce FX5600Ultra作为系列的最高版本，其做工用料也是非常出色。为了保证高频下的稳定工作，NVIDIA专门为它开发了成本高昂的但具有优良电气性能的P140公版，早期Wirebond封装的NV31核心采用的的PCB是P140/A02版本，后期FC-BGA封装核心为P140/A04。P140公版为8层PCB设计，而且只支持MBGA封装的显存颗粒，同时供电部分也采用了较多的三洋OSCON固态电容，因而FX5600Ultra也有不错的超频潜力。

    但是遗憾的是，由于0.13微米工艺的不成熟，NVIDIA在NV31核心的生产过程中并不顺利，产量始终难以满足市场的需求，而且由于NV31核心设计上的不成熟，很快就让位于NV36核心的GeForce FX5700Ultra。


FX5600频率较低，被动散热足以搞定

    Inno3D GeForce FX 5600是系列中的主力产品，相比成本高昂的GeForce FX5600Ultra，FX5600标准板的价格更加贴近主流用户，因而出货量也是系列中最大。FX 5600标准板核心/显存的工作频率分别为325MHz/550MHz，核心频率非常接近FX5600Ultra的350MHz，所以性能与FX5600Ultra的差距不是很大，由于采用了6层PCB，其成本也得到了较好的控制，性价比更高。由于在2003年DirectX 9的游戏还不多见，所以GeForce FX 5600在大多数游戏中还是显示出了不错的性能。同时在当时市场上，Ti4200已经略显老态，Radeon9500缺货现象严重，因而FX5600标准板也为多数主流用户所采用，取得了不错的市场份额。



性价比出色，Radeon 9600 SE的克星

    GeForce FX5600XT是GeForce FX5600的低频率版本，默认频率为235/400MHz，公版采用128 bit的4ns显存，售价和GeForce FX5600标准版相比也更加低廉。这也是NVIDIA 首次用“ XT"后缀命名同系列的低端产品，GeForce FX5600XT也是FX5600系列的最低版本。这和对手ATI用“ XT"后缀命名高端显卡的方式正好相反，也容易使用户产生一定的误解。由于GeForce FX5600XT和标准板一样采用了nv31核心，其性能还是得到了相当程度的保证，而且多数FX5600XT都可以超频达到标准板的工作频率，所以FX5600XT还是具有不错的性价比，在多数的非DX9游戏中都可以领先Radeon 9600 SE。<
● 重新审视NV30的失败之处：

    现在回过头来看，NV30在架构的设计上还是存在着不少问题，其中最主要的就是Piexl Shader的处理能力低下。由于NV30的Piexl Shader单元没有co-issue(标量指令+矢量指令并行处理)能力，而在DirectX9.0中，单周期3D+1D是最常见指令处理方式，即在很多情况下RGB+A是需要非绑定执行的，这时候NV30就无法并行执行，指令吞吐量大大降低。其次，NV30没有miniALU单元，也限制了NV30的浮点运算能力。

RGBA处理过程
    另外，NV30在寄存器设计（数量及调用方式）、指令存储方式（读写至显存）等方面也有缺陷。NV30的寄存器数量较少，不能满足实际程序的需要。而且，用微软的HLSL语言所编写的pixel shader2.0代码可以说NV30的“天敌”，这些shader代码会使用大量的临时寄存器，并且将材质指令打包成块，但是NV30所采用的显存是DDR-SDRAM，不具备块操作能力。同时，NV30材质数据的读取效率低下，导致核心的cache命中率有所下降，对显存带宽的消耗进一步加大。
寄存器调用
同时，由于NV30是VILW（超长指令，可同时包含标量和SIMD指令）设计类型的处理器，对显卡驱动的shader编译器效率有较高的要求。排列顺序恰当的shader代码可以大幅度提升核心的处理能力。NVIDIA也和微软合作开发了"Shader Model 2.0A"，可以为NV30产生更优化的代码。在早期的一些游戏中，这种优化还是起到了一定的作用。但对于后期Shader运算任务更为繁重的游戏则效果不大。

shader代码

    从宏观上说，NV30的整体架构更像是一个DirectX7（固定功能TRUE T&L单元）、DirectX 8（FX12combiner DX8整数处理单元）、DirectX 9（浮点像素单元）的混合体。而在DirectX 9的应用中，不能出现非浮点精度的运算，所以前两者是不起作用的，造成了NV30晶体管资源的浪费，同时也影响了性能。而NV30这种DirectX 7、8、9三带同堂的架构也让我们想起了一个至今仍在广泛使用的3D测试软件: 3DMark03——这会是一种巧合吗？

    虽然NV30的架构决定了它在DirectX 9游戏中的表现不会很好，但是由于在整个2003年，DirectX 9并未成为游戏开发的主流，所以NV30的架构缺陷并未暴露出来。即便如此，NVIDIA还是意识到了NV30的一些不足，并迅速对NV30的像素着色单元做出了改进，并于2003年5月的GDC上,发布了新一代研发代号为NV35的5900系列。

● 亡羊补牢之作——NV35，FX5900

    NV35芯片采用更加成熟了的0.13微米铜互联工艺，芯片的良率比NV30大幅度提升。核心面积为40mm×40mm，采用1309针FCPGA封装，内部晶体管数量达到了1.3亿。虽然比NV30又增加了500万个晶体管，不过通过改进的工艺，NV35的发热量略有降低，因此没有搭配Flow FX散热系统。
NV35
    新的NV35采用了CineFX2.0引擎，和第1代CineFX相比，NVIDIA对Piexl Shader做出了一定的改进，在保留FX12 combiner的同时增加了两个可进行浮点运算的miniALU，虽然miniALU的功能有限，但是还是使得NV35的浮点运算能力提高了一倍。

    NV30中的CineFX2.0还改进了Intellisample（智能采样）技术，增加了更多的高级纹理、色彩以及Z轴压缩算法以提升图象质量，并重新命名为“Intellisample HTC（高分辨率压缩技术）”技术。

UltraShadow技术

    CineFX 2.0引擎引的另一个改进是引入了UltraShadow的技术。UltraShadow也可以说是为IDSoftware的新一代DOOM3引擎量身打造的，因为DOOM3引擎大量采用了体积阴影技术（Volumetric Shadow），Shadow Volume可以更加精确的表现动态光影效果的场景，但由于阴影体积引入了额外的顶点和面，也加大了光影计算的强度。而Ultra Shadow可以简化光影计算的过程，它允许程序员定义场景中一个区域，将物体的阴影计算限定在一个特定范围内，从而加速阴影的计算速度。此外，UltraShadow技术还允许程序员在一些关键的区域对阴影进行调整，从而创造出可与真实情况媲美的优秀视觉效果。Ultra Shadow还能利用Intellisample HTC技术以确保阴影边缘的
平滑，提高了最终输出的效果。

GeForce FX 5900 Ultra

    由于NV30核心是采用128bit位宽的显存控制器，GeForce FX5800Ultra即使搭配很高工作频率的DDR II显存，在付出了更大发热量和更高成本的代价下，显存带宽（16Gb/s）仍然低于采用256bit DDR I规格显存的Radeon 9700 Pro。所以在NV35也采用了256bit显存控制器，不但可以提升是显存带宽，利用普通的DDR显存代替DDR II还可以减少显卡的成本，而且频率降低后的发热量也小的多。最终，GeForce FX 5900 Ultra搭配的850MHz DDR-I显存可以提供的带宽高达27.2GB/s。

    NV35刚发布时有两个版本——GeForceFX 5900和5900 Ultra，核心频率分别为400MHz和450MHz，而显存频率都是850MHz。因此显存带宽达到27.2GB/s，不仅远远超过GeForceFX 5800 Ultra的16GB/s，也比Radeon 9800Pro的21.8GB/s高出不少。

    虽然在5月发布的5900系列为NVIDIA在高端产品线挽回了不少损失，但是在市场规模、利润最大的中端方面，却面临更严峻的形势，由于ATI在3月发布了RV350，也就是Radeon 9600 系列，再加上因为具有修改潜力而已经颇具人气的Radeon 9500，使其竞争力大幅度提高，而NVIDIA则只能由经典但已显老迈的TI 4200、新一代的5600 Ultra来抵挡ATI的攻势，但是早期的5600 Ultra（350/700）因为自身架构和频率的原因，难以独当一面，在一些应用中性能甚至不敌Ti4200。后期的高频版5600 Ultra（400/800）则迟到了近2个月而且产量有限，业界还传出了NVIDIA在GeForce FX 5600 Ultra的生产上遇到了困难的消息。总之，NVIDIA的一系列变故使得ATI在中端主流市场轻松的获得了领先。

三款FX Ultra版显卡，5800、5900和5950

    直到2003年10月24日，NVIDIA在全球正式发布其代号NV38和NV36的全新一代图形芯片，分别将其命名为GeForce FX 5950 Ultra以及GeForce FX 5700 Ultra。NV38采用了更为成熟的0.13mm的生产工艺，有利于产能的扩大以及芯片频率的提高、功耗的下降。FX 5950 Ultra 的工作频率由FX 5900Ultra的450MHz/850MHz提高到475MHz/950MHz。
    显然由于市场竞争的激烈态势，GeForce FX 5700 Ultra才是这次发布的重头戏。GeForce FX 5700芯片的开发代号为NV36，目的是替代GeForce FX 5600和GeForce FX 5600 Ultra。NV36内部集成了8200万个晶体管，虽然同样为4X1架构，具有4条像素管线及每管线一个TMU单元，由于继承了NV35的Cine FX2.0体系架构和Ultra Shadow阴影加速技术，顶点处理能力、特别是浮点性能比NV31提高了200%--300%。显存方面和NV31相同，使用了两个64-BIT显存控制器支持128-BIT的显存位宽。

    有鉴于在NV31核心的生产遇到的种种意外，这次nVidia 将NV36交由IBM 生产，GeForce FX 5700也是IBM与nVidia合作的第一款产品。不过GeForce FX 5900/5950仍由TSMC负责生产。和GeForce FX 5600一样，GeForce FX 5700也基于0.13微米工艺制造，但是IBM采用了低介电系数材料工艺(low-k dielectric)，用来绝缘核心中的导体环路，在不增加功耗的情况进一步提升核心频率。

    所以GeForce FX 5700 Ultra核心频率提高到475MHz，比FX 5600 Ultra高出75MHz。显存方面则搭配了日趋成熟DDR2的显存，工作频率900MHz，提高了性能的同时，也减少了功耗。后来，GDDR3显存的FX5700Ultra，GDDR2跟GDDR3的针脚是兼容的，所以不用重新设计PCB。由于GDDR-3的Latency比GDDR-2要高，所以将其显存工作频率升至950MHz 。
    整体来看，GeForce FX时代让NVIDIA陷入低潮，高中低端都损失了大量份额，但在当时N卡凭借价格优势和NVIDIA自身驱动方面的优势还是一大批忠实的拥护，尤其是在FX5900和FX5700发布之后，诞生了一大批经典产品：
● 亡羊补牢为时不晚，FX5900衍生物苦苦支撑到GF6发布

Inno3D GeForceFX 5900Ultra

    Inno3D GeForceFX 5900Ultra显卡为系列的旗舰级产品，配备了256MB DDR显存价格也是非常的昂贵。其性能较GeForceFX 5800Ultra有了不小提高，虽然其采用了改进的0.13微米工艺，但是发热和功耗依然不小， Inno3D采用了一个双槽的散热器，散热片体积很大，密集的鳍片了有效的增大了散热面积，结合通道式导风扇罩引导气流从右端排出，迅速将核心热量带走，具有高效、静音的特点。


Inno3D GeForce FX5900标准版

    GeForceFX 5900Ultra虽然性能顶尖，但是高达500美元的价格也让人难以接受。Inno3D GeForce FX5900同样基于NV35核心，显卡核心/显存运行频率为400/425 MHz，而且可以轻易的超频至5900 Ultra的水平，所以在性能上得下降并不大，由于采用了128MB显存，售价也下降了100美元。


Inno3D GeForce FX5900 SE

    无论是GeForceFX 5900Ultra或是5900普通版，虽然拥有目前超强的性能，但是过高的售价无疑成为了其走向普及的最大障碍。按照NVIDIA一惯的作法，为了扩大产品占有率往往会出一些系列高端的简化版。虽然在2003年8月份NVIDIA发布的雷管驱动泄漏的信息中发现了“5900SE"，但是很快也被NVIDIA官方所否认。由于预见到FX 5900低频版的潜在市场巨大，一些有实力的显卡厂商通过研发迅速推出了标识为FX5900SE的显卡产品，Inno3D GeForce 也是其中较早推出的厂家之一。
驱动中泄漏的 FX5900SE
实际上NVIDIA的产品线中并没有“ FX5900SE"这款芯片，尽管目前有不少显卡厂商使用这样的名称来命名自己的显卡产品。根据当时NVIDIA的规定， NV35系列的显卡，除了GF FX5900Ultra外， FX5900的规格，比如PCB，显存/核心频率等参数，厂商均可以自由设定。同时，NVIDIA在2003年秋季也针对GF FX5900开发出了第二种公版，也就是P177板型，P177简化了P172板型的10层PCB设计而采用8层，厂商可以使用这种板型，搭配相应规格的显存来推出“普及型”的 FX5900。

    综上所述，叫做“FX5900SE"的显卡，使用的芯片和标准 FX5900是完全一样的NV35。只不过在做工和频率方面， "GF FX5900SE"有所简化与降低。这种简化却使FX5900SE拥有比GF FX5900标准版更超值的价格，显卡的性价比大幅度提高。这也就是FX5900SE推出的市场背景。

    Inno3D GeForce FX 5900SE，核心频率和标准版一样为400MHz。采用了P177公版，是8层PCB简化设计，比FX5900的十层PCB和奢华的供电系统，成本大幅度降低，这也是FX5900se能够以1999元价格上市的原因。

    总的来说，Inno3D GeForceFX 5900SE只是FX5900的低频版，做工方面也保持了相当的水准，三洋OS-CON Low ESR固态电容的使用使得产品的超频能力更强大。根据当时的评测结果，大部分GeForceFX 5900SE都可以GeForceFX 5900Ultra的频率，性价比很高。


Inno3D GeForceFX 5900XT

    NVIDIA曾乐观的估计到2003年圣诞节前，基于NV35核心的出货量可以达到60万,不过由于GeForceFX 5900高昂的售价，这一目标实现起来也是难度不小。由于当时很多厂商都推出了GeForceFX 5900SE，销售情况也很不错，但是由于这并非NVIDIA的官方行为，所以多少有些名不正言不顺的感觉。为了扩大并且规范GeForceFX 5900产品的出货，2003年12月前后，NVIDIA正式将GeForceFX 5900SE命名为FX5900XT，默认频率为390MHz/700MHz，也是P177公版的设计，由于有了NVIDIA的支持，其价格较5900SE也有所降低，Inno3D GeForceFX 5900XT得上市价格只有1589，性价比很高。

    由于对手ATI用“XT"后缀命名高端产品，例如Radeon 9800XT，NVIDIA则用“XT"命名了5900的低频版，这种做法虽然引起了一些非议，但是市场效果还是不错，也反映了NVIDIA市场手段的灵活。


Inno3D GeForce FX 5900 NPC

    Inno3D GeForce FX 5900 TV Tuner显卡是针对ATI All-In-Wonder Radeon9800XT，也是Personal Cinama家族中3D性能最强的产品。同时凭借出色的视频功能，将3D游戏与家庭影院功能整合到一起，为用户提供全方位的数字娱乐体验。



GeForce FX5700Ultra

    GeForce FX5700Ultra是NV36核心的最高频版本，最初采用了DDR II显存，运行频率为475/450 MHz，较高的工作频率已经接近当时0.13微米工艺的极限，所以GeForce FX 5700 Ultra采用了高规格8层P190公版PCB以及较为奢华供电电路，并提供了外接供电接口。同时由于显存频率也很高，所以搭配了DDR II显存，这些也使得FX5700 Ultra的成本较高，售价更是超过了200美元。由于NV36核心可以支持全部的DDR I、II、III显存颗粒，后期FX5700Ultra采用了DDR III显存颗粒后，显存频率更是提高到950MHz。

    现在来看，GeForce FX5700 Ultra的定位与GeForceFX 5900XT有些重叠，当时二者的售价都在200美元左右，显然FX 5900XT的性能更高，这也注定了GeForce FX5700 Ultra的尴尬的地位。



GeForce FX 5700

    如果说GeForce FX 5600并不是GeForce4 Ti4200合格的接班人的话，那么凭借改进的CineFX 2.0架构以及较高的运行频率（默425MHz/550MHz），GeForce FX 5700才真正有资格作为Ti4200的继任者。GeForce FX 5700采用了公版P191设计，为6层PCB，周边电路有所简化，成本上也更低，相比FX5700 Ultra 200美元的价格，FX5700的上市售价也仅为135美元，性价比较高，也吸引了相当多的注重性价比的中端游戏玩家。



GeForce FX 5700LE

    虽然GeForce FX 5700性能不俗，但其针对的是100美元以上的中端市场，当2004年5月左右ATI推出性价比更高的9550后，NVIDIA再低端市场的处境更加不妙。由于5600系列已经停产，这一市场上只好靠孱弱的FX5200与英雄迟暮的GeForce4 Ti4200来抵挡9550的攻势，这显然是不够的。加之2004年初，大量的DX9.0游戏已经上市，这无疑使得NV31、NV34架构上的不足反映的更明显。

    为了挽回在低端市场的劣势，NVIDIA推出了GeForce FX 5700的降频版——GeForce FX 5700LE，以顶替FX5600XT的位置。GeForce FX 5700 LE核心/显存频率为250 / 200 MHz，和对手的Radeon 9550相同。FX 5700LE采用了专门开发的4层P222公版PCB，通过降低运行频率，可以大幅度降低成本，同时由于支持CINFX 2.0以及Ultra Shadow等新技术，其在DOOM3中的表现也很不错，伴随着DOOM3的热卖，所以GeForce FX5700LE成为当时500-700元市场的有力竞争者。同时，FX5700LE同样采用的是0.13微米、FC-PGA封装的NV36核心，朝频潜力很大，对ATI构成了一定的威胁。所以，在FX5700LE发布的当天，ATI就不得不把Radeon 9600SE的产品价格降低30%。

    GeForce FX5700LE并不是5700家族的最后一款产品，2004年后期，NVIDIA还推出了GeForce FX5700VE，是一款专门针对OEM市场核心。随着后期FX5700/5700 Ultra的停产，为了弥补低端AGP接口产品线的缺口，其也被用于零售市场的销售。FX5700VE采用和标准版同的34x34封装，而FX5700LE采用了31x31封装，除此以外，二者规格完全相同，此处不再详细介绍。

Inno3D GeForce FX PCX 5300

    2004年后，主板芯片组逐渐提对PCI-E的支持，市场PCI-E接口显卡的需求开始增长，由于当时显示核心都是原生AGP接口，NVIDIA采用了HSI桥接芯片的方式，实现了对PCI-E的支持。

HSI桥接芯片工作原理

   GeForceFX PCX5300是NV34图形芯片加上一块HSI桥接芯片，将并行的AGP 8X以无损的方式转换为串行的PCI-E信号。实际测试表明，桥接的方式对显卡性能几乎没有任何影响，既不会因为外部带宽的提升提高显卡性能，也不会因为桥接芯片的使用降低显卡性能。

Inno3D GeForce FX PCX PCX5750

    GeForceFX PCX5750由NV36图形芯片搭配BR2桥接芯片实现对PCI-Express X16接口的支持。PCX5750面向中端市场,其对手是ATI的X600系列产品。
<
● NVIDIA陷入苦战，需要强力产品扭转局面

    2003年第四季度，NVIDIA在图形核心市场的占有率首次被ATI以微弱优势所超过，这也说明GeForce FX系列显卡在与Radeon 9系列的较量中处于下风。不过在整个2003年，由于基于DirectX 9开发的游戏屈指可数，所以中高端市场上GeForce FX显卡的表现并不差，高端方面，除了GeForceFX5800输给了Radeon 9700以外，GeForce FX5900又很快收复了失地，并与Radeon 9800旗鼓相当。在整体利润最大的中端尤其是150美元左右的市场，NVIDIA囤积重兵，先后使用了GeForce4 Ti、GeForce FX5600、GeForce FX5700三款产品，而Radeon 9500、9600在当时没有DirectX 9游戏支持的情况下，并没有占得太大的便宜。
Q1''04又夺回了第二的位置
    然而在低端100美元以下市场上，NVIDIA就很不好过了。主要是GeForce4 MX440、GeForce3 Ti200、GeForce FX5200完败给对手的Radeon 9000/9200。和MX440相比，Radeon 9000在成本相当的情况下有规格优势，而与GeForce FX5200相比，Radeon 9000除了成本、功耗的优势外，凭借优秀的着色器效率，在性能上也略微领先，低端市场对占有率影响更大，这就是ATI占有率得以反超的原因。

DX9游戏出现之后，FX系列的日子越来越不好过了

    时间进入2004年后，DirectX 9的普及速度被加快，这显然是NVIDIA史料未及的，2004年3月，一大批基于DirectX 9的重量级游戏如FARCRY、PAINKILLER、INVISABLE WAR等纷纷上市，使得GeForce FX系列浮点处理能力不足的缺陷终于完全暴露了出来，这也直接影响到该系列显卡的销售，NVIDIA也进入了颇为艰难的一段时期，2004年第二季度利润额下滑了将近80％（收入额为510万美元，而一年前为2420万美元），当然这不光是与ATI竞争的结果，INTEL的整合芯片组的大规模普及也影响到独立图形核心领域。

● GeForce 6系列问世，NVIDIA一雪前耻！

    不过在高端方面，新一代的NV40已是即将发布，NVIDIA绝地反击的大幕也将被拉开。

    2004年4月13日，历时18个月，前后投入了10亿美元研发费用后，NVIDIA发布了新一代NV40图形核心，并正式名称命名为GeForce 6800Ultra，NV40使用了空前的2.22亿个晶体管，具有创纪录的16条完整像素管线，其非常好的性能也使NVIDIA也重新成为图形显示技术的领先者。



    从今天眼光来看，NV40绝对是一款不记代价的复仇之作。其最大的特点可以用“加倍”来形容，整体上讲，NV40的晶体管为2.22个，是对手上一代R300的2倍。内部架构方面，像素着色器单元、ROP单元、TMU单元，也是对手的两倍。而且NV40还率先提供了对DriectX 9.0C中SM3.0技术的完整支持。总之，就像当年R300对NV25一样，NVIDIA在NV40上悉数奉还。

NV40核心功能模块图

    NV40采用了0.13微米工艺制造，由于引入了SM3.0电路，其内部集成了2.22个亿晶体管，由于这已经是当时0.13微米工艺的极限，NVIDIA通过IBM合作，引入冗余电路技术，提高了NV40良品率。

NV40的核心架构

    架构方面，NV40采用了第三代的CineFX 3.0引擎。CineFX 3.0完全符合DriectX 9.0C的Vertex Shader3.0和Piexl Shader3.0规范。同时，CineFX 3.0也完全支持OpenGL 1.5。开发环境方面，CineFX 3.0可以支持微软的HLSL（High-Level Shader Language）和NVIDIA自己的CG高级开发语言。

    CineFX 3.0引擎在着色器单元部分的提高更大。首先在Vertex Shader方面，NV40完整支持Vertex Shader3.0，为了更好的利用动态条件分支的特性，顶点单元采用了MIMD的设计，每个单元由一个4D向量处理器和一个1D标量处理器及以及顶点纹理取样（Vertex Texture Fetch）单元构成，可进行指令的并行处理。

Vertex Shader结构

    NV40可以支持的Vertex Shader指令长度不再受到限制，开发人员可以根据自己的需要任意长度的顶点着色代码。顶点单元具有完整的程序流程控制的能力，程序员通过“if、else、then"等指令能够在各个分支中跳转，还可以方便的调用子程序，从而使着色程序执行效率显著提高，尤其对于取消指令长度后的着色程序更为有效。

Vertex Shader规格

    NV40的Vertex Shader还有一个特点就是可以支持顶点纹理拾取。它允许Vertex Shader像Pixel Shader一样从纹理中读取数据。在渲染过程中，程序把包含了有效顶点位置的网格（mesh）传入到vertex shader中，顶点纹理拾取就能将纹理转换为几何体。

    另外，NV40还支持Vertex Texturing，可以在单个pass里完成4个纹理的查找操作。使用Vertex Texture后，在游戏中可以获得更真实的水面模拟效果等更高级的特效。过去，开发人员一般使用凹凸贴图模拟水面，但是与采用Vertex Texture和几何位移算法实现的效果比相差甚远。

超标量的Pixel Shader管线
    在Pixel Shader方面，NV40采用了超标量的设计，增加了一个完整运算功能的FP32 Shader Unit2，所以NV40的两个Shader Unit都具备完整的mini ALU以及浮点运算能力，而Shader Unit1还可以进行纹理定址至以及执行用于计算法线的nrm指令。NV40共有32个FP32 Shader Unit，峰值浮点计算性能可以达到76.8 GFlops。

Pixel Shader架构

    NV3X的Pixel Shader由于不具备co-issue能力，指令并行处理能力较低。有鉴于此，NV40中也提供了对co-issue的支持，并被命名为Dual-Issue,执行方式上也更灵活，不仅支持常见的3D+1D，还可进行了2D+2D的操作，使NV40的峰值Pixel Shader指令吞吐量达到了空前的25600 MIPS。另外，nVidia重新设计NV40的寄存器部分，还增加了寄存器的数量，VS3拥有32个，256个常数寄存器，Pixel Shader拥有10个interpolated寄存器、32个临时寄存器、224个常数寄存器,保证Shader具有充足的Register资源可以利用。

Dual-Issue

    另外，NV40的Pixel Shader也具有动态程序流程控制，完全支持子程序、循环和分支的程序流程，提供了循环计数寄存器和条件码的支持，还提供了一个新的back/face寄存器，不仅提高了编程的灵活性，还可以减少无效渲染。

Pixel Shader规格

    NV40的ROP单元也采用了全新的设计，支持16位浮点像素混合（FP BLENDING）功能，可实现优异FP精度的HDR效果(nVidia将其命名为HPDR，采用OpenEXR做为运算的缓存格式)。ROP单元还支持多渲染目标(Multiple Render Targets）技术，使光照可以在所有几何图形被渲染以后最后进行应用，不再需要进行多步的渲染。因而这种技术也可以被称为延期着色(Deferred Shading)。

ROP 结构

    NV40还引入了全新的 IntelliSample 3.0 抗锯齿技术。其核心是一套旋转网格线（ Rotated-grid ）的抗锯齿采样算法，旋转栅格方式允许子像素更好地覆盖在水平方向和垂直方向上，能为多边形边缘提供更高的色彩精确性。

    NV40也采用了第二代UltraShadow技术，UltraShadow II技术具有32 Z/stencil渲染能力，即在渲染stencil shadow volume等效于32管线。NVIDIA宣称UltraShadowII速比Ultra Shadow第一代高出四倍，可以提高显卡在Doom3中的性能表现。UltraShadowⅡ技术同样能和的IntelliSample 3.0 配合，确保阴影边缘能获得正确抗锯齿效果。

无效渲染大大减少

    另外，NV40在视频方面也是进步不小，提供了强大的视频编码、解码支持，能够实现MPEG-2(标准分辨率以及高清晰分辨率)、MPEG-4(DiVX)、WMV9(标准分辨率和高清晰分辨率)的硬件编码和硬件解码。内建的VP单元（Video Processor）还提供了自适应消除场交错现象、高品质的缩放、伽马纠正、噪点降低、WMV9/H.264的运动补偿和色块消除的硬件支持。

VP单元
●GeForce 6800系列产品介绍

GeForce 6800ULTRA

    GeForce 6800ULTRA作为GeForce6系列的旗舰级产品，就像NVIDIA CEO在发布会的表示:"...这是GPU史上，新一代产品性能提升最大的一次，也是业界唯一支持Shader Model 3.0的GPU..."。GeForce 6800ULTRA作为NVIDIA技术领先的象征，从规格到性能各方面都完全领先于对手。不过GeForce 6800ULTRA高达500以上美元的价格也使其象征意义更大，这也是说NV40是一款不记代价的复仇之作的原因所在。

     Geforce 6800 Ultra显卡全部由NVIDIA统一制造，并提供给显卡厂商，所以市场上各个品牌的Geforce 6800Ultra显卡几乎一模一样。GeForce 6800Ultra显卡完全采用P201公板设计，10层PCB板上覆盖有超大型的散热器，需要占据一条PCI槽的空间，将热管散热和风冷散热有机地结合到了一起，能够非常有效地控制内含2.22亿个晶体管的GPU和GDDR3显存颗粒的温度。

    显存方面GeForce 6800Ultra也有巨大的提升，采用了速度最快的GDDR3，工作率高达1100MHz，配合256位显存位宽，NV40的显存带宽高达空前的35.2GB/s。

    由于晶体管规模庞大，GeForce 6800Ultra核心的峰值功耗达到100瓦，由于AGP 8X总线无法提供足够的功率，6800Ultra显卡不得不使用了两个外接电源接口。在NVIDIA的测试指南中，推荐使用480瓦的高功率电源。


GeForce 6800标准版

    NVIDIA GeForce 6800系列分共分为GeForce 6800Ultra、GeForce 6800GT 和GeForce 6800、GeForce 6800LE，他们全都采用了NV40图形核心。其中GeForce 6800标准版使用的NV40芯片因为有瑕疵而被屏蔽了4个PS单元以及1个VS单元，也就是12PS/5VS的设计。不过其价格也降到299美元，它也是三款中最具有普及意义的。同时，由于GeForce 6800标准版也因为具有可以改造的潜力，国外有网站曾经对120个使用GeForce 6800的3D发烧友进行过调查，其中55%的用户可以成功打开被屏蔽的管线，可见6800标准版的改造成功率还是相当大的。特别是RivaTuner的出现使得6800标准版的改造更加方便，吸引了大批的DIY玩家，成为当时人气颇高的一款产品。

GeForce 6800 轻松变身，倾倒无数玩家

    NVIDIA推出GeForce 6800标准版，也有其市场意义。自从2004年3月份ATI 将高端产品9800PRO降到250美元后，在这个价位上NVIDIA一直没有合适的产品与之抗衡，而GeForce 6800标准版凭借12条渲染管线以及NV40核心的众多先进技术，在性能上完全领先9800PRO，官方报价却仅为299美元，显然更有竞争力。

    Inno3D GeForce6800显卡采用NVIDIA公板P212设计，是8层的PCB。显卡使用了更加成熟的DDR显存颗粒，在保证显示卡性能发挥的前提下极大的降低了成本。由于仍然是256BIT显存位宽，显存工作在700MHz的频率仍然为核心提供了高达22.4GB/s的显存带宽。

Inno3D GeForce 6800LE

    Geforce 6800LE是NV40系列中规格最低的一款显卡，屏蔽后为8PS/4VS，因为针对OEM市场，早期6800LE还被进行了锁频处理。它的价格也最低廉，和6600GT的建议零售一样都为199美元，它的对手是同样8个PS单元的X800SE。从发布后NVIDIA一直没有将Geforce6800 LE推向零售市场，而仅仅供应OEM厂商。这主要是担心Geforce 6800LE会冲击中端市场，出现6600GT AGP和6800LE手足相争的局面。

    Inno3D GeForce 6800LE的工作频率为300/700MHz外，为了降低成本也使用了DDR显存颗粒。6800 LE具8条像素渲染管线/4组顶点单元。和GeForce 6600系列相比，GeForce 6800LE的优势在于具有256 bit显存位宽、8个ROP单元，在高分辨率、反锯齿打开的情况下，比6600更有优势。但因为默认频率过低的原因，总体性能上GeForce 6800LE仍旧落后于GeForce 6600GT。但是，Inno3D GeForce 6800LE显卡具有较强的超频能力和改造潜力，尤其是改造成GeForce 6800标准版的可能性极大，运气好的话甚至可以打开全部的管线。



GeForce 6800XT

    在2005年中端市场，NVIDIA的GeForce 6600系列在于ATI的X700的较量中占得了上风，为了扭转劣势，ATI 将高端的Radeon X800引入中端，以颇具竞争力的价格推出了Radeon X800GT。考虑当时很多厂商私下里都推出了零售版的6800LE，市场反映很好，于是2005年9月，NVIDIA针对Radeon X800GT推出了GeForce 6800XT，基本上就是。虽然当时PCIE接口已经成为市场的主流，但由于市场惯性，AGP平台依然占有相当大的市场份额，GeForce6800 XT也有AGP的版本，以弥补6600 AGP供货不足的缺口。

    PCIE版本的GeForce 6800XT共有NV41和NV42两种核心，其中后者是0.11微米工艺，功耗、成本更低，超频能力更强。AGP版本的GeForce 6800XT则采用了NV40核心。在规格上GeForce 6800XT和GeForce 6800LE完全相同，都是8PS+4VS+8ROP的设计，并采用了256BIT显存接口。

    6800XT的默认频率为400MHz/700MHz，也可以说是6800LE的高频版本。和6800LE一样，GeForce 6800XT也同样具有修改的潜力，PCIE版本最高可以改为6800标准版的12PS/5VS，而AGP版本则有机会改为NV40。
● NV大举反攻，GF6收复失地

    2004年4月份发布基于NV40的GeForce 6800ULTRA后，凭借16条超标量浮点像素渲染管线，NVIDIA成功夺回了失去已久显卡性能的王冠。而且由于NV40支持ShaderModel3.0以及FP HDR等业界领先的新技术，此前GeForce FX时期人们对NVIDIA技术实力的怀疑也被一扫而空。NV40作为NVIDIA技术实力的象征，在500美元左右的高端市场大举收复失地，获得了很多高端3D发烧玩家的青睐。

    相比在高端市场的大获成功，但是在市场规模最大、整体利润更高的主流市场中，NVIDIA却面临着进入新世纪以来的最困难的一段时期。在250美元以内的中端市场，GeForce FX系列仍是市场上的主力。但是2004年开始，DirectX 9游戏的普及速度突然被加快，大量的DirectX 9游戏纷纷上市，使得GeForce FX的架构缺陷暴露的更彻底，因此GeForce FX系列显卡也在竞争中全面落败，NVIDIA的市场占有率也是逐步走低。因此，将新一代GeForce 6系列引入中端，也就成了NVIDIA的当务之急。不过中端产品除了性能外，对成本的要求较高，所以NVIDIA也决定等待0.11微米制造工艺的成熟，但这多少也延误了一些时间。

    终于，2004年8月13日，在QuakeCon2004上，NVIDIA正式了GeForce 6家族中的主流产品，GeForce 6600系列显卡。

    GeForce 6600的核心研发带号为NV43，其架构体系全面继承于NV40，NV43具有NV40的全部3D特性，同时视频功能也被加强。由于当时Intel 915/925系列芯片组已经大规模登陆市场，PCI Express接口已渐成主流，所以NV43也是NVIDIA首款采用原生PCI Express解决方案的核心。

    由于当时在200美元以下的中端PCI Express图形市场中，一直没有出色的显卡产品，几乎是个空白。而这部分市场伴随着Intel 915/925主板的普及规模越来越大，NV43的推出恰好符合了这部分用户的对高性能产品的渴望。而对手ATI虽然早就将高端产品全部转向PCI Express接口，但是产品价格都在300美元以上，而中端的RV410迟迟不见踪影，直到9月底才正式发布，性能处于下风且供货也不稳定，让GeForce 6600轻松占领了大部分市场，NVIDIA敏锐的市场洞察力体现的很充分。

    NV43为TSMC 0.11微米工艺制造，集成了1.43亿个晶体管。由于制程的改进并且引入了low-k 技术，NV43的频率可以轻松达到500MHz，同时成本以及功耗都控制在可以接受的范围内。

low-k 工艺

   在核心架构方面，NV40不惜代价引入SM3.0电路对于核心成本的副作用也很明显，所以NV43上不等不进行了大幅度的精简，基本上缩减了一半处理单元。即便如此，NV43的晶体管数量还是达到了1.43亿，而对手RV410(X700)在顶点着色管线、ROP单元都2倍于NV43的情况下，晶体管数量仅为1.2亿个。

NV43架构图

    NV40中，16条像素着色管线以四个组成一组，每组称为一个“Quad"，所以NV40中共有4组Quad单元。而在NV43上有两组Quad单元，所以共有8条像素着色管线（每管线一个TMU单元），和对手X700相同。NV43的顶点单元为3组。为了进一步控制成本，NVIDIA果断的缩减了ROP单元的数量，只保留了4个ROP单元（这也是NV43被认为使4X2架构的原因），仅为对手X700的一半，但是本身6600GT只支持128-bit显存位宽,且频率只有1GHz,如果采用8个ROP单元，受到显存带宽的制约很明显。即便只有四个ROP单元，充分发挥后，在象素填充能力上和X700差距并不大。事实也是6600凭借性能优异的Pixel Shader处理单元事实也是6600凭借性能优异的Pixel Shader处理单元（NV43的超标量PS管线为单周期4条指令并发，理论上是RV410的两倍），在与X700的竞争中以完胜而告终。

SLI技术

   NV43核心的另一个特点就是率先实现了对SLI技术的支持。2004年下半年，PCI Express技术的逐渐普及，这是SLI技术得以重现的一个必备条件。SLI技术最早源自3dfx，全称是Scan Line Interleave ，基于PCI接口，随着AGP接口的普及逐渐被谈玩。而NVIDIA SLI（Scalable Link Interface）在很多方面都有较大的进步。首先，PCI Express可以提供60倍于PCI总线的总带宽。其次，3dfx SLI为隔行扫描，属于模拟应用，可能因为数模转换差异造成图像质量欠佳。NVIDIA SLI技术则是基于PCI Express技术，采用一种完全数字化的帧组合方法，对图像质量无任何影响，可提高几何性能，支持多种实现灵活伸缩性的算法，能够根据应用需要选用最有效的方法来实现灵活伸缩性。

● GeForce 6600GT中端PCIE之王。



GeForce 6600GT

    NV43虽然发布于2004年8月，GeForce6600显卡在9月份开始向OEM客户出货，到10月份才正式登录零售市场，距离NV40发布已有半年时间。而AGP版本的GeForce6600显卡更是直到11月中旬才上市。

    GeForce 6600GT是GeForce 6600系列的最高端版本，也是最先提供SLI功能的显卡，上市伊始便受到众多3D发烧玩家的关注。GeForce 6600GT核心/显存频率高达500/1000MHz，采用128Bit的GDDR3显存。AGP版本的GeForce 6600GT则是采用原生PCI-Express的NV43核心+桥接芯片（HIS）的方式来实现AGP界面。6600GT AGP的供电电路也有所改变，采用了P218 公版PCB(前者是P216)，并引入了外接电源接口，以弥补AGP总线功率不足的缺陷，同时其显存频率也比PCIE版本的6600GT低100MHz。

    由于当时GeForce 6800系列的出色表现，游戏玩家显然也对GeForce 6600GT充满了期待，而6600GT的性能也没有让用户失望。而且其219美元的实际零售价格也得到了中端用户的认可，尤其是6600GT AGP的强劲表现与合理的价格直接导致了当时ATI中端的9800PRO大幅度降价，在PCIE平台，也迫使ATI不等不提前发布了RV410（X700）。



GeForce6600

    GeForce 6600标准版是系列的普及型产品，定位于整体利润最高的150美元中端主流市场，担负着为NVIDIA夺回市场份额的重任。在规格上，NVIDIA也采用了很灵活的的策略，早期的6600标准版采用了TSOP封装的DDR显存，推荐核心/显存频率为300/550MHz。以后又有DDR II显存的版本，频率提高到400MHz/800MHz。但NVIDIA对6600标准版的工作频率并未限制，板卡厂商可以根据自己的市场策略来设定最终的工作频率，因此GeForce 6600显卡的产品也是十分丰富。

    事实上，NV43核心的超频能力普遍不错，6600标准版核心的默认频率虽然只有300MHz，但反而留给用户更大的超频空间，所以性价比也更高。后期NVIDIA解除对6600标准版的SLI限制后，不少厂商还推出了采用6600GT PCB的GeForce 6600 GDDR3加强版，深受广大DIY玩家所喜爱。

    由于6600系列在性能的较量中完胜对手的X700系列，以及NVIDIA与各个AIC厂商的通力配合,GeForce 6600系列在很长一段时间内占领了相当份额的中端市场，为NVIDIA扩大市场占有率立下了汗马功劳,也是一代相当经典的中端佳作。

● 6200：

    不过在2004年中后期，在入门级市场上，NVIDIA的GeForce FX5700、FX5500、FX5200在对手Radeon 9250、Radeon 9550的夹击下，全线溃败，丢失了大量的市场份额，在中高端市场布局完毕后，NVIDIA也开始着手扭转在低端方面的局势，于2004年10月中旬发布了GeForce 6200，之后，又在12月16日发布了GeForce 6200TC。

    GeForce 6200采用了NV43-V核心，是NV43生产过程中的瑕疵品，如果NV43核心中有一个QUAD有问题或者不能全速运行，就将这一组管线屏蔽，并用于6200显卡。因此，除了只有四条像素管线外，NV43-V的核心特性和NV43相同，也采用CINFX3.0引擎，支持Shader Model 3.0、UltraShadow II及Intellisample 3.0。不过GeForce 6200显卡的ROP功能受到了一定简化，去掉了对Color-compression、Z-compress以及OpenEXR这三个技术的支持。

6200家族规格一览

    GeForce 6200显卡的默认频率为300MHz/500MHz，也有AGP和PCIE两个版本。由于采用了NV43-V核心，6200也具有相当的改造潜力，尤其是当年NV43-V A2版本的核心普遍可以打开被屏蔽的4条像素管线。即便不改造，NV43-V也具有良好的超频能力。根据相关测试，6200 AGP在默认频率下性能就已经完全超过了Radeon 9550，在DOOM3中超过Radeon 9600PRO达30%之多。

    不过性能上的优势并没有使得GeForce 6200有太大作为，原因就是其过高的售价。尤其是AGP版本的6200，采用的NV43-V+HSI桥接芯片的方案使其在国内的上市售价竟然高达900元以上，对Radeon9550没有直接的威胁。


GeForce 6200 TurboCache

    GeForce 6200 TurboCache（6200 TC）采用研发带号NV44的图形核心。基于NV4X系列的核心架构，配备3个顶点着色单元和 4 条像素着色管线，而ROP单元则由GeForce 6200 的4个降到了2个。其核心频率为350MHz,最高支持64M/64Bit的显存规格。6200 TC不支持Color and Z-Compression和 OpenEXR技术，对开启AA和AF的情况下会有一定影响。不过NV4X 核心主要特性：Shard Mode 3.0 、Intellisample 3.0、UltraShadow II以及 PureVideo 视频技术都得到了保留。而NV44核心的最大特色就是采用了TurboCache技术。

    由于新一代PCI-Experss技术，采用点对点的串行连接方式，允许和每个设备建立独立的数据传输通道，充分保障各设备的带宽资源独立，从而拥有较高的数据传输带宽。PCI-E X16的单向传输带宽为4G/s，是AGP 8X的两倍，并且PCI Express总线能够真正做到双向对等的数据传输，最大数据传输带宽可达到8GB/s。PCI-E的带宽优势，也是实现与系统共享内存资源的基础。

TurboCache架构图

    TurboCache技术正是充分利用了PCI-Experss总线的数据带宽优势，从而实现了共享系统内存资源。TurboCache中的内存管理技术可以“允许GPU在分配和不分配系统内存时无缝切换，并且高效的读写内存”。这个工作由驱动程序中名叫TC的管理部分执行。6200TC还新引入了内存管理单元（Memory Manage Unit，MMU），能够让GPU同过PCI-E总线直接对系统内存进行读取和写操作，自动把渲染结果和纹理分配在本地内存或者系统内存上，以虚拟寻址方式自由地分配帧缓存以及纹理缓存。

    6200 TC 采用TurboCache技术后，能够利用PCI Express的Auxiliary Memory Channel，动态的调用系统主内存和以满足板载少量显存不足的情况，同时也可以直接从系统内存中获得另外一条相对等的显存位宽，使只有64Bit本地显存位宽的Geforce6200TC变成128Bit（32Bit也可以变成64Bit）。

TurboCache工作流程

     6200 TC 作为GeForce6 系列在低端唯一的原生PCIE核心，也是低端PCI Express市场的主力产品，针对ATI的Radeon X300系列。由于是原生4管线设计，核心成本明显降低，加上可以板载更少的显存，价格上很有竞争力。同时性能上64MB/64 bit显存的6200 TC可以略微超过128 bit显存的Radeon X300，尤其是32bit显存6200 TC凭借出色的成本几乎更扫了Radeon X300SE。6200 TC 能有这样的表现实属于不易，因而也得到了入门级用户的肯定。



GeForce 6200A

    2004年，nVidia继推出了Geforce 6600、Geforce 6200、Geforce 6200TC后，6系已完整覆盖了PCI-E方面高中低三个层次的产品线。进入2005年后，虽然中高端PC市场上PCI-Express已经成为主流，但是再低端AGP平台依然占有较大的市场份额，而Radeon 9550的持续热卖对NVIDIA依然是个难以解决的问题。由于消费者对DX9性能低下的GeForce FX5200、FX5700 LE 系列并不买账，而之前推出的GeForce 6200AGP的售价居高不下,而且长期使用NV43-V+HSI桥接芯片来生产Geforce 6200这样的低端型号产品也绝非上策，毕竟对于这种入门级显卡而言，HSI桥芯片成本所占显卡成本的比例是不能忽略的。于是，在2005年3月中旬，NVIDIA发布了采用核心代号NV44A的Geforce6200A显示卡。

    Geforce6200A所采用的NV44A是原生AGP接口的核心，采用0.11微米制程，核心含有7500万个晶体管，其核心面积较NV43缩小的一半，所以成本也更低廉。规格上和NV44相同，配备3个顶点着色单元和4条像素着色管线以及2个ROP单元，支持64Bit显存位宽。显卡采用NVIDIA P362的4层公版PCB板，默认频率为350/500MHz。由于基于AGP接口，所以并不支持Turbo Cache技术。

     Geforce6200A在性能上可以和默认频率的Radeon 9550持平，在DOOM3中还可以小幅度领先。但是当Radeon 9550超频后，即便Geforce6200A同时也超频，后者还是会落后不小的一段距离，再加上用户对64BIT显存位宽根深蒂固的偏见，Geforce6200A在零售市场的表现也很一般，消费者还是更倾向于128 BIT显存位宽的Radeon 9550。


GeForce 6600 LE

   从理论上说，显卡的性能是其各项指标的一个综合结果，这些指标包括核心架构、运行频率，显存规格等等诸多因素。 GeForce 6600标准版受制于过低的核心、显存频率，性能发挥受到很大。所以在中低端市场，NVIDIA也准备为 GeForce 6600标准版增加一个助手，所以在2005年中又推出了GeForce 6600LE。

    GeForce 6600 LE图形芯片将渲染管线的数量由8条缩减到4条，而且制程上更加成熟，甚至可以超到600 MHz，极大的弥补了管线减少带来的影响。 NVIDIA的本意是使用GeForce 6600 LE来填补GeForce 6200A和GeForce 6600标准版之间的空间，但是Inno3D凭借出色的设计和制造技术，并采用了GeForce 6600的PCB，将GeForce 6600 LE的核心/显存默认频率提升至425 / 1000 MHz，极高的运行频率弥补了渲染管线的缺憾，在此频率下GeForce 6600 LE的性能已经完全超过了GeForce 6600标准版，加上还有相当的超频潜力，凭借当时6XX左右的价格，性价比非常出色。
<
● 6800压倒性优势战胜X800

    随着新一代GeForce 6800系列的上市，高端市场中，NVIDIA的局势有了很显著的改观，根据统计，在2004年第三季度NVIDIA出货了约150万片高端DirectX 9.0图形卡，占整个高端图形市场的64%，而对手ATi的占有率为下降到36%。而Geforce6800系列刚推出市场的时候，NVIDIA的占有率还仅仅为26%。

    优异的产品虽然出货量不大，但是却可以展示一个公司的技术实力并且可以在行业内提高自身的威望。作为GeForce 6系列的旗舰产品，GeForce 6800ULTRA有效的帮助NVIDIA在用户中重新树立起技术、性能领先的地位，对系列中端的热卖起到了相当的促进作用。

    完整支持SM3.0、HDR技术的NV4X核心，不仅使NVIDIA重新树立起技术领先的形象，也给对手不小的震动。例如，当时ATI的工程师就对NVIDIA能够在110nm制程上实现SM3.0技术感到惊讶。

DirectX 9.0c普及过慢

    不过也要指出的是，在GeForce 6发布后，某些软件厂商在SM3.0标准的推广上态度消极，像2004年底发布的测试软件3DMARK2005，就没有采用SM3.0技术。这种状况一直持续到2005年后期，才逐渐开始有新游戏基于SM3.0标准开发，而SM3.0的游戏也直到2006年才开始大规模普及，这也客观上帮助了当时还不能支持SM3.0的竞争对手。所以说GeForce 6系列显卡在技术上的领先优势在当时并未得到充分发挥，也是一个不小的遗憾。

    对于新技术的支持，也使NVIDIA付出了高昂的成本代价，GeForce 6系列在成本上比对手的同档次产品也要高，这也是6系列显卡主要的一个缺点。所以在PC独立图形核心的市场占有率方面，NVIDIA也未能反超ATI。

    不过在整体图形市场占有率上,根据Mercury Research的统计，2004年第三季度NVIDIA的占有率却跌倒了谷底，从第二季度的23%下降到了15%。同时在全部的独立图形核心占有率统计上，也只有37%，Radeon系列在入门级桌面市场和移动平台的出色表现，使ATI的占有率上升到59%。不过好在NVIDIA的反弹趋势也很明显，凭借9月份上市的Geforce 6600系列的优秀表现，以及西方圣诞节期间的热销，在2004年第四季度，NVIDIA的占有率迅速回升到21%，并维持了良好的发展态势。另一个引人注目的成绩，是当时Intel 的915/925系列整合芯片组已经大规模登陆市场，在图形市场上的占有率达到39%。

● 不给对手喘息机会——GeForce 7提前面世

    在渡过了2004年中后期在市场上的困难时期后，吸取了GeForce FX系列的经验教训的NVIDIA也变得更加成熟，同时已经在技术上取得领先优势的NVIDIA并不给对手以喘息的机会，在2005年6月22日，在美国旧金山举行的GeForce LAN 2.0大会上正式发布新一代图形芯片G70。

3.04个亿晶体管规模空前

    在G70图形核心上，NVIDIA采用了新的命名方式，G70的含义就是GeForce系列的第7代核心。G70公认还有一个内部代号为NV47，不过根据NVIDIA的表示：“原本NV47的项目已经取消，因为工程师已经能够做出比NV47更强的芯片，才决定整个跳过NV47"。

G70

    G70为TSMC 0.11微米工艺制造，由于管线数达到空前的24条，其内部集成了3.02个亿晶体管，核心面积超过300平方毫米，也是当时业内最复杂图形核心。但是由于制程的改进，其功耗可以略低于NV40。

G70架构

    核心架构方面，G70引入了新一代的CineFX4.0引擎。CineFX4.0引擎可以说是CineFX3.0完美增强版，提供了对DriectX 9.0C的Vertex Shader3.0和Piexl Shader3.0的完整支持并进一步完善。功能方面则新增加了透明材质智能采样抗锯齿、次表面散射、Relief Mapping、64Bit HDR运算、法线贴图压缩、光能传递贴图等一系新技术。

    G70的CineFX4.0的架构最容易被忽视的一个提高就是SM3.0中的动态分支性能，相对于NV40初代的动态分支性能，由于改进的多线程调度分配机制，G70的动态分支能力有了成倍的提升，不过在05年SM3.0游戏还不多，所以未能在实际中应用体现。

    在Vertex Shader方面，G70采用了与NV40相同的MIMD架构设计，由一个4D向量处理器和一个1D标量处理器及以及顶点纹理取样（Vertex Texture Fetch）单元构成。Vertex Shader的数量增加了两个，达到8个。处理能力随之也提高了33%左右。

Vertex Shader架构
    新的Vertex Shader单元具有单周期MADD指令运算能力，其中的特殊功能单元(SFU ：special function unit，用于单周期执行SIN、COS、SCS 等运算)的标量处理性能也得到了提高。
   同时Setup Engine（3D顶点坐标转换为2D平面坐标）性能也提高了将近50％，以配合Vertex Shader数量的增加。
    由于游戏中Vertex Texture（顶点纹理，配合几何位移算法使用）的使用越来越普及，顶点单元的Vertex Texture Fetch性能也很重要。由于Vertex Texture Fetch是比较消耗资源的操作，过开发人员不得不尽量减少在顶点程序中的纹理读取次数。G70的Vertex Texture Fetch性能也获得了提高，使开发人员可以更自由的读取纹理数据。另外，G70的Vertex Shader也和NV40一样为128bit长的VLIW型指令集。
    在Pixel Shader方面，G70也沿用了NV40的超标量的设计，不过数量上增加了两个QUAD，即8条Pixel Shader管线。Pixel Shader内部和NV40一样具有两个FP32的4D矢量单元，不过NV40的Shader Core 1不支持MADD(Multiply-ADD几何运算中常见的操作 )、ADD，而G70的两个Shader Core 都可以支持 ADD、MUL、MADD这三种操作。

Pixel Shader架构

    G70通过提高Pixel Shader内的并行性，来提高Shader单元的指令级并行计算能力 (Instruction-Level Parallelism:ILP)。G70的Pixel Shader同样支持dual-issue，可以进行交错运算，并为MADD作了优化。NVIDIA的技术文档中表明G70的Shader(430MHz)运算性能是313 GFLOP，远高于NV40的120 GFLOPS。

    G70的纹理映射单元（TMU）数量上也增加到了24个，同时纹理拾取的能力也得到了增强，可以提高向异性过滤的性能，同时可以略微提高核心的HDR渲染性能。

    G70的ROP单元在数量上并没有增加，这也是因为纹理操作在新游戏中的比例越来越小，而且显存带宽也不足以分配给更多ROP单元。ROP单元性能上有所增强，其Single Texture Alpha Blend的测试成绩超过NV40约20％。在ROP单元在功能上有所增强，可以支持的全新的透明超级取样（transparent supersampling）及透明多重采样（transparent multisampling）技术。另外G70也可以支持64bit浮点精度的HDR渲染。



GeForce 7800GTX

        GeForce 7800GTX是GeForce 7系列的旗舰级产品，相比NV40发布后一个月后，GeForce 6800才上市的情况不同，在G70发布的同时，GeForce 7800GTX也就正式发售，说明NVIDIA这次准备的也更充分，对GeForce 7800GTX也寄予了厚望。

    和Geforce 6800Ultra相同，GeForce 7800GTX也全部由NVIDIA统一制造。7800GTX虽然在功耗上有所下降，但是其供电电路却比 6800Ultra还要奢华。7800GTX采用了10层P347公版PCB，板长达到了229mm ,所以外观看上去比以往任何PC显卡都要长。供电系统的用料相当奢华，由3组、每组3个的英飞凌优质Mofset及3组VITEC高频电感构成了三项增强型供电。大量陶瓷积层电容的使用，使得7800GTX的品质可以和高端专业级显卡相媲美。

INNO3D GeForce 7800GTX

    GeForce 7800GTX的散热器不再是Geforce 6800Ultra那种笨重的双槽设计，而是看上去轻盈且更美观的单槽热管系统，也说明G70核心的功耗、和发热也控制得很好。

   GeForce 7800GTX配备了256M GDDR3显存，而其采用P347公版PCB设计之初也可以用于512M显存，不过后来GeForce 7800GTX 512M使用了P348 PCB。GeForce 7800GTX采用了当时速度最快的三星1.6NS GDDR3显存颗粒,工作频率1.2GHz，提供高达38.4 GB/s的显存带宽，也是当时PC级显卡的最高峰。

    作为旗舰级产品，GeForce 7800GTX的上市价格高达599美元，比上一代Geforce 6800Ultra还高，当然NVIDIA这么做的原因主要为了给Geforce 6800系列清理库存。后来，GeForce 7800GTX的价格也是很快降到500美元以内，成为2005年夏天显卡市场上最具热点的产品。



GeForce 7800GT
    7800GT被屏蔽了4条管线，PCB也被作了一定程度的简化，因此成本低很多，上市价格在3000元左右，因此还是有不小的市场。
● NV攻其不备，ATI措手不及

    2005年6月份GeForce 7800GTX发布后，在很长一段时间内都没有对手。竞争对手ATI则忙于游戏平台领域的开发（微软的XBOX360、任天堂的WII ），以及公司内部也是斗争不断，使其下一代产品Radeon X1800XT系列一直拖延，竟然到10月中旬才上市，也失去了不小的市场份额。NVIDIA则抓住时间，全线出击，除了高端发布了GeForce 7800GTX，中低端除了降低下格外，还不断细化市场，推出了众多基于GeForce6系列的高性价比产品，其在图形市场中的占有率也进一步扩大。到第三季度，Nvidia的在独立图形芯片市场上的份额为50.4%反超ATI的47.9%。在整个2005年，NVIDIA实现了23.7亿美元的营业收入，净利润达到3.02亿美元。

    R520比G70晚了近4个月的时间才发布，但是Radeon X1800XT的性能却只能和GeForce 7800GTX打成平手，而前者的工作频率为600MHz/1400MHz，远远高于7800GTX的430MHz/1200MHz，所以看起来R520的核心处理效率偏低。但是R520的最大特色在于引入了全新的（Ultra-Threading dispatch processor）超线程分配处理器，最大能够同时处理512个并行的线程，大幅度的提高了核心的动态分支能力，动态分支也是SM3.0引入的动态控制流中的一个重要特性。而且在动态分支性能的测试中，X1800XT也确实高出GeForce 7800GTX不少。不过X1800XT的这个新特性在当时却没有体现出来，一个原因就是当时基于SM3.0开发的游戏还比较少，另一个就是，虽然R520可以支持多达512个的并行线程，SIMD流水线的并行度也很高，但是每个线程内的处理资源却严重不足，也就是R520的运算单元过少且效率一般（R520只有16个可以执行MADD指令的FP32 mainALU，而G70有48个可以执行MADD指令的FP32 mainALU），空有强大的动态分支能力，却无法充分发挥。

    当然ATI也清楚这一点，所以早在R520还没正式发布的时候就已经完成了R580的设计，并将相关信息通过一些文档透露出来。等到90nm工艺更成熟后，在2006年1月发布了R580以及X1900XT。R580相对于R520的扩充很大，ATI为其设计了规模空前的48个像素着色器单元（48个可以执行MADD指令的FP32 mainALU＋48个 mini ALU），所以R580即有较高的动态分支性能（不过batch size也增大到了48），又有规模空前的浮点运算单元，SM3.0性能自然也上了个档次，在一些采用SM3.0、HDR技术的新游戏中也反映的很明显。不过R580并不能算是DirectX 9.0c级别的最完美的核心，这主要是因为90nm制程下，即便R580通过3:1的架构（在提高Shader性能（3）的同时降低了ROP、TMU等单元的比例（1）以减少不必要的晶体管消耗），但仍集成了3.84亿个晶体管，所以其功耗、发热也是很难控制，适用性不高。

核心面积对比

    NVIDIA显然对ATI的反击有所准备，也清楚R520、R580的弱点，所以改变了策略，即在DirectX 9.0c级别的核心上不与ATI做过多纠缠，而是在GeForce 7800GTX发布后就立即继续进行下一代DirectX 10级别G80核心的研发。对于R580，NVIDIA则针对其弱点，推出了G70核心的高频、低功耗版——G71核心来抗衡。

● 性能并不是唯一，G71从成本、功耗、发热方面胜出

    2006年3月9日，在CeBIT2006展会上NVIDIA正式推出了G70的继任者G71图形核心。当时G71核心发布后，也使很多人都感到惊讶，因为新发布的优异核心在晶体管数量上反而低于其前任，这在历史上恐怕还是第一次，这也反映出了NVIDIA的魄力与对局势的准确把握。

GeForce 7900GTX

    作为NV新一代旗舰级核心，G71拥有2.78亿个晶体管，较G70下降10%，而且由于采用了成熟的90nm工艺，核心面积仅有196mm2 ，远低于R580的352mm2，以及G70的346mm2，使得制造成本显著下降，良品率更高。同时可以在降低功耗、发热的同时，大幅度提高核心的运行频率，7900GTX（650MHz）的核心频率比7800GTX（430MHz）高出了220MHz，提升达50%，两代优异显卡的频率差距(220MHz)如此之大,在历史上恐怕也不多见。

    架构方面，G71与G70完全相同,也是CineFX4.0引擎的设计，具有24条像素渲染管线、8个顶点着色单元和16个ROP单元。G71的RTL（register transfer logic ）被重新设计，并且精简了管线中一些不必要的cache，所以晶体管数得以减少，同时所有处理单元都保留了下来。G71架构的具体内容前面已介绍过的G70相同，这里就不再赘述。



GeForce 7900GTX

    G71针脚定义与G70相同，和G70是Pin-to-Pin兼容的设计，因此7900GTX所使用的PCB和7800GTX 512MB一样都是P348公版。同时沿用了7800GTX 512MB的双槽散热器。显存方面，7900GTX采用了三星1.1ns GDDR3，显存默认频率为1600MHz。



GeForce7900GT

    为旗舰级产品，GeForce7900GTX的售价为599美元，相比GeForce 7800GTX 599美元、X1900XTX 的649美元要也合理的多。

    NVIDIA在2006年三月发布了采用90nm工艺的GeForce 7900系列显卡，在成本、功耗和发热等方面都控制的较好，产品的性价比、易用性都达到了一个新的高度。

    反观ATI方面，除了06年初发布的R580由于成本问题导致价格居高不下，让大多数消费者望而却步。不过随着时间推移，80nm制程逐渐成熟，ATI也准备推出RV570、RV560进行反击。

    不过NVIDIA早就预料到此种局面，早在RV570、RV560发布前就把原本只用于OEM市场的7900GS推向了零售市场，产品性价比再次攀升，受到广大游戏爱好者的热捧。


GeForce 7900GS

    GeForce 7900GS是GeForce 7900GT的简化版，核心仍然采用了G71核心核心，采用90nm工艺，只是在7900GT的24条像素管线和8个顶点渲染单元的基础上减少了4条像素管线和一个顶点单元，具备20条管线和7个顶点渲染单元。而核心频率与GeForce 7900GT相同，公版默认450MHz，显存位宽为256BIT，频率为1320MHz，如此低的默认频率使得显卡具有较好的超频潜力。GeForce 7900GS定位于中高端市场，上市价格在179美元左右。

    GeForce 7900GS在默认频率下的性能在X1950Pro与X1650XT之间，但是超频后提升不小，远高于X1650XT也接近X1950Pro。GeForce 7900GS的出现使得ATI凭借X1950Pro与X1650XT进行反击的效果打了不小的折扣，X1950Pro还被迫与GeForce 7900GS进行价格战，7900GS很好的担当了一个阻击者的角色。

    后来ATI改变策略，用X1950Pro瞄准7900GS，以及2007年初又推出了X1950GT，使得7900GS的压力突然增大。不过NVIDIA也应对自如，在下调7900GS价格进入千元以下的同时大幅度提升显卡的频率，取得了不错的效果。

    GeForce 7900GS充分反映了NVIDIA对产品性能的知己知彼以及市场手段的灵活多变，对于消费者来说，GeForce 7900GS降价后也是具有相当的性价比的产品。

● 完美演绎性价比，7600/7300又是一代经典


GeForce 7600GT
   7600GT采用了90nm工艺G73核心，拥有12条像素管线和5个顶点单元，规格基本接近6800标准版，比6600GT高出一个档次，尤其是TMU、ROP单元数量是Radeon X1600XT的2倍，高分辨率下的反锯齿性能要强的多。默认核心频率达560MHz。

    90nm的GeForce 7系列的显卡大都具有高频、低功耗的特性，而GeForce 7600GT把这些特性发挥到了及至。7600GT基于公版P456 PCB制造，虽然7600GT的频率大幅提高，但功耗控制依旧非常出色，不会超过PCI-E接口75W的上限，所以省掉了外接供电。

    因为是中端产品，所以7600GT采用了128Bit显存接口，搭配4颗显存组成256MB/128Bit的规格，显存频率1400MHz。
   由于NVIDIA在G73内部集成了SLI处理模块，通过显卡PCB上SLI金手指，就可以非常方便的组建SLI系统，获得更大的性能提升。

    过去在中端市场中，GeForce 6600GT虽然有技术、性能优势，但是成本比对手的Radeon X700高出不少，无形中降低了显卡的性价比。而在G73核心中只有1.77亿晶体管，比X1600XT的1.57亿仅仅多了10%，在90nm制程下，成本差距下几乎可以忽略。而性能方面，1280X1024的分辨率下，7600GT在游戏中的性能几乎平均都有X1600XT的1.5倍，在DOOM3中更是2倍于X1600XT，所以在中端市场，7600GT取得了近乎辉煌的胜利，也是继GeForce 6600GT之后，又一个中端性能之王。


GeForce 7600GS

    GeForce 7600GS是GeForce 7600GT的降频版本，采用G73核心，完整的继承了7600GT的所有规格和特性，上市价格只有129美元，售价与X1600Pro相当，但整体性能比X1600XT还要高。G73核心天生的优异超频性能更使得GeForce 7600GS成为中端市场性价比高的传奇式产品。

    GS这个后缀是从6800GS开始出现在我们的视线中的，由于6800GS出众的性能以及平易近人的价格， GS后缀命名的N卡从此给人留下了高性价比的印象。毫无疑问7600GS也是一款物美价廉的产品，从厂商到消费者都对其十分喜爱，从某种意义上说，7600GS才是6600GT真正的接班人。早期的7600GS是90nm制程，并以GDDR2 256M为主。随着后期80nm G73-B1核心的采用，7600GS的性价比进一步提高，而去年底599元128M GDDR3版本的上市使其达到了性价比的巅峰.

    直到发布一年后的今天，7600GS的传奇仍在继续，也是目前中低端市场中最成熟、产品最丰富、销量最大的显卡之一，深受消费者推崇，堪称一代以高性价比为特点的经典之作。

    如果说GeForce 7600GS是2006年的中端性价比之王，那么GeForce 7300 GT 则是新一代的低端霸主，也可以说是NVIDIA的9550，而且其意义甚至还超过了7600GS。

    NVIDIA上一次中低端称霸还要追溯到GeForce4 MX440时期，那时候MX440凭借出色的性价比、良好的驱动支持，在低端及OEM市场全面开花，NVIDIA甚至还凭借GeForce GO MX440打入了ATI传统的移动独立核心市场。但是自从2002年在ATI发布Radeon 9000之后，NVIDIA在低端市场上就再没有领先过，其后的FX 5200、6200LE、6600LE都因为成本或是性能原因为Radeon 9250、9550、X550所压制，这一状况也一直持续到GeForce 7300GT 的发布。

    GeForce 7300GT采用了与7600GT相同的90nm G73核心，但为了合理划分档次，NV在硬件规格上作了限制，屏蔽掉了4条像素渲染管线和1个顶点着色单元，但是保留了全部的ROP单元因此7300GT的规格是8PS和4VS+8ROP的全8管线配置，在硬件规格上7300GT全面领先6600也是其成功的根本因素。部分管线的屏蔽还使得GeForce 7300GT的发热、功耗进一步缩小，超频能力也最高。

    NVIDIA对于GeForce 7300GT显卡的政策与以往完全不同，最出人意料就在于并没有限定7300GT的频率以及显存规格，也没有公版显卡参考标准。因此7300GT显卡种类繁多、规格各异，绝大多数厂商均推出了三款以上7300GT规格，令人惊叹。

    由于7300GT依然是G73核心，所以厂商既可以选择直接使用7600GS的各种公版/非公版PCB，也可以开发成本更低的方案，性价比优势更加明显。而且7300GT也可以支持SLI功能，两块显卡的价格不过1000左右，大大降低了SLI的价格门槛。

    550/1600MHz的7300GT GDDR3在绝大多数游戏中均领先于ATI最高频的X1600XT，而7300GT GDDR2（450/800）也全面领先的X1600Pro（450/800），在成本相近的情况下几乎把X1600系列逼上了绝境。

     2006年后期基于全新80nm制造工艺G73-B1的7300GT GDDR3也大量上市，不仅功耗下降，发热量更是大为降低，在1.4V的电压下，核心超频频率轻松达到700MHz以上，十分惊人，不仅横扫500元以下的显卡市场，G73-B1核心还被大量用于移动平台，移动平台独立显示核心也是今后增长最快的市场，以往ATI具有的传统的功耗优势从G73开始也被逐渐削弱。。

    7300GT的出现无疑了完善了整个GeForce 7系列产品线布局，也使得NVIDIA重新获得了丢失已久的主流市场。直到今天，7300GT仍然拼杀在500元以下的市场中，为NVIDIA扩大整体市场占有率立下了汗马功劳
● R580确实强大，双核7950GX2出世
    进入2005年后期，NVIDIA和ATI在追求显卡的优异性能上走上了不同的道路，ATI的做法是在单个GPU核心上集成更多的晶体管，而NVIDIA则采用了多核心以SLI方式协同工作的方式。

    Quad SLI最早出现在CES 2006展会上，NVIDIA和Dell正式将基于2组Geforce 7800 GTX 512的Quad SLI系统公开亮相，在为世人所瞩目。之后，NVIDIA又在3月份的Cebit2006大会上又发布了Geforce 7900GX2，为Quad SLI技术的实用化以及进一步推广奠定了物质基础。但当时的Geforce 7900GX2限于制造成本的高昂，驱动程序也有待完善，大规模上市的时机并不成熟，因此只为OEM和System Builder制造，没有在零售市场销售。


单卡性能之王 Geforce7950GX2

    2006年5月份正式推出了全新的Geforce7950GX2显卡。NVIDIA通过供电电路的优化设计，并在7950GX2引入了全新的BR03芯片，使卡内GPU间的数据管理、调度更加科学合理，提高了执行效率。两块显卡之间的连接也得到了简化，只需要一个SLI桥接器即可。Geforce 7950GX的意义还在于，这是第一款面向零售市场的可以用于组建Quad　SLI系统的产品，使得Quad SLI的普及迈出了实质性的一步。



    7950GX2双芯片显卡最大的区别就是采用了双PCB解决方案，每块核心都集成在自己的PCB上，具备完整的板载显存和供电电路，而此前推出的双芯片方案都采用单PCB设计。作为NVIDIA亲自研发的多核心解决方案，在驱动等方面等会得到更好的支持，前景也更广阔。

    7950GX2 Quad SLI无疑是G80面世之前目前性能最强的桌面级显卡系统，尤其是在高分辨率下打开反锯齿后，游戏的FPS下降的幅度相对以往来说要小的多，其独特的SLi Antialiasing反锯齿技术可以带来最优异的画质体验，而且7950GX2 Quad SLI对游戏的推动能力非常优秀，其最低FPS的数值比过去有了明显提高，也就说游戏帧数的波动小的多，能够明显感觉到游戏运行时流畅程度大为改善。但Quad SLI系统面临的主要是驱动问题，NVIDIA首次官方正式提供GeForce 7950GX2 Quad SLI的支持在去年7月份，但是还有些的问题有待解决，尤其是与DirectX的配合问题。由于多卡些同的工作模式对驱动的管理、控制功能要求更高，如果可以妥善解决，Quad SLI还有较大的提升潜力。

● RV570遭遇强敌，难过7950GT一关

    拥有36个PSU的X1950Pro性能的确强大，无论规格功能还是性能都要全面压制7900GT/GS，不过NVIDIA提前给它准备了竞争对手，那就是拥有512MB显存的7950GT，得益于较高的频率和大容量显存，X1950Pro在和他的对抗中讨不到任何好处。



Geforce 7950GT

    不过，由于上市价格过高，因此7950GT并未对X1950Pro造成多大压力，不过随着时间的推移，时下拥有24管线的7950GT反而成为中端最具性价比的产品。NVIDIA刚刚发布的8600GTS甚至不敌它。

    众所周知，近些年来，在游戏软件方面，游戏中的数值计算操作所占的比重就越来越大、远远高于纹理操作，这是什么原因呢？我们知道，早先3D游戏提高显示效果主要是以提高多边形数量、纹理层数、精细度、以及使用一些特殊的贴图来实现的。从DirectX 8开始引入了可编程着色管线概念后，游戏编程的方式就有了很大改变，游戏开发中，为了更真实的模拟现实世界，应用了大量的数值计算，通过求解很多工程计算中常用的数学方程来实现对逼真的3D效果。

算术操作比例大大增加

    例如，电影特效和游戏中广泛应用的水面模拟就属于计算机图形学中的流体模拟，过去工程计算常用、较为复杂的NSEs(navier-stokes equations)也开始被用于互动娱乐软件的开发，当然，2D波方程因为计算量较小而应用的更广泛。对游戏中光线的模拟也是如此，例如有些游戏中使用了Radiosity方式的光照贴图，就包括了对光传输方程的求解。还有去年开始大规模的普及的HDR特效，其中在色调映射这个步骤中，也使用了三个计算密集型的数学方程，包含大规模的算术操作。另外物理引擎的大规模采用，如现在使用广泛的HAVOK物理引擎，也使游戏中出现了不少动力学方程。总之，这些都使得游戏中数学计算的比例越来越高，未来游戏也会和目前的通用计算相似，依靠更多的数值计算来提高3D显示、物理效果。

HDR渲染中的色调映射包含大量的数值计算

    在硬件方面，自从NVIDIA在NV20中引入可编程的SHADER处理单元后，GPU的发展就进入了一个崭新的时代，SHADER单元所具有的强大并行计算能力也使GPU的数学运算能力大幅度提高。特别是NV40对于SM3.0完整支持以及可以进行FP32浮点计算，可编程性能（各种分支操作,包括循环、if/else、重复、子函数调用）的大幅度提高及运算精度的提高，更使其具有了明显的流式信息处理器（stream processor）特征。

    目前的图形核心已经发展成为具备强劲并行计算性能并且编程方便的处理器。GPU不但提供了巨大的存储带宽和计算能力，也把运算提升到了浮点的精度（对现在通用计算来说,浮点精度是必须的条件），所以能够将现代的GPU看作是一种通用的流式信息处理器（stream processor），它完全适用于对任何流信息模型进行处理。

一种流处理器核心结构图

    由于GPU强大的并行处理能力，它的数值计算性能上大幅度超过同时代的CPU，因为后者更像是一种控制密集的型的处理器，并且拥有大量的CACHE。如Intel Xeon微处理器集成了1.08亿各晶体管,但是60%应用在CACHE上。而GPU则把大量的晶体管应用在算术逻辑单元（ALU）上,其不具有大容量的CACHE,直接在芯片上利用临时寄存器作流数据的操作。

基于CPU与基于GPU运算效率对比（越短越好）

     应用GPU进行数值计算的研究很早也就开始了，图形处理的并行性以及可编程功能一直是图形硬件发展所追求的目标。上世纪80年代出现的Pixel Planes 系列图形系统就可进行二次多项式的并行计算。进入新世纪后，2001年GeForce2的Texture Shader+Register Combiner就被用于求解扩散方程，2002年具有可编程Shader单元的GeForce3出现后，也被用来进行矢量、矩阵的基本代数运算，及求解有限差分方程组。

    未来，GPU将被越来越多的应用到传统图形处理以外的数值计算上，更多的基础数值算法也将被移植到 GPU 上，随之产生各种实时交互的模拟应用，比如对流体、光线物理行为的交互模拟，成为计算机科学的一个新兴领域。

    上面简单介绍了游戏发展的趋势以及现今GPU的特性，那么作为游戏程序与GPU之间的沟通桥梁，DirectX又有哪些发展呢？下面也简单介绍下新一代DirectX10的特点。

DirectX10的崭新架构

    DirectX10中引入了统一渲染架构，不再有的Vertex shader和Pixel shader的区分。这主要是在实际的游戏中，vertex shader和pixel shader的需求比例相差不小，由于过去GPU中的vertex shader和pixel shader的比例是固定，不够灵活，限制了开发人员自主创作的空间，也使GPU运算资源被浪费的现象时常发生。在统一渲染架构中，顶点和像素处理可以同时进行，而过去必须先进行顶点处理。所以，处理的并行性也被提高。

统一渲染架构的优势

    在DirectX10中，Shader Model 也发展到了SM4.0。Shader Model 4.0中引入了几何着色器（Geometry Shader），第一次允许程序在图像处理器中创建新数据，意义在于使GPU可以能够制造新的几何体，添加新的三角形，变成了既可处理又可生成数据的处理器，从而减轻CPU的负担。在游戏中，诸如dynamic cubemap（动态立方体贴图）、displacement mapping（置换贴图）、stencil shadows（模板阴影）等技术都需要由CPU来生成新的对象，而在DirectX 10体系中，GPU自身即可单独完成画面渲染，Geometry Shader甚至具有直接Render to Cubemap的能力，可以有效降低CPU负载。

    另外，Shader Model4.0的寄存器资源也大大提高，临时寄存器增加到4096个，常数寄存器增加到65536个，内插值寄存器采用16/32规格等。由于程序中的shader代码越来越长，SM4.0也引入了Switch 语句，使GPU的可编程性进一步提高，让程序员能过编写出更简洁、执行效率更高的程序，同时也可以产生效果更逼真的特效。关于DirectX10的新特性还有很多，由于篇幅关系，此处不再赘述。

<
    2006年无疑是NVIDIA的历史中非常成功的一年，凭借90nm GeForce 7系列产品的优异表现，NVIDIA在桌面独立核心的占有率（Q3）达到57%,尤其是在移动独立图形核心方面达到了53%的占有率，这对NVIDIA无疑是具有历史意义的，因为在移动独立图形核心一直是ATI最据优势的领域，是ATI多年来唯一没有失守的部分。而且和桌面独立核心市场已经出现萎缩的情况相反，移动核心的市场却大幅度增长。NVIDIA在移动平台的出色表现，也说明90nm G7X核心的功耗、发热控制的非常出色。

    2006年NVIDIA总收入为30.7亿美元，创公司年度营收新高，比上一年度的23.8亿美元，增长高达29%。其中净利润为4.488亿美元，也比上一年度的3.012亿美元增长幅度接近50%。

    面对非常有利的局面，NVIDIA还是保持了非常清醒的头脑，在产品研发上也没有丝毫懈怠。并于2006年11月09日发布了全新一代的GeForce 8800GTX显卡，将PC显示核心正式引入DirectX 10时代。

● DX10提前降临！8800领先ATI长达半年
    GeForce 8800GTX带来的不仅仅是令人惊叹的效能，更在于它所采用的统一渲染架构以及DirectX 10支持，同时强大的通用计算性能使其超强的物理加速能力，可以给三维游戏带来最真实的画面、互动效果。所以NVIDIA也把GeForce 8定调为“真实重新定义”的主题。


GeForce 8800GTX

    GeForce 8800GTX的核心研发代号为G80，是PC平台上首颗采用统一渲染架构的GPU，同时也是首款支持DirectX 10、Shader Mode 4.0的GPU，极具历史意义。G80图形核心基于TSMC的90nm工艺生产，核心集成集
成6.8亿个晶体管，核心频率为575MHz，其中Unified Shader的运行频率为1350MHz。

    虽然80纳米工艺在已经被引入实际生产，但是对于晶体管数量庞大G80来说，台积电80纳米工艺还无法提供必需的良品率。而且新工艺生产的核心工作频率不总是比旧的高，像130纳米的R480和110纳米的R430就是一个很好的例子，所以采用90纳米工艺无疑更保险。

    在架构方面，G80的统一渲染架构中Vertex Shader（顶点）和Pixel Shader（像素）的区别已经不复存在，取而代之的是8组并行的阵列，每组阵列中有16个Stream Processor（流处理器）和8个Texture Filtering Unit（纹理单元），这样G80总共拥有128个流处理器和64个纹理单元。

    G80的统一渲染架构基于庞大规模的流处理器（Stream processor）来动态分配给各种操作。可以让每个处理单元都参与运算，每个流处理器均能够处理顶点、像素和几何操作，从而达到提高GPU的利用效率。

Streaming Processors

    过去，自从NV40以后，GPU核心中Shader单元中的每个ALU都有能力单周期完成一个3D+1D(也就是3D矢量+1D标量指令，它们如果并行，被称做co-issue)或者2D+2D总共4D这样的指令操作。而G80核心中，采用了采用完全的标量化设计，将3D+1D或者2D+2D这样执行能力为4D的“大”ALU拆分为1D的“小”ALU，然后将这些ALU组成8个阵列(TCP)，每个TCP拥有16个ALU，它们被称做1D Scalar Streaming Processors。每个1D ALU都有各自的指令发射端口和控制资源，相对于4D ALU的浪费现象被杜绝，可以保证100%的执行效率。通过独特的内部分频技术，这些流处理器以超过时钟频率2倍多的频率(1.35GHz)运行，所以GeForce 8800 GTX的128个标量流处理器性能和64个4D SIMD的性能差距不是很大。当然也必须看到，在3D图形的着色程序中，3D+1D操作使用的更为广泛，所以传统“3D+1D”设计有一定的优势。但是，1D ALU的设计分配更加灵活、效率更高，更适合通用计算领域的应用。

G80的核心架构

    G80图形核心引入了Thread Control Unit单元，负责整个流水线的仲裁和控制，最大可以支持4096个1D 线程，比R520的（Ultra-Threading Dispatch Processor）512个4D 线程要大的多。G80在进行分支处理时的Batch Size(可以理解为分支工作的区域)为4x4x2，虽然不是很小，但与对Batch Size大小更为依赖传统SIMD架构来说相比，G80仍然具较更高的动态分支能性能。

Thread Control Unit

    由于 SM4.0中提供了全新纹理阵列(Texture arrays)的支持，NVIDIA继续保持了2：1的比例，纹理单元数目也提高到了空前的64个。

    ROP方面，G80拥有6组ROP（Raster Operation Partitions），比G71多了2组，既有24个ROPs单元，每组连接64bit显存控制器，这样G80就总共拥有规模空前的384bit的显存位宽，能够支持GDDR1、GDDR2、GDDR3和GDDR4显存。

    由于在G80身上GPU架构发生较大的变化，因此NVIDIA放弃了传统的CineFX命名，将其架构命名为Lumenex Engine（流明引擎），这里也简单介绍下流明引擎的新特性：

1. Coverage Sampling Anti-Aliasing (CSAA)，引入多种全新抗锯齿模式：8xAA、16xAA和16xQ AA，单颗GPU就能实现高达16倍抗锯齿；

2. Lumenex Texture Filtering Engine，流明纹理过滤引擎，各项异性过滤图像质量大幅提高；

3. 支持128bit HDR，配合CSAA完美实现高倍HDR+AA；

4. 10bit Display Pipeline，64倍于上代产品的输出颜色数；

5. Quantum Effects，GPU物理加速技术。

● 产品简介：

GeForce 8800系列规格对比

    GeForce 8800GTX作为新一代的旗舰产品，拥有拥有迄今为止最强大的硬件规格、最强悍的3D渲染效能。



GeForce 8800GTX

    由于GeForce 8800GTX的最高功耗为145瓦，整卡的长度达到32厘米，都是历史上PC显卡的最高纪录，显卡被一块体积硕大的散热器所覆盖，不过风扇噪音控制的比较好，即便在全速运行状态下也是非常安静。同时显卡上集成了两个6Pin接口，比单个接头+12V的电流输入的方式更加安全。显卡上也集成了两个SLI金手指，可以组建更为强大的GeForce 8800GTX SLI双卡互连。

   GeForce 8800GTX配备了PC显卡上最高的768MB GDDR3显存，显存为384bit位宽，频率为900MHz带宽更达到空前的86GB/s。

    GeForce 8800GTX零售价为599美元，非常具有竞争力，于2006年11月8日正式发布迄今已出货40万块,不仅叫好而且叫座。



GeForce 8800GTS

    GeForce 8800GTS是GeForce 8800GTX的简化版，也是GeForce 8800系列的普及版，默认频率500/1600MHz ,Stream Processor精简了2组，从128个减至96个，另外ROP单元减少了1组共4个，纹理单元为48个，显存减少了320MB 320Bit的规格。相对上一代优异显卡来说，这样的规格仍然十分强大。

    8800GTS采用10颗8M×32Bit的显存就组成了320MB 320Bit的规格，显存的速度为1.2ns，默认显存频率为1600MHz。

    8800GTS散热器和8800GTX的结构完全相同，体积上要比GTX小一号，不过8800GTX的频率有所下降、部分管线也被屏蔽，所以功耗和发热都小得多。同时，8800GTS由于功耗的降低，只提供了一个6Pin接口供电，另外，显卡上的SLI接口也只保留了一个。

    Geforce 8800GTS 320MB的售价为299美元，非常具有竞争力，国内目前甚至已经打出了1999元的超值价格，比ATI的X1950XTX价格便宜很多，但性能却反而高出不少，所以Geforce 8800GTS 320MB无疑是目前性价比高的准高端显卡。
● 8600/8500再次抢得先机，NVIDIA全线产品严正以待

    不过，G80的热销只是相对的，因为高端游戏玩家所占比例依然很小，据统计有75%的用户会选择千元价位的中端显卡。也就是说G80对于主流玩家来说依然是可望而不可即的，更多的用户是在期待中端DX10显卡，或者是在DX9和DX10之间犹豫不决。
    2007年4月17日，NVIDIA终于正式发布了基于G80图形架构的中端G84核心及低端G86核心，至此NVIDIA GeForce 8系列DX10全线显卡构建完成，DX10的普及之路由此开始，改朝换代的时刻终于来临了！

8600GTS

8600GT

8500GT

    现在，NVIDIA已经提前部署好了全线DX10产品，由此迎接即将到来的DX10游戏，已经竞争对手ATI的相关产品。从NVIDIA信心十足地表现来看，此次在DX10主流显卡方面再次抢得先机，ATI的相关产品即便是晚了半年之久，依然不敢保证能够击败同级N卡!

● 总结与展望：

    2007年2月份，NVIDIA公布去年第四季营收报告，其中GeForce 8800系列于2006年11月8日正式发布后40万块，2006年第四季度与年度营收均再创新高，年度总收入首次突破30亿美元，NVIDIA再次成为成长率最快的半导体公司之一。

    对于今后GPU市场竞争的格局来说， 2006年老对手ATI被AMD收购这一事件的产生的影响还是不小。众所周知，2006年7月24日NVIDIA的传统合作伙伴AMD以54亿美元收购了自己的主要竞争对手ATI。从此，GPU市场上，AMD成为NVIDIA直接的最大竞争对手，这当然对NVIDIA也产生了一定的影响，尤其是双方在AMD平台芯片组方面一直合作良好，今后会发生怎样的变化尚难以预料。不过，另一方面，过去一直提携ATI的CPU巨头INTEL则准备缩小双方的合作规模，转而与NVIDIA靠的更近。

    虽然NVIDIA和ATI两强争霸的局面还将持续下去，但是在GPU这个充分依靠技术实力的领域中，NVIDIA对先进技术的孜孜追求也将使其立于不败之地。未来，NVIDIA将在多个领域呈现强劲的增长势头，第一，NVIDIA IGP芯片组将深入Intel平台市场，。第二，新一代Vista操作系统、DirectX10的普及与也使得GPU在PC系统中的地位进一步提高，NVIDIA的影响力也将进一步扩大。另外在移动GPU平台，NVIDIA去年实现了对ATI的反超，GeForce7系列的优秀的性能/功耗比也将使NVIDIA在这个强劲增长的领域内获得更大的成就。

    近些年来，手持式移动多媒体领域随着手机以及便携视频播放器的大规模普及而出现惊人的增长。而在技术方面的进步比PC图形系统高出数倍，从PC产业建立到1995年为止，15年内没有标准的图形API随着技术的不断进步，从手机产业建立到2004年为止，仅花了四年就有了自己的API（OpenGL ES），发展速度惊人。同时，消费者对手持式移动产品的多媒体性能要求也越来越高，包括3D游戏、视频播放等变得日益普及。GPU全面进入手持式移动多媒体领域已成为未来发展的趋势。为此，NVIDIA也做好了充分的准备，在去年收购PortalPlayer公司后，进一步加强了自身在MobileMedia、Mobile 3D领域的实力。虽然，这一市场上ATI起步较早，现在的市场占有率也更大，但是NVIDIA后来者居上也并非空谈。

● 结语：

    从NV1到G80，在3D图形核心的发展历史中，NVIDIA的产品一直都占有相当重要的地位。凭借不懈的努力，NVIDIA用实际行动实践了每6个发布一款新核心的诺言，也为推动这一领域的技术进步做出了自己的贡献，给消费者带来更精彩的视觉体验。10多年来，NVIDIA依靠自身的技术实力，创造了一个又一个的成长奇迹，在对手纷纷倒下的同时实现了自身的空前发展，成为GPU领域当之无愧的霸主。未来NVIDIA还将演绎怎样的传奇，就让我们拭目以待吧！

    最后，POP显卡频道再次真挚感谢NVIDIA的老牌AIC合作伙伴映众（Inno3D）独家提供全线NVIDIA显卡；以及NVIDIA亚太区邓培智先生提供相关技术支持。
2人已赞

关注我们

关于我们|联系我们|法律声明

北京盛拓优讯信息技术有限公司.版权所有中华人民共和国增值电信业务经营许可证编号：京B2-20170206 | 北京市公安局海淀分局网监中心备案编号：11010802020132

广播电视节目制作经营许可证：编号（京）字第25315号信息系统安全等级保护备案：11010813655-00001 网络文化经营许可证：京网文(2018) 1456-138号工商营业执照

备案号：京ICP备16024965号-9 京公网安备11010802020132号

违法和不良信息举报电话:010-58859066,18101376593,shengtuo20@it168.com

泡泡网
手机扫码关注

名称	RIVA TNT	RIVA TNT2
架构	NV4	NV5
制造工艺	0.35 Micron	0.25 Micron
晶体管数目	7 Million	15 Million
DirectX支持	6	6
顶点管线	1	1
VS版本	-	-
像素管线	2 x 1	2 x 1
PS版本	-	-
核心频率	90 MHz	125 MHz
填充率	180 MTexels/s	250 MTexels/s
显存位宽	128-bits	128/64-bits
显存类型	SDR	SDR
显存速度	110 MHz	150 MHz
显存带宽	1.76 GB/s	2.40/1.00 GB/s