成就3D图形霸业!NVIDIA历代显卡回顾
分享
● NVIDIA陷入苦战,需要强力产品扭转局面
2003年第四季度,NVIDIA在图形核心市场的占有率首次被ATI以微弱优势所超过,这也说明GeForce FX系列显卡在与Radeon 9系列的较量中处于下风。不过在整个2003年,由于基于DirectX 9开发的游戏屈指可数,所以中高端市场上GeForce FX显卡的表现并不差,高端方面,除了GeForceFX5800输给了Radeon 9700以外,GeForce FX5900又很快收复了失地,并与Radeon 9800旗鼓相当。在整体利润最大的中端尤其是150美元左右的市场,NVIDIA囤积重兵,先后使用了GeForce4 Ti、GeForce FX5600、GeForce FX5700三款产品,而Radeon 9500、9600在当时没有DirectX 9游戏支持的情况下,并没有占得太大的便宜。
Q1''04又夺回了第二的位置
然而在低端100美元以下市场上,NVIDIA就很不好过了。主要是GeForce4 MX440、GeForce3 Ti200、GeForce FX5200完败给对手的Radeon 9000/9200。和MX440相比,Radeon 9000在成本相当的情况下有规格优势,而与GeForce FX5200相比,Radeon 9000除了成本、功耗的优势外,凭借优秀的着色器效率,在性能上也略微领先,低端市场对占有率影响更大,这就是ATI占有率得以反超的原因。
DX9游戏出现之后,FX系列的日子越来越不好过了
时间进入2004年后,DirectX 9的普及速度被加快,这显然是NVIDIA史料未及的,2004年3月,一大批基于DirectX 9的重量级游戏如FARCRY、PAINKILLER、INVISABLE WAR等纷纷上市,使得GeForce FX系列浮点处理能力不足的缺陷终于完全暴露了出来,这也直接影响到该系列显卡的销售,NVIDIA也进入了颇为艰难的一段时期,2004年第二季度利润额下滑了将近80%(收入额为510万美元,而一年前为2420万美元),当然这不光是与ATI竞争的结果,INTEL的整合芯片组的大规模普及也影响到独立图形核心领域。
● GeForce 6系列问世,NVIDIA一雪前耻!
不过在高端方面,新一代的NV40已是即将发布,NVIDIA绝地反击的大幕也将被拉开。
不过在高端方面,新一代的NV40已是即将发布,NVIDIA绝地反击的大幕也将被拉开。
2004年4月13日,历时18个月,前后投入了10亿美元研发费用后,NVIDIA发布了新一代NV40图形核心,并正式名称命名为GeForce 6800Ultra,NV40使用了空前的2.22亿个晶体管,具有创纪录的16条完整像素管线,其非常好的性能也使NVIDIA也重新成为图形显示技术的领先者。
从今天眼光来看,NV40绝对是一款不记代价的复仇之作。其最大的特点可以用“加倍”来形容,整体上讲,NV40的晶体管为2.22个,是对手上一代R300的2倍。内部架构方面,像素着色器单元、ROP单元、TMU单元,也是对手的两倍。而且NV40还率先提供了对DriectX 9.0C中SM3.0技术的完整支持。总之,就像当年R300对NV25一样,NVIDIA在NV40上悉数奉还。
NV40采用了0.13微米工艺制造,由于引入了SM3.0电路,其内部集成了2.22个亿晶体管,由于这已经是当时0.13微米工艺的极限,NVIDIA通过IBM合作,引入冗余电路技术,提高了NV40良品率。
NV40的核心架构
架构方面,NV40采用了第三代的CineFX 3.0引擎。CineFX 3.0完全符合DriectX 9.0C的Vertex Shader3.0和Piexl Shader3.0规范。同时,CineFX 3.0也完全支持OpenGL 1.5。开发环境方面,CineFX 3.0可以支持微软的HLSL(High-Level Shader Language)和NVIDIA自己的CG高级开发语言。
CineFX 3.0引擎在着色器单元部分的提高更大。首先在Vertex Shader方面,NV40完整支持Vertex Shader3.0,为了更好的利用动态条件分支的特性,顶点单元采用了MIMD的设计,每个单元由一个4D向量处理器和一个1D标量处理器及以及顶点纹理取样(Vertex Texture Fetch)单元构成,可进行指令的并行处理。
CineFX 3.0引擎在着色器单元部分的提高更大。首先在Vertex Shader方面,NV40完整支持Vertex Shader3.0,为了更好的利用动态条件分支的特性,顶点单元采用了MIMD的设计,每个单元由一个4D向量处理器和一个1D标量处理器及以及顶点纹理取样(Vertex Texture Fetch)单元构成,可进行指令的并行处理。
Vertex Shader结构
NV40可以支持的Vertex Shader指令长度不再受到限制,开发人员可以根据自己的需要任意长度的顶点着色代码。顶点单元具有完整的程序流程控制的能力,程序员通过“if、else、then"等指令能够在各个分支中跳转,还可以方便的调用子程序,从而使着色程序执行效率显著提高,尤其对于取消指令长度后的着色程序更为有效。
Vertex Shader规格
NV40的Vertex Shader还有一个特点就是可以支持顶点纹理拾取。它允许Vertex Shader像Pixel Shader一样从纹理中读取数据。在渲染过程中,程序把包含了有效顶点位置的网格(mesh)传入到vertex shader中,顶点纹理拾取就能将纹理转换为几何体。
另外,NV40还支持Vertex Texturing,可以在单个pass里完成4个纹理的查找操作。使用Vertex Texture后,在游戏中可以获得更真实的水面模拟效果等更高级的特效。过去,开发人员一般使用凹凸贴图模拟水面,但是与采用Vertex Texture和几何位移算法实现的效果比相差甚远。
在Pixel Shader方面,NV40采用了超标量的设计,增加了一个完整运算功能的FP32 Shader Unit2,所以NV40的两个Shader Unit都具备完整的mini ALU以及浮点运算能力,而Shader Unit1还可以进行纹理定址至以及执行用于计算法线的nrm指令。NV40共有32个FP32 Shader Unit,峰值浮点计算性能可以达到76.8 GFlops。
Pixel Shader架构
NV3X的Pixel Shader由于不具备co-issue能力,指令并行处理能力较低。有鉴于此,NV40中也提供了对co-issue的支持,并被命名为Dual-Issue,执行方式上也更灵活,不仅支持常见的3D+1D,还可进行了2D+2D的操作,使NV40的峰值Pixel Shader指令吞吐量达到了空前的25600 MIPS。另外,nVidia重新设计NV40的寄存器部分,还增加了寄存器的数量,VS3拥有32个,256个常数寄存器,Pixel Shader拥有10个interpolated寄存器、32个临时寄存器、224个常数寄存器,保证Shader具有充足的Register资源可以利用。
NV3X的Pixel Shader由于不具备co-issue能力,指令并行处理能力较低。有鉴于此,NV40中也提供了对co-issue的支持,并被命名为Dual-Issue,执行方式上也更灵活,不仅支持常见的3D+1D,还可进行了2D+2D的操作,使NV40的峰值Pixel Shader指令吞吐量达到了空前的25600 MIPS。另外,nVidia重新设计NV40的寄存器部分,还增加了寄存器的数量,VS3拥有32个,256个常数寄存器,Pixel Shader拥有10个interpolated寄存器、32个临时寄存器、224个常数寄存器,保证Shader具有充足的Register资源可以利用。
Dual-Issue
另外,NV40的Pixel Shader也具有动态程序流程控制,完全支持子程序、循环和分支的程序流程,提供了循环计数寄存器和条件码的支持,还提供了一个新的back/face寄存器,不仅提高了编程的灵活性,还可以减少无效渲染。
NV40的ROP单元也采用了全新的设计,支持16位浮点像素混合(FP BLENDING)功能,可实现优异FP精度的HDR效果(nVidia将其命名为HPDR,采用OpenEXR做为运算的缓存格式)。ROP单元还支持多渲染目标(Multiple Render Targets)技术,使光照可以在所有几何图形被渲染以后最后进行应用,不再需要进行多步的渲染。因而这种技术也可以被称为延期着色(Deferred Shading)。
ROP 结构
NV40还引入了全新的 IntelliSample 3.0 抗锯齿技术。 其核心是一套旋转网格线( Rotated-grid )的抗锯齿采样算法,旋转栅格方式允许子像素更好地覆盖在水平方向和垂直方向上,能为多边形边缘提供更高的色彩精确性。
NV40也采用了第二代UltraShadow技术,UltraShadow II技术具有32 Z/stencil渲染能力,即在渲染stencil shadow volume等效于32管线。NVIDIA宣称UltraShadowII速比Ultra Shadow第一代高出四倍,可以提高显卡在Doom3中的性能表现。UltraShadowⅡ技术同样能和的IntelliSample 3.0 配合,确保阴影边缘能获得正确抗锯齿效果。
无效渲染大大减少
另外,NV40在视频方面也是进步不小,提供了强大的视频编码、解码支持,能够实现MPEG-2(标准分辨率以及高清晰分辨率)、MPEG-4(DiVX)、WMV9(标准分辨率和高清晰分辨率)的硬件编码和硬件解码。内建的VP单元(Video Processor)还提供了自适应消除场交错现象、高品质的缩放、伽马纠正、噪点降低、WMV9/H.264的运动补偿和色块消除的硬件支持。
VP单元
2人已赞
第1页:3D加速时代,NVIDIA称雄第2页:NVIDIA首款产品——声显卡NV1第3页:Windows横空出世,NVIDIA走向正途第4页:雷管引爆TNT——TNT、TNT2打败3DFX第5页:GeForce横空出世,GPU时代来临第6页:GeForce 2代,您知道GTS的含义吗第7页:高端低端泾渭分明,GeForce 2 Ti/MX诞生第8页:两强相争,DX8时代的较量第9页:打垮8500!GeForce 4诞生第10页:不能磨灭的经典,GeForce 4 MX系列第11页:最失败的作品——GeForce FX系列第12页:最失败的作品——GeForce FX系列第13页:FX5900系列诞生第14页:FX时代的经典产品也不少第15页:GeForce 6系列问世,NVIDIA一雪前耻!第16页:6800经典产品介绍第17页:又是一代经典——GeForce 6600第18页:6600 6200第19页:GeForce 7大举攻占市场份额第20页:90nm来临,新GF7系列演绎性价比第21页:DX9末期的决战,7950GX2第22页:什么决定显卡的发展?未来游戏特点介绍第23页:DX10来了,领先对手半年,G80充分满足未来游戏需要第24页:总结与展望