从天堂到地狱!耕升花屏事件尘封档案
在《黄金时代 经典显卡的幕后秘闻》系列第一期里,我们谈到了耕升是如何走上DIY设计路线的,以及GF4 MX400、GF2 Ti火狐等经典产品的幕后研发情况。在这期,我们将重点谈谈著名的“耕升花屏事件”,请您相信,本文中的很多资料都是第一次大白于天下。
钛极系列的四款产品,分别采用GF3 Ti200(220/2200)和Ti500(350/3500)芯片,三位数的版本采用64MB显存配置,四位数的版本采用128MB显存配置。我们的GF3 TI系列产品采用相同的非公版PCB设计,超频能力极强,并且拥有“神奇跳线”。由于频率比真正的Quadro DCC更高,而且钛极3500等型号显存容量是Quadro DCC的两倍,因此在真正的专业应用中比NV的专业卡更加强大。
GeForce3的时代,主流显存容量开始由64MB向128MB过渡。然而当时能够生产供128MB显卡使用的816(8M×16bit)规格颗粒的厂商并不多,开始只有三星一家可以大量供货,所以钛极2200和3500我们采用的都是三星的颗粒。当然64MB的版本我们采用的还是钰创416规格颗粒。
GeForce3的整体设计对显卡的供电要求很高,因此我们也使用了INTERSIL的PWM。对于钛极系列而言,真正的成功还是在于“神奇跳线”。很多做动画的工作室都是成批的买我们的卡。在GF3市场后期,当时GF4 Ti4200的销售已经开始火爆起来了,NVIDIA开始清库存,向市场抛售一批20万颗GF3芯片尾货,虽然价格不高,但毕竟是过时产品,而且消费者一直对GF3系列产品没多大兴趣,没有太多厂商敢一次吃下这批货。
因为NV官方对于Quadro DCC显卡的定价是一万多元,而其频率不如我们的钛极高,显存也只有钛极的一半,所以它的价格实际已经非常便宜了,受到很多受资金预算限制的小型3D绘图工作室的欢迎是在情理之中。有几次我到广州和上海等地出差,路过一些3D绘图工作室,惊人的发现里面几乎100%使用了钛极3500,真是很受鼓舞!顺便提一句,有很多用户将钛极3500跳线为Quadro DCC后在为DX7优化的3D MARK2001软件下测试,发现得分还不如没跳线前高,因此纷纷责难我们的显卡在糊弄人。本人只想告诉大家,对于专业卡的测试必须用OPEN GL软件运行,才能得到准确评估。
不过这也导致其他厂商开始向NVIDIA投诉我们,说我们把GF3当Quadro卖是不正当的,NVIDIA开始也说“你们别卖了”这类的话,不过毕竟我们是在帮他们清库存,他们还能怎么样呢?
这批卡,单纯从办事处层面来说我们每片就能赚到20美金,也就是一两百元,虽然对于NV这样的芯片公司来说只是蝇头小利,但对于显卡生产公司而言算是非常高的利润了,我们再次体会到了技术的好处。
钛极4200,它把耕升送上了颠峰,然后又重重地摔进了谷底。
GF4 Ti4200是NVIDIA又一款极其成功的产品,公版的Ti4200普遍采用现代和三星的DDR颗粒。当然,我们的传统还是使用钰创的颗粒,可钰创颗粒的一种我们当时并不知道的隐秘特性让我们最终吃了苦头。
钛极4200
由于当时SAMSUNG和HYNIX的416显存颗粒最快速度只有4ns,而只有钰创推出了3.5ns颗粒,再加上钰创与我们的良好关系,所以使用起来顺理成章。不过起初钰创3.5ns的颗粒在Ti4200上面的表现并不是好,甚至出现黑屏问题而无法使用。为了解决这个问题,我们找来钰创的人,用示波器测量信号时序,按照示波器显示的脉冲信号逐个调整改动BIOS里关于显存的设定,这导致耕升Ti4200显卡上的BIOS和工板有很多地方不一样。为此我们还特意在很多测试以及行情文章里提醒大家不要乱刷新钛极4200的BIOS,否则可能有很多意想不到的后果。
但是即使解决了显存的兼容性问题,钰创3.5ns显存的超频上限也仅仅只能和4ns的现代颗粒持平,这让我们非常头疼,因为从GF2 MX时代开始耕升显卡的超频性能就遥遥领先别的显卡厂商。可以说当时耕升就是显卡性能优越的代名词,如果其性能如此平庸的话,不仅此卡没有卖点,而且会有损我们的名誉。
但是后来测试的时候又发现一个奇怪的现象——使用钰创显存的Ti4200在同频率条件下比使用现代显存的公版实际运行速度要快很多。台北的RD部分也没法解释这个问题。我自己用BIOSMODIFY以及DEBUG等方式查看它们的BIOS,发现我们的BIOS在显存CL值方面设定为5,而公版设定为6,这就是原因。
可能有人会觉得显存的速度比内存要快,因为显存现在都能上到1GHz以上,而内存还在400MHz,533MHz这一个档次徘徊。看上去内存比显存慢很多,但假如我们考虑到CL值的话,就不是这样了。因为内存一般是CL=4、3甚至2,所以频率很难上去,而显存的CL值很高,相应的频率就能上得很高了。显存颗粒和内存颗粒并没有什么不同,这么做的原因首先在于对显卡而言,频率的提升对整体性能的帮助更大;其次也是因为频率高了就吸引人,比较好卖,好宣传。
但是CL值低对于提升显卡性能来说一样有不小的帮助。钛极4200低CL值这个特点让我们如获至宝,赶快大肆宣传,总算不辱使命。这个卖点不是由我们的RD发现的,而是我这个显卡业余爱好者研究得出的,而我们台北的MARKETING部门却稳坐钓鱼台从不为产品的卖点着急,对产品的特性也不清楚。其实我们大陆那么多年几乎没得到过耕升MARKETING部门的任何实际支持,几乎都是独自作战,浪费了很多系统作战的优势。
在钛极4200当道的时候,公司的运行效率和创新意识也达到了颠峰。当时钰创应我们的要求推出了速度更快超频性更好的3.3ns显存,经过RD优化其OC后频率竟然可以达到650MHZ左右,简直可以和使用2.8ns MBGA显存的Ti4600抗衡。因此我们要求台北总部用3.5ns和3.3ns的显存区分两个版本的钛极4200,使用3.3ns并且加显存散热片的版本叫做钛极4200黄金版。当时这样的做法还是很少见,而加显存散热片的显卡在千元左右价位的更少,因此显得十分吸引人。后来这种同样的卡分两个档次,用显存速度和是否加散热片来区分,成为了我们的一个惯例,也变成其它显卡公司仿效的对象。
当我们和其他牌子的Ti4200还普遍卖到12xx元的时候,在一个星期四的下午,我听说有一家品牌的Ti4200价格可能会降到999元。收到这个消息后,谷毅直接给台北总经理打电话,打算也立刻调整到999元。最终我们在第二天也就是周五,就把所有的价格全部改掉,同时媒体也全面进行了爆料。
这件事情听起来很简单,但是熟悉显卡企业运做的人就知道,在一天时间内能把这件事情从想法变成实际,即使是对像七彩虹这样国内就有完整管理机构的企业而言,要做到也不容易。而且我们比他们还多了海外总部的制肘,因为首先要从台北总部开始核算成本和利润,盘算库存。然后新的价格需要通知到全国各地的大代理商和经销商,一直到各个零售柜台的报价,都要一级级通知并更改,如果有存货的话需要做价格保护。另外我们在各大网站上的广告BANNER也需要修改,还要通知网站在一天内同时做出详细报导,光其中的沟通工作想想就够可怕,我们的办事处区区不过六人而已,不过最终还是做的很漂亮。
结果我们降价之后,那家可能降到999元的品牌却并没有降,我们变成了第一个降价的,可笑的是那家本来可以抢占先机的品牌在遇到和我们同样的难题后,直到一个半月之后才处理完开始打出999的价格。所以在那个致命的问题出现之前,我们的产品卖得极其的火爆。由于产品卖点规划得好,价格又便宜,因此连续好几个月耕升在大陆的整体出货量都超过了4.5万片/月,其中Ti4200的出货量达到8.5千片/月,对于千元左右的高档显卡而言这个数量非常可观。这个出货量对于仅做N卡,而不是A卡N卡都做的品牌来讲,一直到今天大陆也没有其他品牌能做到,这种辉煌离不开之前我们在火狐以及GF3钛极上名声的积累以及设计上的宝贵经验。
这时问题开始显现了。也许很多人都认为那就是钛极4200的花屏问题,其实那只是钛极4200一系列问题中的一个。而我下面要谈的这个问题却一直都是个秘密,直到今天才正式公布出来。
在花屏问题暴露之前钛极4200的返修率就一直比其它产品高,达到了5%,而其他产品整体只有2-3%。这个原因是我们的台北RD为了提高超频能力,擅自将非公版的显存输出部分电容,从6.3V/680μF换成了两颗4V/1500μF电容。虽然容量大了,有助滤波,但是耐压值降低。在开机瞬间,启动电压冲击能达到标准2.5V显存电压的一倍,也就是5V左右,这时就容易出现损坏,所以论坛上一直有消费者反映此显卡的寿命问题,这是我们第一次面临耕升显卡竟然有如此高的返修率。RD随后更换了两颗6.3V 1500UF的电容后解决了问题,不过这已反映出RD的作风不如我想象的那么严谨,事前没有仔细实验就随便更改元件了。
大概在2001年6月份的时候,新西兰和澳大利亚就有钛极4200花屏问题的反馈。后来台湾的FAE过去把卡直接带回来试验。6月份的时候正是台湾最高温的时候,但南半球则是寒冷的冬天,所以在台湾我们无法在故障卡上复现这个问题,虽然大家觉得很奇怪,但是由于问题范围不大,并没有去深究。
到了2001年年底的时候,在德国的耕宇实验室也同样发现了花屏问题。当时我们才想到是否是低温导致。从问题产生到复现故障,就花费了半年,这也于我们欠缺经验有关:谁会想到不是高温而是低温引发显卡故障呢? 但发现问题之后,依旧没引起高层足够的重视。因为通过测试发现只有在摄氏5度以下显卡才会出现问题,但我们觉得普通家庭室内谁会在5度以下开机工作或游戏呢?而公共机房里面也都有空调。RD经过简单的测试后,只是单纯认为显存滤波部分的电容ESR值不够低,因此草草换了几个SANYO CV-EX系列LOW-ESR电容了事。
发生了这么重要的事情,台湾总部却没有任何人通知大陆有这个事情发生。仅仅发了一份ECN(工程变更通知单)给大陆管理维修售后部门。当时该部门负责人是一个台干(台湾来大陆工作人员),我个人认为那个人的人品和素质极差,这张单子发到他手里三个月都没有去理会。后来此人又要辞职,没办什么交接几天内就走人了,那张ECN是我们在花屏事件很久以后才发现的.
这个问题暴露出耕升的管理体制存在严重缺陷,因为问题原因和解决办法都早已经找到,但是延迟了这么长时间却都没有人去解决,最终才导致了国内用户的责难以及媒体的曝光。
事已至此我们开始回收产品。999元的钛极4200我们当时已经卖了5个月,所以一下就回收了4万片的产品,以单价1000元来计算的话我们的支出高达4千万元,从出货量来计算几乎是每一个人都退了,损失相当大。无条件退货这种事情就是龙头老大INTEL碰到都会头痛,对我们这样相对很小的厂商来说更是一件非常不容易的事,但谷毅还是决定坚持回收。同时基本上国内所有的报刊媒体都报导了这件事,使耕升这个品牌受到了严重影响,大家对其品质第一次开始怀疑。
整个事件今天回想起来除了管理人员的问题外,耕升的RD设计人员也的确缺乏一份责任感。处理问题不求甚解,只会就事论事。显卡花屏的技术原因有两个方面:首先钰创DDR显存颗粒对电容的ESR非常敏感,而三星和现代颗粒就不明显(这也是当时很多偷工减料Ti4200卡也没花屏的原因),其次是耕升使用的电容在低温下ESR会暴增。
在大批量生产钛极4200显卡时为了超频和采购方便RD将公版的330μF的钽二氧化锰电容,换成了1500μF的铝电解液电容。(关于电容的详细介绍和分析请参看本人拙作《完全电容讲座(一)》和《完全电容讲座(二)》,)前者ESR是100-150毫欧姆左右,后者是50毫欧左右(ESR越小性能越好)。但是在冬天,铝电解液电容的ESR开始随温度降低而增加,到10度接近0度的时候ESR爆增,变成了原来的几十倍,其实这是液态阴极电容的一种基本特性。钽二氧化锰电容由于是阴极是固态,因此ESR基本不会随温度下降而明显变化。但是当时并没人知道这个问题是导致低温花屏的关键。
耕升RD并不了解温度对电容ESR的影响,而认为花屏是因为电容本身的标称ESR还不够好。他们认为钰创显存也许会需要ESR更低的电容,因此换成了三洋CVEX固液混合型电容。虽然CVEX的ESR很少,只有20-30毫欧姆,但因为是固液混合型,阴极还是有液体成分,所以到了0度左右的时候ESR还是增加不少,在某些很冷的环境中,无法彻底杜绝花屏问题,这导致了少数用户更换了显卡后还是花屏,只好让RD重新研究解决问题。
RD的想法却是ESR还是不够低,因此换成了极其高档的铝PPY(聚吡咯)OSCON电容,才杜绝这个现象。虽然阴差阳错的解决了问题,但如果知道症结的话就完全没必要,只要换成普通中档固态电容就可以了,比如常见的插件式的铝TCNQ OSCON固态电容,其价格甚至比CV-EX还低。
事实上,台湾耕升有的RD人员直到公司被同德收购了,还没了解这个现象产生的根本原因。以前象电容这样的小元件都是不被重视的,但是如今显卡的频率太高,在广泛使用高频电路时很多问题才开始暴露。如果我们不追求价格和成本的话也可以不研究,只要用最好元件的就行,但我们是耕升既要追求成本,要卖低价还要有最好的性能,就要追求性价比的平衡,花小钱办大事,这对RD来说要求很高。
在这件事之后,我们花了很多钱建立了一个低温实验室,每款产品都要做低温实验,而之前我们只做高温实验。这是耕宇所做唯一亡羊补牢的事情,而没有深入去检讨每个细节。
直到今天还有很多人认为耕升这个牌子是被媒体打败的,其实是败在自己的手下。如果不是用钰创显存,如果一直用钽二氧化锰电容,如果能早复现问题,如果能早把ECN发给我们,如果RD能早点彻底解决问题,如果……。只要其中任何一个“如果”能实现的话,就不会有那噩梦一样的花屏事件产生。可世界是残酷的,从这些现象反映出,耕宇的好日子没几天了。不过当时在形势一片大好的情况下,问题即使暴露出来,解决的速度也不快,因为之前一段时间耕宇在全球的销量很大,而NV在很多大会上都对耕宇提出了表扬。所以大家都沉浸在自满当中没有人去重视。但是到了问题严重的时候,解决问题所花的成本就很大了。
到了今天想想:象我们这样一个存在严重管理问题的企业是注定要被淘汰的,只是早晚而已,其实天堂和地狱只是一线之隔。
《黄金时代 经典显卡的幕后秘闻》将作为连载的形式刊出,如果您对本文有兴趣的话,不妨继续期待后续文章。
如果您有任何想法请来信至wp@pcpop.com<