HD5800辉煌的根本 RV870背后研发故事
泡泡网显卡频道2月27日 AMD第一代DX11产品已经全线发布上市,对市场乃至整个业界造成的影响都有目共睹,然而在辉煌的背后,是无数伟大的工程师辛勤工作的背影。国外权威硬件媒体AnandTech在9月份HD5870的发布会后,了解到了RV870(Cypres)芯片研发的过程,并撰文《The RV870 Story: AMD Showing up to the Fight》。下面,就是这篇记录着大量RV870研发过程文章的中文版,虽然长达10多页,但按照作者的话说这仍然只是故事的一小部分而已。
电话
我与AMD PR之间又爱又恨的关系一直持续到去年,但最近,恨的成分大大减小了。让我们回到2009年夏季,我当时在好几个星期内都在等AMD的电话。
我们都知道,RV870将要在09年底的某个时候发布,我们通常在得到新产品硬件的前1个月进行新产品的简报。那时谣言说,这次发布已经被推迟,但就像钟表准时一样,我在去年6、7月间接到AMD电话。这是我的老朋友,AMD PR:Chris Hook。
这一次,他希望我去参加在加利福尼亚海岸边一艘航母上举行的发布会(叹气……)。
这并不是说我对航空母舰本身有任何意见,当时我脑中所关心只有期待已久的RV770继任者。RV770毫不含糊地恢复了我对ATI图形芯片的信心,当时其它媒体人也有类似的感觉。但我当时觉得在航母上发布新产品并非正式。但是, AMD公司向相关单位和其合作伙伴承诺,他们将邀请大量全球重要媒体参加发布会。我们也从AMD那里获得了保证,即可以和相关技术工程师交流,获得有用的信息。
美国海军大黄蜂航母, HD 5800 GPU就在那里
晚宴 - 2009年9月
我不得不早些离开。华硕董事长施崇棠在我离开奥克兰之前,恰巧有机会和我见面。每当我们恰好是在同一个城市,我们会尽最大努力满足我们见面的需求,我是不会让他失望。同样,史蒂夫乔布斯是成功的,因为他是一个心里装满产品的家伙,运行着以最好的产品著称的公司。施崇棠是心里装满工程的家伙,他开办着在工程方面卓越知名的公司-Asus。这不只是又一次例会,这是一次见面会,见面的2个人有着相同的热忱。施崇棠的重点不是赚钱,是工程,这是一个难得的享受。
我的车在外面等我,我关闭我的笔记本电脑,确保我已经保存了晚餐上记录的13页内容。之后我就和下面这个人握手:
在我离开之前,他要求我做一件事。他说:“尽量不要把我加入故事当中。大量工程师勤奋工作才让这款芯片真正问世。”和Jonney一样,Carrell Killebrew有他自己的特点,使他在这个行业成为完全少有的家伙,伟人都是这样。他们都拥有自己的历史,并把他们带到的他们现今工作的公司,他们今天的工作,他们的人格特质加以组合,让以他们有自己独特的气质。对于Carrell Killebrew来说,他集智慧,务实,热情和谦恭于一身,这是非常罕见的。他也是一个真正的好人。
Carrell Killebrew并没有参与研发RV870,但他帮助RV870取得成功。下面是RV870故事一小部分。尽管这篇文章超过8000字,我还是将其称作是一小部分,因为数百名工程师研发RV870多年,其中的故事无法在此一一讲述。RV870和业内其它所有GPU产品一样,都是业内最优秀工程师毕生的心血作品。他们是我们行业的英雄,我希望能公平公正地讲述他们的故事。
为了展示RV870的研发历程,我们必须从几年前讲起,一个全新的图形处理器从研发到上市可以花费2至4年时间。因此,要了解这款Radeon HD 5800系列(RV870)产品,我们要从2005年开始回顾。
命名花絮
AMD公司在上代图形处理器上,就希望摆脱传统的命名方式。据AMD称,不存在所谓的RV870图形处理器,尽管在过去几年当中, Carrell Killebrew、Eric Demers等无数人提到它。如同大多数的变化,我们通常需要一段时间来适应,因此,尽管RV870并不存在,我们这些人还是习惯性地称呼Cypress(Radeon HD 5800系列)为RV870。
为什么AMD要改变命名规则呢?因为让一个GPU家族的每个成员都有一个单独的名称,这样可以让竞争对手产生混淆。我们可以很容易地知道,RV870是RV770的接班人,但是,我们很难描述Cypress到底是个什么东西。
下面的图表给出了AMD 40纳米DX11 GPU的全部阵容及其研发代号:
GPU | Codename |
ATI Radeon HD 5900 Series | Hemlock |
ATI Radeon HD 5800 Series | Cypress |
ATI Radeon HD 5700 Series | Juniper |
ATI Radeon HD 5600/5500 Series | Redwood |
ATI Radeon HD 5400 Series | Cedar |
在RV5xx之前ATI没有真正做好这件事情,而这个家族严重的延期改变了这一切。它真正意义上强行限制了功能蔓延,要知道硬件的缺陷比软件要糟糕的多(芯片越大越不好调试和销售)。
PRS文件
在ATI那里,有一个文件名为产品需求规格的文件,简称PRS,这本来是一个大的文本文件,用Word撰写。
该文件的目的是为正在设计的GPU收集所有必须加入的功能,并尝试加以排序。这个文件当中有一系列第一优先的功能,通常情况下,第一优先的功能很少会被废止。文件当中接下来的是第2优先,第3优先,第4优先等功能。数字越大,被加入最终GPU的可能性就越小。
当Carrell Killebrew首次加入ATI,他当时的老板Dave Orton就让他负责修改这个文件。Dave Orton要求Carrell仔细修订这份文件,它是ATI图形芯片未来希望的一份清单。这份文件将市场需求和研发能力结合,Dave Orton希望这份文件让市场部和研发部所有人为其买账,并按照文件规定的内容去做事。
Carrell于2003年加入ATI,但ATI制定PRS文件的方式在2005年之前一直没有变化。直到2005年。
R5xx如何改变ATI
在RV770的故事中,我谈到了关于因为ATI的R520延期如何产生了连锁反应而影响了一切,这种影响一直持续到R600(包括R600)。在ATI R5xx的同一时期(2005年),ATI从根本上改变其设计理念,即ATI由市场时间表来驱动。
ATI R520的架构,这个架构延期上市
市场通常有很大的凸点,你最好可以驾驭这些凸点,比如每年第四季度的圣诞节假期,或DirectX 和Windows新版本的发布,这些都是在市场上重要的凸点。OEM笔记本电脑设计周期也很重要,您的产品必须和其保持一致。你必须在这些凸点有所行动。 ATI的Eric Demers(现为AMD图形部门的首席技术官)对以上现象有所总结:如果你不出现在战斗当中,默认情况下,你就输掉了战斗。
ATI转向由市场时间表来驱动,意味着图形芯片功能列表必须受到控制。这意味着Carrell不得不做一个令人难以置信的工作,即起草PRS文件。
这些转变的结果就是所谓“80%规则”,即PRS清单上的功能按时出现的可能性只有80%。每个人,每一个高级工程师都参与其中。市场营销和产品经理们有机会要求他们想要的,但是不会得到如期在产品上实现的承诺。
这种规则改变了很多东西。
首先,它增加了工程团队信心水平。“80%规则”有人性的一面,让工程团队每一个人免于丧失信心和执行力,有助于提升士气和信心,让工程师更加热情地来尝试达到生产部门制定的这些目标。
第二个变化是,PRS文件上列出的功能更容易被废弃。PRS文件当中通常会列出200多项预期功能,但是在ATI R5xx之后,PRS文件上最终功能清单通常在80个左右。
在过去,ATI都会想办法适应新功能和客户的新要求,但R5xx的改变意味着如果某个功能会推迟工作计划,那么就不会加入该功能。最近,Intel也改变了设计政策,指出加入芯片当中的功能必须以1%的功耗增加换取2%的性能提升。ATI现在的设计哲学是任何功能均不能阻碍发布时间表,而在RV5xx之前ATI没有真正做好这件事情,这个家族严重的延期改变了这一切。现在的策略真正意义上强行限制了功能蔓延,要知道硬件的缺陷比软件要糟糕的多(芯片越大越不好调试和销售)。
制造一个巨大的RV870
虽然Radeon HD 5800系列在去年9月发布,但是ATI早在2006年就是开始讨论RV870的架构和制造。
到2007年,ATI已经拿出EverGreen家族产品的粗略轮廓。 ATI那时对DirectX 11和微软Windows 7发布时间表已经心知肚明,只是不知道具体发售日期,但ATI知道什么时候开始为DX11和Win7作准备。这将是另一次市场的凸点,ATI必须为此做好准备。EverGreen家族必须在2009年第3季度发布,但是EverGreen家族应“长”成什么样子呢?
Carrell希望RV870是另一个RV770。他对他较早之前提出的设计充满信心,他要产品在功能上苗条和价格是不昂贵的。
公关通常很不喜欢被媒体追问为什么产品性能不是最强这类话题,特别是在性能为王的市场当中。ATI市场部不再想要另一个RV770,他们希望NVIDIA杀手出现。当时,没有人知道RV770将是NVIDIA的杀手,他们以为他们只需制造面积庞大的芯片。
AMD新GPU战略,但只适用于RV770。
从2007年8月到11月,Carrell Killebrew非常想撒手不干。因为NVIDIA要造一个大芯片,所以ATI考虑制造一个大尺寸RV870的争论,的确激怒了Carrell Killebrew。一年之前在研发RV770上,他也为此进行过激烈的思想斗争。但是,伟大领袖的一个标志,就是真正相信自己。Carrell相信他的RV770策略是正确的。
大尺寸的RV870对ATI来说或许不是坏事,因为它可以让习惯小尺寸 RV670、RV770的NVIDIA大吃一惊。
虽然今天我们知道小芯片战略的确有用。但是,当时ATI不制造另一个RV770也是合情合理,如果另一个RV770已经有巨大的风险,那么走大尺寸芯片路线又有何妨?此时的ATI需要有清醒的头脑出现。
芯片尺寸规模比较
那么PRS文件最终版并没有给出芯片尺寸规格。Carrell同意RV870性能至少2倍于RV770。我把这种妥协称为“跛脚妥协”,因为那时工程团队把此看作是为建造大尺寸芯片大开绿灯,他们准备兴建边长至少20毫米的芯片,后来他们又因为新功能加入,将边长规划提升到22毫米。
Carrell这时候已经不相信大尺寸芯片。这并不是说大尺寸芯片难以研发制造,问题在于将600美元大尺寸GPU缩减到200美元主流产品太花费时间。AMD公司认为,最重要的市场是性能主流市场,出货数量和收入可以同比增加。
Carrell决定先向200美元~300美元的性能主流市场推出新产品和新技术,然后再将产品扩大或者缩减,提供给高端和低端市场。
RV770 的风险是芯片结构和显存技术。而RV870的风险在于芯片结构和制造工艺,后者完全超出AMD公司的控制范围。
早期Carrell认为,台积电40纳米工艺不够成熟,其成本将大大高于预期。虽然他现在没有详细谈及当时的感觉,但是Carrell告诉我,台积电40纳米工艺看上去很美,实则不然。我会在文章后面谈到这个问题。
Carrell勉强赞同一个400+平方毫米RV870的计划,因为他相信,当工程师清醒过来并认识到成本不会便宜,他们就会有一个新的讨论。
2008 年初,即将进入2月份的时候,台积电开始放风,暗示ATI对40纳米工艺成本不要过于乐观。工程师从台积电回来之后说RV870将是相当昂贵的产品,并且再审视一下RV870的架构。
而这正是他们后来所做的事情。该小组和 Rick Bergman见面,但是被后者的妥协难住了,Rick Bergman坚持RV870的性能必须至少2倍于RV770,但芯片尺寸必须下降。 ATI最终在2008年3月改变了Cypress(高端,单GPU RV870)的架构。
此时ATI的确展示了他们的风采和两条信念:一、不要拖延既定时间表,二、停止设计最大尺寸的GPU。然而,为了保持第二条信念,他们不得不牺牲第一条信念。
你必须明白,在产品发布前一年半去改变一个芯片配置,这意味着搞砸了一切。 RV770发布的时候,RV870的设计应该是尘埃落定,不能有一丝更动。是一成不变的。但是,现在ATI却必须回去重做RV870的架构设计,这至少需要几个星期,甚至一两个月时间,这就影响到RV870既定发售时间表。 ATI不得不极其努力地工作,以尽量减少对发售时间的影响。
记住,ATI已经定下的政策,即无论如何不能影响发售时间表的政策。因此。工程团队和Rick Bergman都拿出很大勇气来接受重新设计RV870所花费的时间。如果你不出现并且战斗,那么你已经输定了。这正是ATI同意重新设计Cypress的风险。
同样,NVIDIA公司也清楚DX11/Windows 7的发售时间表,NVIDIA公司非常清楚费米需要的功能,因此决定让费米延后推出,而不是和微软同步推出产品。AMD冒着延后的风险,以便缩小RV870的尺寸,而NVIDIA公司则是干脆延后,以便制造尺寸更大的图形芯片。在这点上,两家公司大相径庭。
RV870的实际架构
此时,ATI工程师挠头不已,因为RV870尺寸在大幅度缩小的同时,必须提供2倍于RV770的计算能力。因此,功能和架构必须做出改变。
Carrell失去了他的“珍爱”:不得不向Sideport说再见
老实说,与Eric Demers和Carrell Killebrew共进晚餐,是我和ATI合作以来的非常好的体验。
Eric Demers在晚餐当中,向我详述了他们如何把RV870尺寸,从400平方毫米削减到334平方毫米,来获得美妙的最终产品。我打断了他,我让他们举个例子,他们是如何对某项功能忍痛割爱的。通常来说,PR是不会向外人透露他们割舍的功能,他们喜欢谈论产品保留下的功能,并且将它们夸大,使一切听起来像一个精心策划的行动。幸运的是,我不准他们在我的晚餐上谈论市场营销。
Eric Demers转向对Carrell说:“我知道一个特点,我们可以谈谈。”
“Sideport”。
Carrell回答说:“天哪,这完全不公平。” (注意,Carrell这话不像一个少女的声音,你可以想象工程师来说这句话)
当ATI第一次和我讨论Radeon HD 4870 X2,他们告诉我们一个功能叫做Sideport。每个RV770图形处理器都可以借此进行GPU-GPU之间的通讯。
Sideport工作示意图
ATICrossFire交火技术在交替帧渲染模式(AFR)当中,两个GPU无需交互通讯,但是如果你想要让他们腾出精力进行交互通讯,CrossFire交火性能就会严重降低,因此,ATI设计出Sideport这种东西,来缓解交火性能的损失。
不幸的是,由于功耗等原因,4870x2显卡从未使用过Sideport功能。 ATI公版设计已经屏蔽Sideport,并且所有的AIB厂商均遵循ATI的公版设计。
Sideport是Carrell Killebrew最喜欢的功能,现在,他不得不放弃Sideport。
2008年初,ATI认识到他们不得不将边长20~22毫米的RV870削减为边长18mm的芯片,每个人都不得不放弃一些东西,Carrell是小尺寸RV870的极力倡导者。
我与Carrell在Sideport上的部分谈话,应要求没有记录下来。不过, Sideport应该是有益于RV870,但它不幸被放弃了,不过,Carrell也告诉我,如果我在某个时候看到Sideport重出江湖,也不要感到惊讶。 Carrell不会轻易放弃Sideport。
如何做到在6个月时间内发布4款产品
经过艰苦的工作和牺牲,ATI将RV870尺寸削减到18毫米x 18毫米。问题是,RV770芯片边长16毫米左右,RV870的尺寸仍然过大。
Carrell要求进行更多的削减,但是有两件事改变了他的主意。首先,为了按照RV770尺寸建造RV870所做的功能牺牲超过Carrell的预计,并且将牺牲部分着色核心。
另外,为了让GDDR5显存数据传输率达到既定目标,他们必须增加RV870芯片上的模拟物理层面积,如果RV870侧边还维持在16毫米,他们将不得不缩减显存带宽或者牺牲着色区面积,这样我们只能得到性能降低的产品。
我问Carrell:“16毫米边长是否可以让RV870发售价格降低100美元,向便宜的RV770看齐”。而他的回答是不能,我一直到后来才知道为什么不能。
牺牲性能,以满足16x16毫米芯片尺寸的目标是不会发生的,但最终说服Carrell顺应更大芯片的东西,是要在不到6个月内,发布4款不同的40纳米DirectX 11 GPU产品。
请记住,Carrell一直宣导的理念,即制造最大尺寸GPU,将让绝大多数客户花费更长的时间来等待衍生产品。看看NVIDIA花费了多长时间来推出G80或GT200的衍生产品?谁知道,我们什么时候可以看到150美元的费米GF100衍生产品。
但ATI工程团队承诺了两件事。第一,Cypress的衍生产品Juniper,将在同一时间为发布做好准备。第二,Cypress发布之后,ATI还有2个衍生图形处理器产品可以发布,并且整个Evergreen家族产品将在6个月内完成全部部署。 ATI 2008年在3个月内发布了3款GPU,而4000 系列的第四个成员直到2009年4月才完成发布。
这不是不可能的事情。ATI在印度、中国都有并行设计队伍和很多工程技术人员。如果中途没有bug产生,ATI完全可以将Juniper团队和Cypress团队工作衔接,提升家族产品研发效率,并且他们基本上是在相同的硬件上工作(Cypress架构砍掉一半就是Juniper)。
不过,在Carrell看来,这种行动有巨大风险,并且让他感觉不舒服。他认为,并行设计同一家族的两款产品是有风险的。如果一切顺利,你就会在同一时间得到两款产品。如果设计不顺,你就将两个团队陷在1个产品世代开发上,会让ATI得到自己的“费米”。
但是,当工程团队告诉Carrell,他们认为一切会顺利发展,Carrell就给与他们充分的信赖。在Carrell紧张地签字同意工程团队的计划之后,EverGreen家族就诞生了。
最终,Cypress和Juniper几乎在同一时间问世。事实上,Juniper准备得更早一些,是对开在ATI发布5000系列几个月之前,ATI就将Juniper样品交付给相关的开发者了。Cedar和Redwood也在随后顺利发布,更遑论双Cypress,即Radeon HD 5970。而这一切都在不到6个月内完成发布。(芯片本身都在4个月内准备完毕)。
当硝烟散尽,ATI在400美元、300美元、200美元、150美元、100美元和60美元的价格点上都有了DX11新产品,很好地契合了Windows 7/DirectX 11市场凸点。
迈入40纳米的代价
这部分内容几乎可以独立成章,但它对Cypress和整个EverGreen家族产品有直接影响,值得在这里说一说。
现在你可能已经听说台积电40nm工艺存在问题。这些问题现在已经解决,但是这些问题导致了Cypress芯片在去年可怜的产量和慢于预期的部署,它同样导致NVIDIA Fermi/GF100延迟。我下面想谈谈迈入40纳米工艺的事情,以及40纳米工艺为什么那么困难。
对无晶圆厂的半导体公司来说,最大的问题是,在新产品研发上,你必须对付一打供应商,比如显存厂商、元件制造商和知识产权厂商,你还必须处理与代工芯片生产商的关系。更糟的是,每一年左右,你的代工合作伙伴就会启用一个全新的进程让你使用。
代工厂商总是以相同的论调来说服你使用他们的新工艺,比如芯片尺寸更小,运行速度更快,能耗更低。你的代工合作伙伴总是希望你尽快购买其最新最贵的制程和工艺。他们要你在实际准备好之前,就掏钱购买他们的工艺。
但是,通常的情况是在你付钱之后,你的代工厂商会提出设计规则和提示清单给你,如果你遵循所有的准则,代工厂商就保证他们能够生产你的芯片。换句话说,做我们告诉你去作的东西,你的芯片就会量产。
Global Foundries 2010年至2011年芯片工艺路线图
问题是,如果你遵循这些设计规则和暗示,结果是你的芯片在新工艺上的速度不会比旧工艺更快,产率也不会比旧工艺更高,但是你的成本会更高,因为你在设计芯片的时候轻信了代工厂商的暗示,让芯片面积膨胀。
一般工艺节点之间的晶圆大小不会改变。之前200毫米晶圆使用了很长时间,现在才进化到300mm晶圆。晶体管尺寸并没有缩小,因此从理论上讲,每代新工艺晶圆可以容纳更多的芯片。
任何新的制程都存在晶圆成本上升问题,这是由新制程复杂程度决定的。如果晶圆成本高出50%,那么你需要在每片晶圆当中至少多放入50%的芯片,才能让成本和旧制程持平。现实中,实际上想要多放入50%以上的芯片,因为需要考虑产率问题。如果你遵循代工厂商制定的保证产率的准则,你甚至不会接近收支平衡。
最终的结果是你从新制程当中的获益为零。这不是使用摩尔定律来获利的公司的选择,当然也不是GPU公司的选择。
这种问题的解决之道是,在你的公司有一些非常聪明的人,可以把代工厂商的这些设计规则和暗示归纳分析,并找出哪些可以忽略,以及如何解决剩下的规则和暗示。在这个领域当中,ATI和NVIDIA的做法有很大不同。
工艺与结构:ATI与NVIDIA之间的差异
从NV30(GeForce FX)开始,NVIDIA公司就没有率先采用新工艺和新制程的先例。NVIDIA选择在芯片架构设计上投入更大的资源,而不是让大量工程师来对付新工艺和新制程。ATI则是相反,他们不害怕更新的工艺,将更多的工程资源来应付制造方面的问题。这两种方法都是正确的,他们都有自己的权衡。
NVIDIA的方法意味着他们在成熟的制程当中也可能翻船,并且意味着在重大进程之间的转换当中(如55纳米到40纳米),NVIDIA将没有竞争力,因为它需要花更多的时间来调整芯片,使其结构更具竞争力。
NVIDIA公司历来认为应让ATI承担跳跃到一个新工艺或新制程的所有风险。一旦这个新工艺或者新制程成熟,NVIDIA才会迁移到其上。这对NVIDIA公司有好处,但这也意味着,当跳跃到一个新工艺或者新制程上,ATI拥有比NVIDIA更多的经验。由于ATI比对手更早采用不成熟未经证实的新工艺和新制程,因此ATI需要奉献更多的工程师来处理新技术和新制程方面的问题,以减轻风险。
在跟我说话当中,Carrell很快就指出,生产工艺之间的迁移,并不是所谓的“过渡”,因为,过渡意味着从一种技术平滑地渐变到另一中技术。但是,在任何重大晶体管节点技术之间迁移(如55纳米到45纳米,而不是90纳米到80纳米),它是更像是跳跃而非过渡。你准备跳跃之前,通常尽量准备跳到你希望的地方,一旦你的脚离开地面,你就没有什么可以控制了。
任何制程节点之间的跳跃风险都很大。作为一家半导体制造商的窍门是如何减少这种风险。
在某些时候,制造商都必须以新的工艺节点制造芯片,否则,往往就会面临被市场淘汰的危险。比竞争对手落后多代制程,意味着你的芯片业务已经完蛋。现在问题来了,即你如何判断什么芯片应该采用新制程,什么芯片不应该采用新制程?
对于这个问题,我们有两个流派可以选择:大跳跃或小跳跃。它们之间的差别即你在跳跃当中选择的芯片尺寸大小。
小跳跃的支持者们认为,在新制程当中,缺陷密度(晶圆每单位面积的缺陷数量)对跳跃不利,晶圆当中将分布大量的缺陷。为了尽量减少高缺陷密度的影响,芯片尺寸应该尽可能小。
如果我们有片晶圆,可以容纳1000个芯片,其表面有100个缺陷,那么芯片坏损比率为10%。
假设晶圆有7处缺陷,芯片采用小尺寸设计,那么芯片受缺陷影响的幅度就不大
大跳跃,自然是相反的。你在新工艺上使用大尺寸芯片设计。现在,不是1000颗芯片分享100处缺陷,而是可能只有200颗芯片分享100处缺陷。即便缺陷均匀分布(实际上不可能),缺陷芯片的可能性暴增到50%。
假设晶圆有7处缺陷,芯片采用大尺寸设计
单从产率上看,我们没有采用大跳跃的理由,但是大跳跃也可能会带来好处。
理由很明显,如果大跳跃芯片(比如干掉竞争对手旗舰产品的产品),可以为你带来比小跳跃芯片更多的利润,你何乐不为呢?
作大跳跃更重要的原因,居然是不作大跳跃的理由。因为,更大的芯片,更容易暴露新制程和新工艺中隐藏的问题,大尺寸芯片面临着更多的失败几率,你就会得到更多的机会,来了解这个工艺当中存在的早期缺陷。
大跳跃对产品来说非常危险,但是它给你学习的机会,然后可以使用同一制程和工艺来大批量生产未来产品。
作为第一款40nm图形处理器,ATI选择了其路线图上可以承受的最大尺寸的芯片,这就是RV740(Radeon HD 4770):
2009年4月发布的第一款40nm产品-ATI Radeon HD 4770
然而,NVIDIA却选择了更小的芯片。虽然RV740面积是137平方毫米, NVIDIA的第一批40纳米产品是G210和GT220,面积分别是57平方毫米和100平方毫米。在G210和GT220在它们出生后最初几个月内只向OEM厂商出货,我猜想G210在这些订单当中的百分比更大。请注意,直到GeForce 240发布,NVIDIA 40纳米芯片的大小才等于RV740芯片的大小。GT240在2009年11月发布,而Radeon HD 4770(RV740)在2009年4月就已经发布,比GT240提前了7个月。
NVIDIA第一款40纳米图形处理器在2009年7月出货
当ATI和NVIDIA将高性能图形处理器制造工艺迁移到40nm的时候,ATI公司有更多的经验,在大尺寸芯片工艺上和台积电有更多接触和经验教训。
ATI当时的图形工程副总裁David Wang,在RV740设计过程当中,打电话给Carrell表达对台积电40纳米工艺的担心。他担心制造过程中的金属处理可能导致芯片的Via质量问题。所谓Via,是指芯片不同金属层之间的微小连接。当时台积电40nm的Via失败率如此之高,影响这一制程的产率和产量。即使Via不会完全失败,也会降低通过的信号质量。
David Wang对于台积电40nm工艺担心的第二个原因是有关晶体管的尺寸变化。半导体设计当中有成千上万的尺寸需要你去担心。无论采用何种制程和工艺,芯片和芯片之间在尺寸上有许多差异,David Wang特别担心制造晶体管沟道长度的变化。他担心台积电40纳米工艺在尺寸差异上的问题,将超出ATI公司的忍耐程度。
1个标准的CMOS晶体管,其尺寸误差程度有相当严格的要求
台积电当时试图让ATI相信,沟道长度的变异会相对较小,当时Carrell和工程团队对此都非常紧张,但他们对此也无能为力。
当时,芯片金属层之间Via问题容易解决(但代价昂贵)。David Wang决定将RV740芯片当中的Via数量翻倍。在设计中的任何连接两个金属层的地方都有两个Via,这样就让RV740的芯片尺寸增加,但是总比芯片不工作要好。但是,沟道长度差异的问题依然存在,没有立即的解决办法,这是他们的忧虑,但或许是不合理的恐惧。
台积电晶圆去进行RV740初步的流片。当芯片样品回到ATI,ATI发现它们的工作热量超出ATI预期,并且它们的漏电问题也超过ATI预期。
工程团队立即去工作解决问题,他们将芯片样品一个一个分析,他们没有花多长时间就看出晶体管通道的差异度超出最初规定的容忍度。如果晶体管通道差异度到达一定程度,那么生产出来的部分芯片工作频率低于预期,而其它芯片的漏电问题或许会更加严重。
工程团队终于想出解决的办法,通过在RV740设计上做出一些更动,来消灭大多数的漏电问题。但是,性能仍然是一个问题,而RV740由于花费大量时间在如何解决各种生产问题上。不过RV740对ATI来说意义非凡,它为Cypress和其它EverGreen家族产品的成功铺平了道路。
至于RV740的曲折道路如何影响NVIDIA公司,我们目前无法给出答案。但是,谣言似乎都显示,NVIDIA公司在40纳米上的经验根本无法和ATI相提并论。去年12月,NVIDIA公司公开对台积电表视不满,并且要求台积电在Via上做到接近零缺陷。
费米的谣言也印证了ATI RV740遇到同样的问题,即产量之低,发热量之高,工作频率之低都超过预期。我们现在还没有看到任何费米出货的迹象。
当我问NVIDIA,为什么Fermi/GF100会延期到如此之晚,NVIDIA指出问题出在架构部分,而不是在芯片制造部分。当然,如果Fermi/GF100延期的确是NVIDIA 在台积电40纳米工艺上所付出的代价,那么我预计其继任者会去更顺利的推出。
这并不是说台积电不知道如何运行它的代工工厂,但也许该公司在40纳米跳跃得有点过头:
Process | 150nm | 130nm | 110nm | 90nm | 80nm | 65nm | 55nm | 40nm |
Linear Scaling | - | 0.866 | 0.846 | 0.818 | 0.888 | 0.812 | 0.846 | 0.727 |
你会记得在 Cypress讨论当中,Carrell相信台积电40纳米工艺成本不算便宜。然而当时,无论是在ATI或NVIDIA,几乎无人赞同Carrell的看法。我问Carrell为什么会有这种情况,为什么他可以知道很多人不知道的内情。
Carrell将其归结于他的经验,并讲述了一堆我不能在这里发表的内容。不用说,他对台积电40纳米工艺持更加怀疑的态度。不过,一个团队当中有怀疑者并非坏事。
AMD防止间谍:Eyefinity项目完成的过程
Carrell Killebrew对RV870的成功还有一项贡献,即他一手负责将Eyefinity技术带入整个EverGreen产品线。
这个过程是这样开始的。所有图形处理器厂商都会去拜访他们的客户(OEM),问客户需要在产品当中加入什么功能。于是笔记本电脑厂商想要一个GPU可以支持6个显示输出。虽然他们只需同一时间内有两个显示输出端在工作。两条输出链路可用于液晶显示屏,两个输出链路可以用在外部输出(VGA+DVI / HDMI),另外两个输出链路可以连接坞站。
Carrell认为如果这些输出引脚不能同时工作,那就是一种耻辱。于是他心中顿时有了一个计划时,必须让任何EverGreen显卡至少可以同时驱动3台显示设备,高端EverGreen显卡甚至可以同时驱动6台显示设备。
他这种想法并非单纯出自于疯狂,Carrell心中一直有一个目标。在接下来的六年中,他希望ATI可以拿出第一代holodeck(全像图形显示)业务。第一代holodeck将由一个180度半球形显示器和精确相位声音系统组成。当然,我们还需要像素推动力量,使这一切看起来栩栩如生。这需要至少1亿像素才能实现,700万像素在你的正前方显示,9300万像素在场景中其它部位显示。像素数量是一台30英寸显示器的25倍。
我们还没有到达2016年,所以他不得先从其它地方着手。而Cypress正好是他要的。每片HD 5000系列EverGreen显卡都可以同时支持最低3台显示器最多6台显示器。今天,我们知道这项技术的正式名称是Eyefinity。但内部,Carrell称之为Sunspot(太阳黑子)。
Carrell 不希望任何人知道“太阳黑子”这个研发代号。所以他一直没有把太阳黑子放入PRS文件当中。通过一些非常聪明的操作手法,他设法让“太阳黑子”隐身于“雷达”之外,即便Cypress工程师已经将PRS文件翻烂。Carrell甚至在RV870缩小芯片尺寸之后,还保守“太阳黑子”这个秘密。他知道,如果有人获悉还有“太阳黑子”这个功能,工程团队在缩小芯片的过程当中就疯狂到杀人。更糟的是,如果亲信之外的其它人知道这个东西,NVIDIA可能就会获知“太阳黑子”,并且有时间将其拷贝到费米当中,当时,Carrell的首要工作就是尽可能保守“太阳黑子”这个秘密。
不过,后来“太阳黑子”工程从一份名单开始,在这个名单上列出了需要了解太阳黑子的人名,如果你的名字不在名单上,不但你不知道“太阳黑子”工程,而且知道“太阳黑子”工程的人士,也不允在你身边谈论“太阳黑子”工程。当时,ATI有一个内部网站,上面列出了需要了解太阳黑子的名单。
有关“太阳黑子”的一切,都按名单办事
正如我刚才所说的,在名单上的人都严禁在不知道“太阳黑子”的人面前谈论“太阳黑子”工程。如果你想要在名单当中添加新人,必须得到ATI批准,并且最终由Carrell说了算。
名单完成后,太阳黑子项目的工程师立即开始研发,只有在绝对必要的时候才让相关人士加入研发小组。该小组由最初的一个人发展到多人,并最终趋于平稳。而Cypress团队当中的软件工程师直到最后一分钟才知道太阳黑子项目存在。 Carrell只是给他们足够的时间来为太阳黑子编写驱动程序和其它相关程序,他们没有预先得到详细资料。
Carrell这时候去找David Glenn,ATI软件工程负责人,让他给出完成相关驱动程序和软件研发的最后日期。David Glenn给了他一个日期,Carrell 然后要求David Glenn给出必须知道太阳黑子工程的相关软件人员名单,David Glenn给了他三个人名。在这一天,太阳黑子团队找来这3人,并说“我们需要告诉你一件事”。不用说,没有人对Carrell的保密感到高兴。那时,ATI高层部分人士知道Carrell召集一些人在进行一个项目,但是他们对具体内容一无所知。
这就是最终让Eyefinity成功运作的软件
在他自己的地盘上,Carrell总是以代码在谈论太阳黑子。他将太阳黑子称作“功能A”,称Carrell有充分的理由这样偏执,坐在Carrell办公室另一边的某位人士,在“太阳黑子”项目开始几个月之后就跳槽到NVIDIA工作。总之,太阳黑子项目研发过程当中,ATI有3人离开并跳槽到NVIDIA工作。Carrell相信,NVIDIA公司当时对“太阳黑子”项目一无所知。
当时,Carrell对“太阳黑子”的保密的确遇到了棘手问题,为了让Eyefinity工作,他需要从外部公司获得支持。如果你还记得,Radeon HD 5800系列发布同时,三星电子宣布超薄边框显示器将以1,3或6个面板的配置专门为Eyefinity出货。当时和诸如三星电子等OEM厂商洽谈的时候,根本没有办法对“太阳黑子”项目保密。如果说了,那ATI内部可能就会有人泄露“太阳黑子”给NVIDIA,而OEM公司雇员向NVIDIA泄密的事情100%会发生。
在GPU研发过程当中,诸如“太阳黑子”等项目完全被保密,是闻所未闻的事情。 Carrell甚至开发了一个评级系统。金牌代表到了产品发布,“太阳黑子”可能仍是一个秘密;银牌代表他们能保持这个秘密,直到他们从台积电拿回最终芯片;铜牌代表他们能保持这个秘密到最终流片之前,这样NVIDIA公司在“太阳黑子”项目上将落后AMD一个完整的产品周期。
最后,AMD公司图形部门负责人Rick Bergman向Carrell承诺,至少会在“太阳黑子”保密赛当中获得铜牌。但是他告诉Carrell,当他们获得RV870最终样品的时候,他们要对这方面有一次严肃认真的谈话。
随着时间的推移,“太阳黑子”项目的进展,Carrell和研发人员已经得到铜牌。该芯片已流片,没有人知道Carrell的“宠物”项目。Rick Bergman这时候同Carrell进行了会谈,他要求Carnell让三个能让ATI真正受益的客户知道“太阳黑子”项目,这有助于提升ATI的竞争力。
Carrell不想冒险让对手知道“太阳黑子”,但他知道,为了要取得成功,他需要在OEM厂商的支持,解决的办法是简单地添加有必要知道的原始设备制造商名单,同样的规则适用于他们,让他们和AMD签署一个单独的保密协议。AMD公司法律专家将“太阳黑子”订为AMD专有的IP(智慧财产权),如果OEM厂商那里有其它人需要了解“太阳黑子”,他们需要先得到AMD的批准,这样确保任何泄漏将有迹可寻,可追溯。Carrell为“太阳黑子”分别起了3个不同的名称分发给需要知道“太阳黑子”项目的OEM厂商。
在Cypress发布前几个星期,三家OEM厂商之一的CEO看到Eyefinity,并要求展示给别人。即使是CEO,都需要通过AMD的预先批准。所以令人惊讶的是,三个OEM厂商都严格遵守了他们和AMD签署的NDA协议。——据Carrell所知,“太阳黑子”技术最终没有泄漏出去。
NVIDIA的环绕显示技术需要两张显示卡
尽管NVIDIA在今年的国际消费电子展(CES)当中,展示了自己的三重显示技术,但是,它纯粹是一个软件解决方案,每个GPU仍然只限于两个显示输出。我问Carrell他对NVIDIA公司做法的看法,他一如既往地诚实。
Eyefinity允许从单一GPU输出三组显示信号
ATI之前也曾经考虑过软件方案,但最终出于两个原因否决了软件方案。在纯软件解决方案当中,你需要有一个多GPU系统。这意味着更昂贵的主板,更高功耗的电源,更麻烦的配置和可能发生的性能问题。
一种情况是,你有很明显的不对称性,因为你的一张显示卡驱动一台显示器,而另外一张显示卡驱动两个显示器。这可能会导致一些奇怪的问题。另一个情况是,你用一张显示卡驱动三个显示器,在交替帧渲染模式下,你可通过PCI-E或一个CF / SLI连接器从一张显示卡把数据传输到另外一个显示卡。但是,Carrell担心6台显示器同时驱动的情况下,不会有足够的带宽来满足数据传输的需求。
而游戏的兼容性问题更使得ATI最终放弃了软件解决方案,这已经比他们预期好了很多,并且远胜于软件解决方案。
不要小看ATI软件工程师在这里所作的努力。虽然Carrell 是最初“太阳黑子”三人小组当中的一员,但他不是将“太阳黑子”发扬光大的人士。他坦诚,最重要贡献来自于ATI的软件工程小组。“太阳黑子”的软件功能超过硬件功能。ATI的软件团队,尽管没有被纳入到硬件研发当中,但最终还是他们让“太阳黑子”变成Eyefinity!
AMD其它部门和其它项目负责人,已经开展向Carrell学习保密方法。我个人认为,Carrell应该到Apple苹果电脑兼职,教导他们如何保守产品秘密。
总结
不同于产品评测文章,我在本文总结部分的文字非常少。没有什么购买建议,没有性能总结。即使作为分析文章,对我来说也没有多少可以总结的东西。当我在写RV770故事,我确信,ATI已经拿出新的,重新调整的图形设计方法,现在他们几乎倾囊而出,将其中的经验教训全部用在RV870上。
RV870的继任者-Northern Islands(北方群岛)图形处理器,将在今年晚些时候发布。Northern Islands(北方群岛)图形处理器,在RV870胜负未定之前,就已经完成设计。他们当时更不知道费米GF100会延期到这么晚。
我不知道RV770 到RV870研发历史当中,有什么经验教训可以帮助研发Northern Islands(北方群岛)图形处理器。虽然我们不能断定ATI未来产品,但我相信,我已经充分了解到AMD图形部门工作方式。
Carrell告诉我,做一个产品的过程不是一个合乎逻辑的过程。产品当中的确有逻辑,但产品开发不是一个逻辑的过程。这过程当中冲突并不可怕,可怕的是还没有数据的时候要先建立起数据。当AMD和NVIDIA公司做一个产品的时候,工程师们并不知道所有的答案,并且他们已有的知识也不大派上用场,产品研发需要概率,权衡和猜测。有时他们猜测是正确的,有时他们猜测是错误的。最好的情况是,他们将个人经验和集体权衡猜测结合,并去执行。多年来,似乎ATI已经学会了如何组织团队所有成员的力量去构建他们的产品。
图形团队的奉献和在新工艺技术的跳跃经验,在这一代图形处理器上已见成效。从由台积电代工转到由Global Foundries代工,他们必将再次面临挑战,这不只是工艺技术上的问题,这个团队计划和执行的能力是公司急需的重点。
Carrell Killebrew帮助ATI蜕变,过去3代产品已经执行得非常好。不管你是AMD,英特尔或者NVIDIA的粉丝,你必须向对手致敬。过去几年的时间,为我们展示了AMD图形部门戏剧性的转变,从RV670,770和870上扎实的执行力,ATI的转变值得我们赞许。■