加速30倍!APU的GPU硬件加速性能对比
泡泡网显卡频道8月23日 今年,Intel和AMD相继完成了对CPU和GPU的整合,但Intel的SandyBridge它还是叫CPU,而AMD的Llano却有了一个全新的称号——APU(Accelerated Processing Units,加速处理器),那加速处理器和传统的中央处理器及图形处理器有何区别呢?
硬件方面,APU将通用x86架构CPU核心和可编程矢量处理引擎相融合,把CPU擅长的精密标量运算与传统只有GPU才具备的大规模并行矢量运算结合起来。AMD APU设计综合了CPU和GPU的优势,为软件开发者带来前所未有的灵活性,能够任意采用最适合的方式开发新的应用。
说白了,APU就是CPU与GPU的合体,但硬件合体之后,随着整个产业的认可,未来将会有更多的应用基于GPU加速而设计,帮CPU分担很大一份工作量,从而大幅提升处理器效能。APU这种设计理念要比暴力增加CPU内核高明很多!
虽然现在APU问世还不太久,支持异构融合加速的应用也不是很多,但通过这些应用,我们可以一窥APU的实力,所谓的“加速处理器”到底能加速什么呢?比CPU单独运算强多少?最前APU A8-3850内部的GPU与CPU运算性能有多大差距?
我们知道,AMD的Llano APU就是一颗加强版的Athlon II X4 CPU和一颗中端DX11 GPU的合体,其CPU和GPU部分都不是最强,但也都达到了中端级别。
Llano APU的设计理念
为了将两颗中端CPU和GPU融合在一起,AMD下了不小的功夫,最终APU的晶体管数和芯片面积要比同为32nm工艺制造的Intel SandyBridge CPU还大一些。
通过AMD公布的Llano APU芯片结构图来看,APU的CPU和GPU两大芯片所占芯片面积基本是相当的。看得出来AMD想要平衡CPU和GPU的性能,避免出现Intel那种为很强的CPU赋予了一颗很烂的GPU,导致集显基本没用的尴尬局面。
既然APU里面的CPU和GPU所占芯片面积(晶体管数)基本相当,那么这是不是意味着CPU和GPU的性能也差不多呢?这颗不好说,还是通过实际测试来验证吧。
MediaShow Espresso软件是第一款同时支持CUDA与Stream加速的视频转换软件,除此之外它还对Intel Core i7处理器的超线程及SSE4指令集做了优化,因此无论纯CPU转码还是GPU加速,其速度比传统软件都要快。在实际使用中无论是界面还是选择的丰富程度都能帮助用户将系统的特性完全发挥出来。
下面我们来看看GPU转码与CPU转码的性能。测试视频格式为1080P H.264编码的MKV。首先我们用CPU转码为720P的H.264编码的MP4,软件调用4核心4线程进行计算。
● A8-3850四核CPU转码:33分钟
使用CPU转码,转换20%的高清视频用了33分钟。然后我们启用ATI STREAM进行6550D GPU转码。
● A8-3850开启GPU硬件编码/解码后:17分钟
同样转换20%的高清视频,6550D只用了4核心CPU的一半时间,可见在视频转换上6550D占尽优势。
开启GPU加速后,不仅转码速度加快了,而且CPU占用率大大下降。当然最终的速度是CPU和GPU共同加速的结果,GPU不可能独立完成转码任务,但估算一下GPU所贡献的运算能力也要比CPU更多一些。
业界第一款GPU通用计算软件就是用户科学计算,它就是由斯坦福大学主导的Folding @ Home分布式计算,最早支持ATI显卡,而NVIDIA后来者居上,目前N卡所贡献的运算能力已经超越了所有CPU之和,A卡也不弱!
Folding@home是一个研究蛋白质折叠、误折、聚合及由此引起的相关疾病的分布式计算工程。最开始F@H仅支持CPU,后来加入了对PS3游戏机的支持,但同样是使用内置的CELL处理器做运算。F@H因ATI的加入为GPU计算翻开了新的一页,如今F@H第二代GPU客户端已经能够支持ATI和NVIDIA的全系列DX10 GPU。
● 蛋白质折叠:APU的GPU比CPU快18倍
进行相同的计算6550D比CPU快了18倍之多,这回合6550D完胜。
而且,这次的蛋白质折叠分布式计算,CPU和GPU是分别进行测试的,互不影响,GPU不需要CPU的参与就可以独立进行运算,而不是像视频转码那样要合作运行。
首款国人开发的支持GPU的OpenCL通用计算测试程序OpenCL General Purpose Computing Benchmark (简称GPCBenchMarkOCL)是由国内几名高性能计算从业人员和爱好者合作编写的,目的是为了评估在不同的OpenCL平台上一些基本算法和应用的性能。与目前流行的一些OpenCL、DirectCompute通用计算测试程序的不同在于,目前这些测试程序测试项目过于单一,基本上就是某一两种算法的性能测试,甚至干脆就是理论峰值计算性能的测试。而实际上,OpenCL计算设备包括GPU的计算性能是受非常多因素影响的,除了计算单元的频率和数量之外,还有计算单元架构、Global memory(显存)带宽、Local memory(GPU内的片上存储器,NVIDIA称为Shared memory,AMD称为Local Data Share)带宽和Bank conflict、存储器合并访问情况、存储器同步成本、缓存等各种因素。因此某些纸面计算性能非常高的GPU执行某些计算时性能却不一定好;又或者,某 GPU在执行某种计算时虽然性能落后于另一架构的GPU,但是在执行另一种计算时性能反而超前。GPCBenchMarkOCL集合了高性能计算领域多种常见的基础算法和应用,能比较全面地评估GPU及其它OpenCL计算设备在通用计算应用中的性能。
● 密码学测试:
哈希加密:GPU比CPU快12倍
● 常用数学算法测:
矩阵乘法:GPU比CPU快27倍
矩阵转置:GPU比CPU快15倍
并行规约:GPU比CPU快2倍
8x8离散余弦变换:GPU比CPU快7倍
● 单精度浮点运算测试:
加法:GPU比CPU快4倍
乘法:2.5倍
乘加:11倍
特殊函数:17倍
通过测试,我们发现,CPU又完败于6550D。4核心的A3850都落得如此下场,那市场上主流中低端双核CPU就完完全全悲剧了。
在全球各国都在滥发货币的情况下,几乎没有哪国可以做到让货币持续保值。但有一种货币,不受任何国家、政府和央行控制,不存在滥发的情况,这种虚拟的电子货币叫做比特币(bitcoin),相信很多人已经有所耳闻。
● CPU挖矿速度:1.7Mhash/s
首先我们用CPU机型挖矿,把4颗核心全部打上勾,挖矿时4颗核心全部满载。最终性能是1.7Mhash/s。
● GPU挖矿速度:59Mhash/s
然后小编换用6550D GPU进行挖矿,此时选用OPENCL挖矿器,并且去掉CPU4个核心的勾子。最终性能为59Mhash/s。GPU领先CPU30多倍。
● 扩展阅读《挂机也能赚钱?教你用显卡挖矿赚美元》
我们之前测试使用的软件大都只侧重于电脑硬件的一个单元——只测试CPU处理器部分或者是GPU显示卡部分,而对两者协同合作下的真实性能并没有过多关注。Intel Sandy Bridge的发布和AMD Fusion APU带来的融合,无不预示着异构计算的主流前景,因此HC异构计算测试软件的面世将为我们的测试注入新的活力,也将为包括笔记本电脑在内的计算平台确立了新的标准。
HC异构计算测试软件要解决CPU/GPU负载分配问题,以充分挖掘平台真实性能
APU问什么叫APU?答案在我们接下来的测试中将会体现出来。我们来看看APU中的CPU和GPU同时运算得到的成绩。CPU和GPU同时计算得分为17182分。
然后我们通过在平台上插入N卡来屏蔽掉APU内部的GPU来让APU内部的CPU独自干活儿,得分降到了5252分,下降了进三分之二。由此可见,APU已经不能算是一颗CPU了,APU的名字起的恰到好处。
我不是CPU,
也不是GPU,
我喜欢3D渲染,
我爱通用计算,
我就是我,
我是APU。
前面的一些测试大都是偏向于性能,事实上APU还有一个非常实用的加速应用,就是视频实时防抖处理,大家看一个视频就知道该功能有多么炫了:
怎么样?震撼吗?这就是AMD为APU量身打造的AMD Steady Video视频防抖处理技术,该技术可以检测系统播放中的视频(可兼容任何播放器、任何渲染模式、甚至包括网页在线视频),然后通过复杂的算法将视频重新处理后实时渲染出来,最终用户所看到的画面将会是没有抖动、较为清晰稳定的画面。
APU全新的驱动很强大,还提供了拆分屏幕模式,对比开/关防抖后的效果
这要在AMD视觉引擎控制中心中打开AMD Steady Video选项,任何自拍时手拿不稳所产生的抖动效果,都将被自动更正,让用户以更舒适、更简单、更智能的方式行赏视频。
● 总结:
现如今显卡担当起了系统信息处理的重任,不再是单纯的3D视频卡,随着通用GPU计算的发展,越来越多的软件与游戏开始支持显卡通用计算。与CPU相比显卡在特定领域的计算性能远超CPU,甚至连高端的酷睿i7也只不过是GPU的零头。
这么来看AMD A3850是非常超值的,1000元的价格可以得到主流性能的CPU外加一个超强的协处理器,如果软件优化的足够好,使得CPU与GPU能协力运行,A3850的性能将得到质的提升。■<