手机和平板的芯:ARM处理器前身今世
泡泡网CPU频道7月9日 伴随着平板的崛起,移动设备市场又迎来了新一轮的竞赛,ARM芯片不断向传统的x86架构CPU发起挑战,而作为x86机构的代表Intel和AMD也在不遗余力的抵制这种渗透。
Intel正在努力的加快Atom的步伐,使其能够在未来的移动设备市场占有一定的市场,而AMD针对移动市场于近日推出了新的Z01 APU,专门面向平板市场。
作为中坚力量的ARM则在步步为营,一步一步的将计算市场细分出来,然后逐步攻城略地。
ARM终端产品遍布各个领域
不过谈起ARM很多人可能不不是很了解,为什么一个不曾被大众熟悉的产品,让业界巨头Intel都感到惶恐。
为了让读者对现今的计算市场有一个大致的认识,此片文章主要为ARM基础知识的介绍。
ARM的全称是Advanced RISC Machines,意即高级精简指令集机器。不过现在ARM它是微处理器设计厂商,提供高性能、廉价、耗能低的RISC处理器以及相关软件和技术。技术具有性能高、成本低和能耗省的特点。适用于多种领域,比如嵌入控制、消费/教育类多媒体、DSP和移动式应用等。
ARM将其技术授权给世界上许多著名的半导体、软件和OEM厂商,每个厂商得到的 都是一套少有的ARM相关技术及服务。利用这种合伙关系,ARM很快成为许多全球性RISC标准的缔造者。
ARM到目前为止已经生产超过200亿个处理器,每天的销量超过1000万,是真正意义上的“The Architecture for the Digital World”(数字世界的体系结构)。
ARM合作伙伴
目前,总共有30家半导体公司与ARM签订了硬件技术使用许可协议,其中包括Intel、NVIDIA、IBM、LG半导体、三星、NEC、德州仪器、高通、SONY、Broadcom等。另外ARM也提供软件系统方面的服务,合作伙伴包括微软、SUN和MRI等一系列知名公司。
1991年ARM公司成立于英国剑桥,主要出售芯片设计技术的授权。目前,采用ARM技术知识产权(IP)的微处理器,即我们通常所说的ARM微处理器,已遍及工业控制、消费类电子产品、通信系统、网络系统、无线系统等各类产品市场,基于ARM技术的微处理器应用约占据了32位RISC微处理器75%以上的市场份额,ARM技术正在逐步渗入到我们生活的各个方面。
ARM商品模式的强大之处在于它在世界范围有超过100个的合作伙伴。ARM是设计公司,本身不生产芯片。采用转让许可证制度,由合作伙伴生产芯片。
而在上世纪90年代,受到工艺和市场因素的影响,ARM业绩平平,处理器的出货量徘徊不前。由于资金短缺,ARM做出了一个意义深远的决定:自己不制造芯片,只将芯片的设计方案授权给其他公司,由它们来生产。正是这个模式,最终使得ARM芯片遍地开花,将封闭设计的Intel公司置于“人民战争”的汪洋大海。
但是进入21世纪之后,由于手机制造行业的快速发展,出货量呈现爆炸式增长,ARM处理器占领了全球手机市场。2006年,全球ARM芯片出货量为20亿片,2010年预计将达到45亿片。
ARM通过将处理器架构授权给有兴趣的厂家。并却提供了多样的授权条款,包括售价与散播性等项目。对于授权方来说,ARM提供了ARM内核的整合硬件叙述,包含完整的软件开发工具(编译器、debugger、SDK),以及针对内含ARM CPU硅芯片的销售权。对于无晶圆厂的授权方来说,其希能将ARM内核整合到它们自行研发的芯片设计中,通常就仅针对取得一份生产就绪的知识产权的认证。对这些客户来说,ARM会释出所选的ARM核心的闸极电路图,连同抽象模拟模型和测试程式,以协助设计整合和验证。需求更多的客户,包括整合元件制造商(IDM)和晶圆厂家,就选择可合成的RTL形式来取得处理器的知识产权。借助可整合的 RTL,客户就有能力能进行架构上的非常好的化与加强。这个方式能让设计者完成额外的设计目标而不会受限于无法更动的电路图。虽然ARM并不授予受权方再次出售ARM架构本身,但受权方可以任意地出售制品。商用晶圆厂是特殊例子,因为他们不仅授予能出售包含ARM内核的硅晶成品,对其它客户来讲,他们通常也保留重制ARM内核的权利。
就像大多数IP出售方,ARM依照使用价值来决定IP的售价。在架构上而言,更低性能的ARM内核比更高性能的内核拥有较低的授权费。以硅芯片实作而言,一颗可整合的内核要比一颗硬件宏内核要来得贵。更复杂的价位问题来讲,持有ARM授权的商用晶圆厂可以提供更低的授权价格给他们的晶圆厂客户。透过晶圆厂自有的设计技术,客户可以更低或是免费的ARM预付授权费来取得ARM内核。相对于不具备自有设计技术的专门半导体晶圆厂,授权商对每片晶圆多收取了两至三倍的费用。对中少量的应用而言,具备设计部门的晶圆厂提供较低的整体价格(透过授权费用的补助)。对于量产而言,由于长期的成本缩减可借由更低的晶圆价格,减少ARM的NRE成本,使得专门的晶圆厂也成了一个更好的选择。
目前很多半导体公司持有ARM授权:Atmel、Broadcom、Cirrus Logic、Freescale、Qualcomm、富士通、Intel、IBM,英飞凌科技,任天堂、OKI电气工业,三星电子,Sharp,STMicroelectronics,TI德州仪器和VLSI等许多这些公司均拥有各个不同形式的ARM授权。虽然ARM的授权项目由保密合约所涵盖,在智慧财产权工业,ARM是广为人知最昂贵的CPU内核之一。单一的客户产品包含一个基本的ARM内核可能就需索取一次高达20万美元的授权费用。而若是牵涉到大量架构上修改,则费用就可能超过千万美元。
目前ARM的处理器设计的范围非常广,在这里我们只介绍一些应用型处理器,而应用型处理器包括经典的ARM7/ARM9/ARM11,另外还有现在热门的Cortex系列,包括Cortex A5/A8/A9,另外ARM还将在未来推出全新的Cortex A15架构芯片。
- Cortex-A15,可为新一代移动基础结构应用和要求苛刻的无线基础结构应用提供性能最高的解决方案
- Cortex-A9实现,可提供800MHz - 2GHz的标准频率,每个内核可提供5000DMIPS的性能
- Cortex-A8单核解决方案,可提供经济有效的高性能,在600MHz - 1GHz 的频率下,提供的性能超过2000DMIPS
- Cortex-A5低成本实现,在400 - 800MHz的频率下,提供的性能超过1200DMIPS。
所有Cortex-A处理器均共享共同的体系结构和功能集。这使其成为开放式平台设计的非常好的解决方案,因为此时不同设计之间软件的兼容性和可移植性最重要。
- ARMv7-A 体系结构
- 对所有操作系统的支持
Linux完整分配 - Android、Chrome、Ubuntu 和 Debian
Linux第三方 - MontaVista、QNX、Wind River
Symbian
Windows CE
需要使用内存管理单元的其他操作系统支持
- 指令集支持 - ARM、Thumb-2、Thumb、Jazelle、DSP
- TrustZone安全扩展
- 高级单精度和双精度浮点支持
- NEON媒体处理引擎
通过提供所需最高性能点和可伸缩性,提供所需能效和硅成本,同时维持完整的软件兼容性,各种Cortex-A处理器可共同提供设计灵活性。
SoC(System on a Chip),即片上系统,也就是在一颗芯片上就可以实现一个完整的系统,而ARM芯片正式基于这一设计,在较小的芯片内实现多重复杂的功能,相比传统结构它可以实现软件系统和硬件系统的集成,显著降低耗电量、减少体积、增加系统功能、提高速度、节省成本。
在一颗ARM芯片内部,除了常规的中央处理器(CPU)、图形处理器(GPU)、内存控制器、桥接枢纽以外,芯片还可以集成视频解码器、音频解码器、Modem、GPS、蓝牙、3G/4G等功能模块,相对于x86 PC,使用单一的芯片外接输入输出设备,就可以实现一个完整的计算设备,所以基于SoC的ARM可以很容易的应用于手机、平板电脑等微电子领域。
小型化趋势
由于ARM芯片的高度整合,成品的体积得到显著减小,而随着工艺的发展,早期芯片性能低下、发热量大的问题也得到了极大改善,这也是近年来基于ARM的平板电脑和智能手机风起云涌的原因。
另外ARM芯片基于精简指令集(RISC),使得产品的开发难度得到降低,开发周期也得到极大缩短,更具市场竞争力,ARM处理器可以实现较高性能、较小代码大小、较低功耗和较小硅面积的良好平衡。
ARM9处理器系列为微控制器、DSP和Java应用提供单处理器解决方案,从而减小芯片面积、降低复杂性和功耗,并加快产品上市速度。
ARM9 DSP增强型处理器非常适合需要综合DSP和微控制器性能的应用。ARM9处理器系列包括 ARM926EJ-S、ARM946E-S和ARM968E-S处理器。
ARM9被广泛用于智能手机、PDA、机顶盒、PMP、电子玩具、数码相机、数码摄像机等产品解决方案,可为要求苛刻、成本敏感的嵌入式应用提供可靠的高性能和灵活性。丰富的DSP扩展使SoC设计不再需要单独的DSP。
ARM968E-S面积最小、包含DSP增强功能的ARM9处理器,针对低功耗、数据密集型、嵌入式实时应用,面积最小、功耗最低的ARM9处理器是众多实时类型应用的理想之选。通过可轻松从标准接口集成的紧密耦合内存,该处理器可高效工作。
ARM946E-S具有MPU的DSP增强型高速缓存处理器,针对运行RTOS的实时应用,一种具有可选高速缓存接口以及完整的内存保护单元的实时处理器。对于大部分代码位于主存储器的应用,该处理器非常有用,它按需加载到高速缓存中,同时关键的异常处理代码和数据仍本地保留在紧密耦合内存中。
ARM926EJ-S具有Java加速、DSP扩展和MMU的应用处理器,针对基于操作系统的应用,ARM926EJ-S处理器为入门级处理器,可支持完全版操作系统,其中包括Linux、Windows CE和Symbian。因此,此处理器是众多需要完整图形用户界面的应用的理想之选。
ARM9系列技术特点:
- 基于ARMv5TE体系结构
- 高效的5阶段管道,可增加吞吐量和提高系统性能
- 提取/解码/执行/内存/写回
- 同时支持ARM和Thumb指令集
- 高效ARM-Thumb交互操作允许非常好的组合性能和代码密度
- 哈佛体系结构–独立的指令和数据内存接口
- 增加了可用内存带宽
- 同时访问I&D内存
- 改进了性能
- 31 x 32位寄存器
- 32位ALU和桶式移位器
- 增强型32位MAC块
- CoreSight ETM9接口用于增强型调试和跟踪功能
- 标准AMBA-AHB接口
- 协处理器接口
ARM11处理器系列所提供的引擎可用于当前生产领域中的大多数智能手机;该系列还广泛用于消费、家庭和嵌入式应用领域。该处理器的功耗非常低,提供的性能范围从小面积设计中的350MHz到速度优化设计中的1GHz(45nm和65nm)。ARM11处理器软件可以与以前所有ARM处理器兼容,并引入了用于媒体处理的32位SIMD、用于提高操作系统上下文切换性能的物理标记高速缓存、强制实施硬件安全措施的TrustZone以及针对实时应用的紧密耦合内存。
ARM1176JZ(F)-S
从智能手机、数字电视到MID,ARM1176应用型处理器在这些领域得到广泛部署,它可提供媒体和浏览器功能、安全计算环境,而在低成本设计的情况下可提供高达1GHz的性能。ARM1176JZ-S处理器采用针对安全应用领域的ARM TrustZone技术,以及用于执行高效嵌入式Java的ARM Jazelle技术。可选的紧密耦合内存可以简化ARM9处理器移植和实时设计,同时,AMBA 3 AXITM接口提高了内存总线性能。DVFS支持可以实现功耗优化,使其低于ARM11TM处理器体系结构的同类非常好的额定静态和动态功耗。
- 设计用于消费类产品和无线产品的应用型处理器。
- 两种处理器都具有包含媒体扩展的ARMv6指令集体系结构、ARM Jazelle技术以及用于压缩代码的ARM Thumb。
- 在ARM11处理器系列中,只有ARM1176JZ(F)-S处理器具有ARM TrustZone技术。TrustZone技术在CPU和平台体系结构内提供支持,以便构建所需的可信计算环境,从而能够保护已下载应用程序中的关键系统功能、已下载媒体的版权保护、实现安全的空中下载系统升级。
ARM1136J(F)-S
ARM1136处理器包含带媒体扩展的ARMv6指令集、Thumb代码压缩技术以及可选的浮点协处理器。ARM1136是一个成熟的内核,作为一种应用型处理器广泛部署在手机和消费类应用程序中。
ARM1176JZ(F)-S处理器架构
- 还设计用作应用型处理器,包括ARM1176JZ(F)-S处理器的许多功能。
- 不包括AMBA 3 AXI总线或TrustZone。
- 一些用户实现ARM1136J(F)-S处理器,以便通过其基于ARM9处理器的SoC设计,与现有AMBA AHB总线外设兼容
- 通过AMBA AHB到AXI的构造,可以更加轻松地从AHB总线外设移植到基于ARM1176JZ(F)-S处理器的设计。
- 到最新ARM Cortex-A类处理器的软件兼容移植路径
ARM1156T2-S
ARM1156处理器对ARM11性能进行了优化,以适合高可靠性和实时嵌入式应用。ARM1156T2-S和ARM1156T2F-S处理器基于ARMv6指令集体系结构,并借助 Cortex处理器系列中的相同Thumb-2增强功能得到了扩展。ARM1156处理器使用九阶段整数管道,合并了同类非常好的分支预测技术来提供任何ARM11类处理器的最高指令吞吐量。
- 第一个合并了ARM Thumb-2技术的处理器,以便获得更高的代码密度和指令集效率。
- Thumb-2技术使用的内存比纯32位代码少31%,从而降低了系统成本,同时可提供优于现有Thumb技术38%的性能。
- 这些处理器还具有针对高速缓存和紧密耦合内存(TCM)的可选同位数据保护以及不可屏蔽中断,从而使其非常适合重点关注高可靠性或高可用性的嵌入式控制应用领域。
-ARM1156T2-S处理器具有增强型内存保护单元(MPU),并为当前使用 ARM946E-S、ARM966E-S或较旧16位处理器的嵌入式控制应用程序提供理想的升级途径。
- 这些处理器具有AMBA 3 AXI规格的接口,能够以较少的总线层提供较高的系统总线带宽以及快速时序收敛。
- 到最新ARM Cortex-R类处理器的软件兼容移植路径
ARM11 MPCore
ARM11 MPCore多核处理器实现ARM11微体系结构,并引入了基于单个RTL、从1个内核到4个内核的多核扩展,从而使具有单个宏的简单系统设计可以集成高达单个内核的4倍的性能。ARM11 MPCore处理器使用内置SCU实现高效一致性,并受到具有ARM SMP功能的众多操作系统的支持。该处理器使用PIPT高速缓存扩展ARMv6体系结构,可以有效支持16KB-64KB L1高速缓存。
- ARM11 MPCore可合成多处理器基于ARM11微体系结构,可以将其配置为包含一到四个处理器,以提供高达2600 Dhrystone MIPS的性能。
ARM11处理器系列功能:
- 强大的ARMv6指令集体系结构
- ARM Thumb指令集可以减少高达35%的内存带宽和大小需求
- 用于执行高效嵌入式Java的ARM Jazelle技术
- ARM DSP扩展
- SIMD(单指令多数据)媒体处理扩展可提供高达2倍的视频处理性能
- 作为片上安全基础的 ARM TrustZone技术(ARM1176JZ-S和ARM1176JZF-S处理器)
- Thumb-2技术(仅ARM1156(F)-S),可增强性能、能效和代码密度
- 低功耗:0.6mW/MHz (130nm 1.2 V),包括高速缓存控制器,能量节约关闭模式能够处理高级工艺中的静态漏电情况。
- 高性能整数处理器
- 8阶段整数管道可提供高时钟频率(对于ARM1156T2(F)-S为9阶段)
- 单独的加载-存储和算法管道
- 分支预测和返回栈
- 高性能内存系统设计
- 支持4-64k高速缓存大小
- 针对多媒体应用领域的、带DMA的可选紧密耦合内存
- 对于媒体处理和网络应用领域,高性能64位内存系统加快了数据存取速度
- ARMv6内存系统体系结构加快了操作系统上下文切换速度
- 矢量中断接口和低中断延迟模式提高了中断响应速度和实时性能
- 用于汽车/工业控制和3D图形加速的可选矢量浮点协处理器(ARM1136JF-S、ARM1176JZF-S和ARM1156T2F-S处理器)
- 所有ARM11系列处理器都作为符合ARM-Synopsys参考方法的可交付项来提供,从而显著缩短了生成内核的特定技术实现的时间,以及生成一组完整的行业标准视图和模型的时间。
Cortex A8是一款单核处理器芯片,它基于ARMv7体系结构,工作频率从600MHz到1GHz。Cortex-A8处理器可以满足需要在300mW以下运行的移动设备的功率优化要求;以及需要2000 Dhrystone MIPS的消费类应用领域的性能优化要求。
Cortex-A8高性能处理器在如今的终端设备中得到了验证。 从高端特色手机到上网本、DTV、打印机和汽车信息娱乐,Cortex-A8处理器都提供了可靠的高性能解决方案,每年发货数百万台。
- 频率从600MHz到1GHz及以上
- 高性能、超标量微体系结构
- 用于多媒体和SIMD处理的NEON技术
- 与ARM926(ARM9)、ARM1136和ARM1176(ARM11)处理器的二进制兼容性
高性能
在复杂系统中运行的高性能处理器
- 对称、超标量管道,以便获得完全双指令执行功能
- 通过高效、深管道获得高频率
- 高级分支预测单元,具有95%以上准确性
- 集成的2级高速缓存,以便在高性能系统中获得非常好的性能
媒体处理
通过NEON技术在软件中进行媒体处理
- 128位SIMD数据引擎
- v6SIMD的2倍性能
- 通过高效媒体处理节约功耗
- 灵活处理将来的媒体格式
- 通过Cortex-A8上的NEON技术可以在软件中轻松集成多个编解码器
- 增强用户界面
NEON技术主要应用于某些音频、视频和图形工作负荷可以减轻跨SoC支持多个专用加速器的负担,并且使系统可以支持将来的标准。
2级高速缓存集成到内核中,以实现轻松集成、高功效和非常好的性能。 该高速缓存使用标准编译的RAM构建,可配置范围从0K到1MB。 该高速缓存可以使用编译的内存构建,具有可编程延迟,以适应不同的数组特征。
典型芯片代表:
德州仪器:OMAP 3430、OMAP3530、OMAP 3610/3630/3640
高通:MSM 7230/7630/8255/8255T/8655/8655T、QSD 8250/8250A/8650/8650A
三星:S5PC110
苹果:A4
瑞芯微:RK2918
Cortex-A9是目前为止性能最高的ARM处理器,可实现受到广泛支持的ARMv7体系结构的丰富功能。相对Cortex A8,新的Cortex 9可以最多设计四个处理内核,Cortex-A9处理器的设计旨在打造非常先进的、高效率的、长度动态可变的、多指令执行超标量体系结构,提供采用乱序猜测方式执行的8阶段管道处理器,凭借范围广泛的消费类、网络、企业和移动应用中的前沿产品所需的功能,它可以提供比较独特的高性能和高能效。
Cortex-A9微体系结构既可用于可伸缩的多核处理器(Cortex-A9 MPCore多核处理器),也可用于更传统的处理器(Cortex-A9单核处理器)。可伸缩的多核处理器和单核处理器支持16/32/64KB 4路关联的L1高速缓存配置,对于可选的L2高速缓存控制器,最多支持8MB的L2高速缓存配置,它们具有极高的灵活性,均适用于特定应用领域和市场。
- 非常好的性能,2GHz标准操作可提供TSMC 40G硬宏实现
- 以低功耗为目标的单核实现,面向成本敏感型设备
- 利用高级MPCore技术,最多可扩展为4个一致的内核
- 可选NEON媒体和浮点处理引擎
风靡Android的Tegra 2采用了Cortex A9双核架构
通过共享以下常见需求,Cortex-A9处理器可提供满足各种不同市场应用需求的可扩展解决方案,包括移动手机以及高性能的消费类产品和企业产品:
- 通过提高性能、降低功耗来提高能效;
- 提高最高性能,满足要求更高的应用需求;
- 能够在多个设备之间共享软件和工具投资;
Cortex-A9 MPCore多核处理器
Cortex-A9 MPCore集成了经验证非常成功的ARM MPCore技术以及更多增强功能,以此简化了多核解决方案,并使其应用范围得到扩展。Cortex-A9 MPCore处理器可提供比较独特的可扩展的最高性能,同时还支持灵活设计和新功能,从而进一步降低和控制处理器和系统级的能耗。借助Cortex-A9 MPCore 处理器的定向实现,移动设备的最高性能还可在现在的解决方案的基础上不断提高,具体方法是:利用设计灵活性和ARM MPCore技术提供的高级功率管理技术,在散热受限以及移动电源预算紧张的情况下维持运行。使用可伸缩的最高性能,该处理器可超过现今类似的高性能嵌入式设备的性能,并可在拓宽市场的基础上进行稳定的软件投资。
Cortex-A9单核处理器
Cortex-A9处理器提供了比较独特的高性能和高能效,从而使其成为需要在低功耗、成本敏感、基于单核处理器的设备中提供高性能的所有设计的理想解决方案。使用便利的可合成流和IP成品,Cortex-A9处理器可为基于ARM11处理器的现有设计提供理想的升级途径,这类设计需要在相似的硅成本和电源预算基础上提供更高的性能和更高级别的能效,同时使软件环境保持兼容。Cortex-A9单核处理器为独立指令和数据事务提供了双重、低延迟、Harvard 64位AMBA 3 AXI主接口,在内存的缓存区域之间复制数据时,它能够维持每五个处理器周期执行四次双字写入。
除了单核和多核软宏外,常用的双核配置也可用作TSMC 40G/GL工艺的硬宏实现,从而最大程度地缩短高性能Cortex-A9处理器的上市时间,降低与其上市关联的风险和成本。利用优化的ARM物理IP和先进的实现技术,该硬宏可用作功率优化实现或性能优化实现。
速度优化:速度优化硬宏实现可向系统设计人员提供行业标准ARM处理器的整合低功率技术,从而使ARM的性能领先优势进一步延伸到紧凑、高密度和散热受限的环境所需的功率包络中的高利润消费类设备和企业设备。从标准硅中选择该硬宏实现后,它的运行频率超过2GHz,代表了面向性能的高利润应用中的理想解决方案。
功率优化:在许多散热受限的应用领域中,能效极为重要。从标准硅中选择Cortex-A9功率优化硬宏实现后,其提供的最高性能达到4000DMIPS,而每个CPU的能耗不到250mW。
该硬宏实现包括符合ARM AMBA标准的高性能系统组件,可以最大程度地提高数据通信速度,同时使能耗和硅面积降到最低。各Cortex-A9硬宏实现还包括CoreSight程序跟踪宏单元(PTM),它使处理器的指令流完全可见,从而使软件社区成员能够开发优化性能的代码。此外,该宏还包括ARM高性能L2高速缓存控制器,它支持L2高速缓存内存介于128K和8M之间的配置。
典型芯片代表:
德州仪器:OMAP 4430/4460/4470
高通:MSM 8260/8660、APQ 8060/8064
NVIDIA:Tegra 2
苹果:A5
最新的Cortex A15目前还没有成品芯片上市,最早可能要到2012年上市。Cortex A15和Cortex A9/A8同样采用了ARMv7-A Cortex架构,处理器内核数量最多为4个,和Cortex A9相同,处理核心之间通过AMBA 4技术互联,支持一系列ISA,能够在不断下降的功耗、散热和成本预算基础上提供高度可扩展性解决方案,广泛适用于下一代智能手机、平板机、大屏幕移动计算设备、高端数字家庭娱乐终端、无线基站、企业基础架构产品等等。
Cortex A15指令集
- ARM
- Thumb-2
- TrustZone security technology
- NEON Advanced SIMD
- DSP&SIMD extensions
- VFPv4 Floating point
- Jazelle RCT
- Hardware virtualization support
- Large Physical Address Extensions(LPAE)
ISA指令集方面,新的Cortex A15除了继承ARMv7系统,增加了Large Physical Address Extensions (LPAE),使得处理器最高可以访问多达1TB的内存,能有助于扩大计算设备的内存容量和带宽。
而在缓存方面,新的Cortex A15极大的优化了一级缓存,数据和指令各拥有独立的32KB缓存,延迟得到极大降低,另外功耗也得到明显改善,核心之间的交流也得到增强,支持多核开发的软件开发也得到极大改善。在二级缓存,方面,Cortex A15提供高达4MB的二级缓存,支持的速率也更高,显著降低了芯片的功耗。
而针对多核这一发展趋势,ARM也没有止步,新增加的AMBA 4技术专门为多核的Cortex A15设计,使得核心能够更好的利用缓存,而软件的开发也得到了简化。结果是那些对高带宽要求的应用包括游戏,服务和网络能够有效的将多和凝聚起来,提高运算效率。
另外针对Cortex A9的多媒体性能表现不如预期,ARM在新的Cortex A15上又重新把NEON高级SIMD指令集和Floating-Point Unit(FPU)作为必配融入到Cortex A15,使得的媒体处理器速度得到显著提高。
值得注意的是新的浮点单元采用了VFPv4架构相对VFPv3能够提供更高的性能,而且新的VFPv4架构也将荣早期基于ARM浮点单元协处理器。
随着科技的不断进步,首批Cortex A15将采用32nm、28nm(TSMC/GlobalFoundries)工艺制造,未来会一直延伸到20nm。Cortex A15主频最高可达2.5GHz,并可根据不同应用领域灵活调整,比如智能手机和移动计算的1-1.5GHz单/双核心、数字家庭娱乐的1-2GHz双/四核心、家庭和Web 2.0服务器的1.5-2.5GHz四/八核心乃至更大规模互联。
作为Cortex-A系列家族的最新成员,Cortex-A15是一颗具备广泛软件与功能兼容性的处理器,为操作系统虚拟化、软错误纠正、更大内存寻址能力、系统一致性提供了高效的硬件支持, 同时保留该系列低功耗设计优势,以及全面的应用兼容性,可立即投入现有开发者、软件生态系统,包括Google Android、Adobe Flash Player、Java SE、JavaFX、Linux、Windows Embedded Compact 7、Symbian、Ubuntu,还有七百多家ARM Connected Community社区成员提供应用软件、硬件、软件开发工具、中间件、SoC设计设备。
Cortex-A15处理器将获得同步开发、专门优化的ARM物理IP的支持,同时还会支持一系列ARM技术,包括AMBA 4兼容CoreLink系统IP、CoreSight调试和追踪IP、Mali图形核心和一系列开发工具。
随着工艺以及技术的发展,ARM也在与时俱进,从ARM926最早采用180nm工艺,而不久后基于Cortex A15的芯片将搭载全新的28nm工艺,晶体管密度提升不知多少倍,另外工艺的演进,相应的能效也在不断提高。
目前主流的Cortex A系列ARM规格
从上图我们发现早期的ARM926由于工艺和技术的显示,Dhrystone性能只有1.1 DIMPS/MHz,另外收到工艺的限制,早期的ARM926采用了180nm工艺,频率设计最高只有200MHz,严重制约了性能的提升,而目前的Cortex A9最多可集成4个内核,单颗内核的Dhrystone性能达到了2.5 DIMPS/MHz,提升了1倍多,另外Cortex A9普遍采用了65nm或40nm工艺,频率也得到极大提升,性能优化后的双核Cortex A9频率可达2GHz,提升幅度达10倍。
移动互联网逐渐朝一体化趋势发展
相信随着工艺和技术的不断发展,ARM性能达到主流PC性能也不是问题。ARM精简的指令集使得运算也更加高效,更具市场竞争力,ARM处理器可以实现较高性能、较小代码大小、较低功耗和较小硅面积的良好平衡,使得移动互联网时代渐趋成熟。■
<