泡泡网手机频道 PCPOP首页      /      手机     /      新闻    /    正文

解读Arm终端计算子系统:为AI提供性能与生态基础 加速AI终端普及

  AI成为科技行业新的趋势,在应用层面,我们可以看到种类繁多的AI大模型,同时包括手机以及笔记本电脑在内的终端设备也已经开始全面拥抱AI,当AI大模型以及其他AI技术被应用到手机以及笔记本电脑当中,AI手机以及AIPC开始出现,今年也可以看做是AI终端的元年,随着设备性能的增强,AI终端在体验以及效率方面将会迎来新的改变。

  提到性能的提升,那就要提到Arm,目前在AI手机上Arm架构得到了广泛应用,同时今年Arm也在PC领域实现了新的突破,有更多Windows on Arm的设备推出,并且在软件生态上也百花齐放,主流应用也已经完成了原生应用的适配,Arm正在逐渐完善AI生态的建设。

  随着对高性能计算的需求不断增长,Arm 持续将产品及解决方案迭代更新,运用领先的工艺节点,并提供可为实现端侧 AI 奠定基础的平台。

  开启AI新时代

  Arm终端计算子系统(CSS)是Arm首次在终端领域交付CPU和GPU的物理实现,这对于基于Arm架构的解决方案构建而言是一大进步,为芯片设计伙伴简化了设计过程并确保了性能的可靠性。Arm终端CSS的物理实现面向超过3.6GHz的运行频率,并在三纳米工艺上达到了—流的功耗、性能、面积指标。

  Arm终端CSS包含第二代Armv9.2 CPU集群,其中包括Arm Cortex-X系列中最为强大的CPU——Cortex-X925,以及效率新高的Cortex-A系列CPU——Cortex-A725和更新的Cortex-A520,这些设计专门针对三纳米工艺进行了优化,从而在性能和效率方面实现新突破。

  GPU方面也实现了图形处理的飞跃,基于第五代GPU架构,Arm终端CSS提供了旗舰级的Arm Immortalis-G925 GPU,以及面向更广泛市场的Mali-G725和Mali-G625 GPU,这些设计显著增强了图形处理能力,为移动设备解锁了前所未有的图形处理潜力。

  得益于新 Arm CPU 和 GPU 所取得的技术进展,在广泛的通用 AI 网络上,Arm 终端 CSS 的 AI 推理性能获得了显著的提升。

  CPU技术革新

  在CPU方面,Arm Cortex-X925是迄今为止Arm速度最快、性能最强的CPU,其单线程性能提升了36%,AI性能提高了46%,是旗舰产品的更优选择。 Cortex-X925主频达到了3.8GHz,Geekbench的成绩也提升了30%。

  此外,对缓存大小、先进的功耗与热管理技术,以及更新运行时 (Runtime) 选择上的进一步优化,也进一步推动设备性能提升,其性能将比当前的高端设备高出 36%。

  Cortex-X925在多种基准测试和用例中实现了显著的速度提升。例如,在Geekbench 6、应用启动速度及Speedometer 2浏览器基准测试中,提升了约 15%。

  AI方面,在热门的大语言模型上,Token首次响应时间缩短了约40%,同时在热门的 AI 网络中,推理速度提升高达 35%。在此基础上,如果再计入额外的缓存投入和工艺节点迁移提供的更高频率,能让设备实现更加出色的性能。

  Cortex-X925代表了Arm在性能方面的有一次重大飞跃,而在效率核心上,就要看Cortex-A700系列,全新推出的为Cortex-A725,Arm Cortex-A725是一款高效CPU,实现了性能与效率的平衡,与上一代相比性能效率提升了35%。

  此外,借助更好的预取器和更大的 L2 缓存,Cortex-A725的L3 流量减少了 20%。大语言模型对带宽要求非常高,减少对 L3 和 DDR 内存的压力,将为大语言模型提供了更多余量以提高性能。

  同时更新后的Cortex-A520在采用3nm工艺制程,并经过优化实现之后,功耗也能够降低15%,带来体验上的提升。

  DSU-120是Armv9架构中一个关键组件。针对DSU-120,Arm也进行了更新,加入了新的功耗模式,从而降低了50%典型工作负载的功耗,并且整个 CPU 集群的缓存未命中功耗降低 60%,从而减少漏电并延长设备的电池寿命。

  GPU性能飞跃

  从游戏体验到AI的应用,都离不开GPU,第二代基于 Arm 第五代 GPU 架构构建的GPU 产品,成为 Arm 终端CSS 的重要组件。其中包括新的 Arm Immortalis-G925 GPU、Arm Mali-G725 GPU 和 Arm Mali-G625 GPU,它们适用于从旗舰智能手机、高端手机,到智能手表、入门级移动设备等各类消费电子设备。

  今年带来的Immortalis-G925则是Arm推出的一款高性能、高效率的GPU,Immortalis-G925在图形应用中的性能提升了37%,在运行 AI/ML 网络方面,性能显著提高了 36%。与上一代相比,达到同样的游戏性能时,Immortalis-G925的能耗降低了30%。针对复杂对象的光线追踪,Immortalis-G925的性能提升高达52%。

  在游戏领域,与上一代相比,Immortalis-G925 的性能平均提升了 46%。单看各款游戏,《原神》的性能提升 49%,而《Roblox》的运行速度加快 46%。其他热门手机游戏的性能提升幅度均在 29% 至 72% 之间,包括《使命召唤手游》、《暗黑破坏神:不朽》、《明日之后》、《堡垒之夜》和《绝地求生手游》。

  与此同时,为了满足更加复杂的图形计算需求,Immortalis-G925 引入了片段预处理 (Fragment Prepass) 的新机制。借助该图形技术,应用无需进行任何对象或原语排序,并且在处理几何工作负载时,能够更高效地减少过度绘制。通过片段预处理,我们观察到由于无需对象排序,渲染线程周期缩短高达 43%。这不仅提高了性能和能效,也减少了 CPU 的负载。

  考虑到笔记本电脑以及游戏手机对于性能的进一步需求,Immortalis-G925所支持的着色器核心数量也达到了24个。

  Immortalis-G925 可配置 10 个以上的核心,并且具备光追技术,适用于旗舰智能手机等高性能消费技术市场。Mali-G725 可在六至九个核心之间扩展,主要针对高端手机市场。此外,它还能提供与 Immortalis-G925 相同的 API 支持,同时为 Immortalis-G925 目标范畴以外的稍低级别设备提供引人入胜的沉浸式游戏体验。Mali-G625 可在一至五个核心之间扩展,适用于智能手表和入门级移动设备。

  AI方面,在图像处理方面(包括分割和分类),Immortalis-G925 可实现 41% 的性能提升,在超级采样任务中,开发者可以使用神经网络放大图像,其性能可提高近 30%,而在自然语言处理和语音转文本,性能可提高 50%,同样十分惊艳。

  此外,Arm 正携手生态系统合作伙伴,以提高 AI 性能。通过与 Unity 合作,Arm帮助将 int8 支持引入面向基于 Unity 应用的 ML 框架 Sentis。采用 int8 后,其性能提升 44%,同时内存占用空间减少,从而改善了基于 ML 的移动游戏体验。

  Arm终端CSS突破性能极限

  Arm也打造了一个CSS的参考平台,并且运行安卓软件栈,参考平台基于3nm工艺,采用2+4+2的CPU集群配置,拥有2个Cortex-X925、4个Cortex-A725以及2个Cortex-A520,L3缓存大小达到了16MB,并在集群中所有核心之间共享,计算量大的工作负载实现了进一步加速。GPU方面选择14核心的Immortalis-G925,L2缓存为4MB。

  系统级缓存SLC从8MB增加到16MB,这主要是为了改善包含了主要受内存限制的操作或非常大的元素张量的 AI 工作负载,其可受益于更大的缓存大小。更大的 SLC 还有助于针对游戏工作负载提高系统效率。

  去年的Arm 全面计算解决方案(TCS23)相比,全新的Arm终端CSS为包括光线追踪在内的各种游戏内容平均实现了 30% 的性能提升,应用启动速度提速约 33%。对于不同AI 大语言模型 (LLM)的性能提升可以达到46%和42%。 Speedometer测量的浏览器性能得分大幅提高了 60%。

  除了性能的全面升级外,得益于应用了全新的Arm Immortalis-G925 GPU,Arm终端CSS在五款热门手游中(《使命召唤》、《Roblox》、《暗黑破坏神:不朽》、《明日之后》和《堡垒之夜》),在相同功率的条件下,其FPS性能平均提升37%;而在相同的120fps性能条件下,功耗显著降低30%。

  终端 CSS 还将为计算摄影工作负载提供高能效的性能,赋能新的视觉效果激发用户的创造力和表现力。 与去年的上一代产品相比,新的Arm终端 CSS在 CPU 上运行焦外成像工作负载算法的性能提高了 24%。这意味着用户可在不影响电池续航时间的前提下,在照片和视频上获得更快、更顺畅的焦外成像效果,让用户拍摄出美轮美奂且具有逼真焦外成像效果的照片和视频。

  针对AI领域,Arm 终端 CSS将进一步推动移动端 LLM 性能的提升,使其成为端侧生成式 AI 体验的更优平台。对于具有 3.8B 参数模型的Phi-3的词元首次响应时间(TTFT),Arm 终端 CSS实现了 46%的显著提升;而对于具有 8B 参数的更大模型Llama 3,TTFT性能提高了惊人的42%。

  与此同时,Arm 终端CSS为CPU和GPU上的AI推理工作负载带来了显著的性能飞跃。Cortex-X925 CPU与Cortex-X4相比,在17个主流AI网络(使用fp16数据类型)AI推理速度平均提高了59%,如果是配备了2颗Cortex-X925 CPU,要比1颗Cortex-X4提升了170%,AI性能有了非常大的提升。Immortalis-G925的AI推理速度平均提升了36%,实现了全面的升级。

  为AIPC带来全新体验

  Arm终端CSS 是一个可扩展平台,能够针对计算需求强大的大屏幕设备进行扩展。Cortex-X925 是Arm迄今为止性能最强的CPU,结合新的Cortex-A725,异构 CPU 集群使合作伙伴能够开发出最强性能和效率的PC。可扩展的DSU-120支持每个DSU集群多达14个核心的CPU集群配置,从而将基于Arm架构的PC的性能提升到新水平。

  凭借卓越的 AI 性能以及开发者易用性,Cortex-X925为 AI PC 奠定了基础。与 Cortex-X4相比,其TOPS增加了50%。Arm全新的KleidiAI技术也使用了SVE2来提供更优的AI性能。通过终端CSS,PC上也将会有Armv9功能,内存标记扩展 (MTE)、指针验证 (PAC) 和分支目标识别 (BTI) 等安全功能将引入基于Arm架构的PC中。

  Arm终端CSS是Arm面向安卓的最快速的计算平台,性能出色的同时也具备优秀的能效,从而实现更久、更丰富的移动体验。终端CSS为高端移动设备解锁了AI性能,并推动了AI 在更低价位的设备中的普及应用。

0人已赞

关注我们

泡泡网

手机扫码关注