文章详细-Arm SME2技术赋能端侧AI加速实现卓越移动端体验

　　试想这样的场景：当你正在发消息时，手机能在你输入过程中实时翻译文字，还能即时总结整段对话内容；或是在拍照时，手机能在你按下快门之前，迅速解析复杂场景画面，并自动对关键主体进行聚焦。换言之，以往需要停顿处理的手机应用，如今已能实时预判并满足你的需求。这种转变正是对当前世界的直接回应：每一次点击、每一次滑动、每一秒的关注都至关重要。现在的用户希望应用能够快速思考、即时响应，并妥善保护用户的隐私信息。这些需求最终落到了开发者肩上，开发者因而承受着越来越大的压力：不仅要让应用运行起来，更需要在设备端完整实现先进的实时体验，而无需依赖云端，同时还不能牺牲电池续航或减缓响应。令人欣慰的是，第二代 Arm 可伸缩矩阵扩展 (SME2)为全球数百万移动端开发者带来了端侧人工智能 (AI) 加速的功能，有助于实现更迅捷、更智能的端侧体验。随时随地高效加速得益于 Arm KleidiAI 与主流框架（包括 Google LiteRT、PyTorchExecuTorch、ONNX Runtime和阿里巴巴 MNN）的深度集成，SME2 可实现自动启用，将 AI 计算迁移至 Arm CPU 上。当今约 99% 的智能手机均运行于 Arm CPU 计算平台之上。此举不仅为开发者在处理其工作负载时提供了更大的灵活性，还能释放 GPU 的带宽资源。由于 Arm CPU 能在安全且一致的架构上处理混合计算管线，开发者无需为不同设备层级重新构建方案。只需优化一次，即可在整个生态系统中复用。SME2 通过为 Armv9 架构添加专用矩阵处理指令，使 CPU 能够处理支撑着当今大语言模型和视觉模型的密集数学运算，同时显著降低功耗与延迟。由此打造出可在数十亿台移动设备上运行的更具吸引力、更智能、更直观的应用，并带来切实可量化的提升表现，其中包括：AI 响应速度提升高达 5 倍；语音工作负载延迟降低 4.7 倍；音频生成速度提升 2.8 倍；在常见的移动端 AI 应用场景中显著节省电量。得益于此，支付宝可支持在设备上即时生成旅行视频，谷歌也能在其各类应用中提供实时摘要与翻译服务。对用户而言，应用体验变得更加迅捷、本地化且安全可信。对开发者而言，鉴于实时推理不再导致电量快速耗尽或手机过热，他们能够在相同的散热与功耗限制下挖掘更多可能性。开发者还可无拘束地进行创新实验，灵活适配多代硬件，并在 CPU 上实现以前只有服务器端才能实现的 AI 性能。一次构建，随处运行每个开发者都深知碎片化带来的挑战，包括各异的芯片组、不同的性能特性，以及无休止的调优工作。SME2 通过 CPU 实现 AI 加速的标准化，为开发者提供了统一、可移植的移动端 AI 基础。基于 SME2 构建的应用在 iOS 和安卓系统上都能实现一致的性能表现，从 vivo X300 系列和 OPPO Find X9 系列等旗舰手机，到搭载 Arm CPU 的中端和入门款智能手机，都能流畅运行。无论是要为创意类应用优化视觉模型，还是面向全球市场部署语音助手，代码的运行效果都可精准预判。这不仅简化了测试流程，减少了性能倒退问题，还能加快产品上市进程。随着 Arm 架构的持续演进，KleidiAI 会自动实现性能提升，无需开发者重构代码 —— 这正是打造一个能与开发者共同成长的平台的价值所在。开发者只需更新其框架、启用 SME2，就能直观感受到应用运行速度的大幅提升。端侧智能的下一个前沿领域归根结底，端侧 AI 的核心并非为设备堆砌更多智能功能，而是让智能更贴近用户的日常应用场景。与此同时，用户不愿等待技术追赶需求，开发者也无需等待。借助 SME2 和 KleidiAI，开发者将能够弥合这一差距，将 CPU 变成现成可用的 AI 引擎，实时响应用户的每一次点击与交互。因此，作为开发者的你，如果要打造新一代卓越的移动端体验，不妨聚焦于最重要的层面，从核心入手。更新你的框架，启用 SME2，然后见证当智能响应跟上用户操作速度时，你的应用力所能及的表现也将达到新高度。* 本文为 Arm 原创文章，转载请留言联系获得授权并注明出处。