专家特稿：大模型加速终端全栈式颠覆

慧聪通信网 2023-08-28 11:04 来源：通信产业网

【慧聪通信网】（文 | 中国电信研究院战略发展研究所所长饶少阳）7月6日，高通在2023世界人工智能大会上演示了文生图模型Stable Diffusion、图生图模型ControlNet在手机上独立运行的过程，加速大模型向终端转移。5月10日，谷歌发布最新版通用大模型PaLM 2的多个版本，其中轻量级版本可用于移动端，开启了大模型从云端到终端的新空间。

终端性能的持续提升，大模型的云-端协同模式，可以实现手机、汽车等终端应用个性化定制，兼顾用户隐私保护，未来将成为大模型切入公众市场，实现万物智能的重要方式。

将引发终端新变革

将大模型部署到终端，更有利于大模型应用获得规模推广，实现创新迭代。除了移动网络代际能力提升以外，智能手机的普及也是加速移动互联网发展的重要原因，汽车、手机终端、XR计算性能持续提升，为大模型实现云-端协同创造了条件，未来几年基于大模型的终端应用将实现快速发展。

目前，搜索引擎、办公效率工具的大模型加持多是基于办公环境和PC终端，虽然OpenAI推出iOS手机ChatGPT应用，并快速霸占AppStore应用下载榜首，但大模型与手机终端的深度集成应用仍然处于发展初期。全球有超过60亿智能手机，打造真正的个人智能助手，是大模型真正实现大规模应用推广和持续迭代创新的基础。

大模型的端侧运行具备成本、安全、个性化和便捷性等优势。

一是通过终端独立运行以及云-端协同承担计算负载，可大大降低云端算力需求及能耗成本。如生成式AI搜索的成本是传统搜索的10倍，随着用户数量和查询次数的增多，大模型推理的运营成本将是一个天文数字，借助终端自身算力可以降低云端资源消耗。

二是大模型在终端侧的部署（推理）可以增加用户在“弱网”“溢云”等极端场景的使用，保证低时延、高可靠性。

三是大模型终端凭借数据本地化处理优势，能在保护用户隐私（例如个人图片、视频、通话记录、通信录和位置等）的同时生成用户使用习惯画像，打造个性化和定制化应用，提升体验。

四是终端具有自然语言语音交互的天然优势，可以便捷地获取图片、照片、视频、位置等信息，具有丰富的个人立体化数据，有利于未来多模态大模型的发展。

大厂布局抢占生态和入口

高通：借助终端芯片优势，打造终端侧AI软硬件全栈式能力，加强大模型市场布局

高通基于硬件、软件、算法，及模型等创新，实现全栈式AI优化。高通在手机上演示的ControlNet用例，可在12秒内生成一张AI图像。此外，高通对量化、压缩、编译、神经网络等领域也有研究，如将FP32模型量化压缩到INT4模型，实现64倍内存和计算能效提升。

高通预测，未来几个月内随着终端侧处理能力的提升，将支持拥有100亿或更高参数的模型运行，并且生成速度将大幅提升。

谷歌：依托Android生态优势，加快云-边-端体系化大模型产品的布局

谷歌依托大模型研发能力，正不断横向扩展产品类型、纵向打造应用生态，旨在重现Android生态发展的黄金十年。谷歌推出适合云-边-端的大模型PaLM 2，同时开发边缘端大模型Gemini，适配基于自研芯片Tensor G2的各类终端，进军边缘端大模型市场。

阿里云：以智能家居为切入，意欲抢占基于大模型应用的智能交互入口

阿里云已开启天猫精灵音箱大模型终端操作系统内测，包括知识探索、共情互动、生活妙招和灵感启发四类对话场景。据悉，该版本对大部分的存量智能硬件也适用，可几十秒内在线升级，并将陆续覆盖眼镜、智慧屏等终端设备，集合了达摩院NLP、语音、视觉、3D构建驱动，大模型团队及天猫精灵AliGenie交互系统专家智慧，旨在打造一个多模态大模型数字人以接管未来智能交互入口。

华为：以手机应用为导向，聚焦终端侧大模型轻量化应用

华为最新发布的P60系列升级了智慧搜图功能。基于多模态大模型技术，智慧搜图对亿级图文数据进行预训练，支持包含颜色、形状、物体、行为、时间和地点等多信息组合的自然语言搜索，通过在手机端侧对模型进行小型化处理，华为在业界率先实现了自然语言手机图库搜索体验。

三举措实现终端最佳部署

各大主流厂商、云商纷纷加快大模型从云端向到终端转移，以终端为锚点，云端仅作为分流承载终端无法充分运行的AI任务，如模型训练等。目前业界主要从大模型轻量化减小部署成本，全栈化AI软件简化管理及部署难度，提升硬件性能三个方面进行升级改造，以实现大模型在终端的最佳部署。

大模型轻量化

通过量化、参数剪枝、知识蒸馏等手段，减少大模型的资源消耗，降低大模型对推理算力的需求，以便在计算、内存等资源有限终端部署和运行。高通实验数据表明，通过量化感知训练，生成式AI模型可以量化至INT4模型，与INT8相比，性能提升约90%，能效提升约60%。

AI软件全栈化

AI软件栈是集成了AI框架、开发者库、操作系统的整合平台，是实现大模型在终端侧高效率部署、AI应用多终端复制的关键，旨在为OEM厂商和开发者提供完整的AI解决方案。AI软件全栈化。如高通AI软件栈支持所有主流开发框架（含TensorFlow、Pytorch和ONNX等）和操作系统，可执行底层硬件的全栈AI优化，同时具备“一次开发，多终端使用”的特点，支持AI应用由单一手机终端扩展到PC、车载等多种终端。

硬件性能提升

以高通、Intel等为代表的硬件厂商，加大终端高性能芯片或硬件平台，以支撑大模型在终端侧实现本地化运行。例如，高通第二代骁龙8平台能够支持 Stable Diffusion 这一超过 10 亿参数的模型在终端侧运行，实现在 15秒内完成 20步推理，生成饱含细节的图像。未来几个月内，高通将有望支持参数超过 100 亿的模型在终端侧运行。

趋势判断

随着大模型的技术演进以及应用规模化发展，在终端侧轻量化大模型的部署将成为把控智能交互新入口的关键，将成为面向公众市场的新蓝海。

大模型厂商与各类终端厂商将联手抢占智能交互入口。终端大模型软硬件厂商，安卓、麒麟等主流操作系统提供商，将联合Vivo、Oppo、联想、智能穿戴、智能音箱、车载系统等终端厂家，共同探索终端与大模型的深度集成应用，抢占用户的第一入口，推动大模型终端市场的成熟发展。

运营商作为云网算力提供商，将重点发力云-端协同。运营商将联合产业上下游，推出基于大模型的智能手机、智能穿戴、车载智能驾驶等定制化终端，提供云网边端的一体化产品及服务。

人机交互模式发生变革，App应用市场将带来颠覆性重构。大模型将成终端操作系统的核心组件，用户交互方式将从基于多点触摸和键盘输入转移到基于自然语言的交互模式，手机的设置、通话、短信，以及数以万计的App将基于大模型进行深度重构。

作者简介

饶少阳

北京邮电大学计算机应用博士，高级工程师，中国电信研究院战略发展研究所所长，长期研究云计算技术、业务和产业发展。

免责声明:凡注明来源本网的所有作品，均为本网合法拥有版权或有权使用的作品，欢迎转载，注明出处。非本网作品均来自互联网，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。