把大模型装进手机，分几步？

来源：光锥智能公众号 2023-08-08 10:04:43

大模型“跑”进手机，AI的战火已经从“云端”烧至“移动终端”。

“进入AI时代，华为盘古大模型将会来助力鸿蒙生态。”8月4日，华为常务董事、终端BG CEO、智能汽车解决方案BU CEO 余承东介绍，通过盘古大模型的底层技术，Harmony OS带来了下一代智能终端操作系统。

(资料图片)

在手机上使用大模型早已不是新鲜事，此前ChatGPT、文心一言、妙鸭等APP、小程序都是通过调用云端算力，满足手机终端AI应用的需求。

下一步，则是让大模型直接运行在手机上。

从今年四、五月开始，美国科技三巨头——高通、微软、英伟达，最受瞩目的AI新星OpenAI，以及国内AI“头部战队”的腾讯、百度等，都已经纷纷加速推进在移动终端的轻量化部署AI大模型。高通甚至宣布，正在逐渐转型成一家智能边缘计算（在移动终端等数据源头提供计算服务）的公司。

巨头的群力强推下，大模型从云到端迈进的产业趋势已经十分明确。

大模型为什么

要“跑”在手机上?

大模型的最大特点就是“大”，动辄百亿千亿甚至万亿参数，且为了更好运行大模型，算力集群都已经升级到“万卡”级别。如今，为什么又非要把大模型“塞”进巴掌大的小手机?

大模型确实会给手机用户带来一些体验上的提升。例如，华为终端智能助手小艺不仅可以根据语音提示推荐餐厅，还可以进行摘要总结、信息检索、多语种翻译等信息处理，数千字的英文长文，具备大模型能力的手机智能助手就可以生成摘要，还可以翻译成中文。尤其后一点，在信息爆炸时代，对于提高学习工作效率还是很有价值的。

华为终端BG AI与智能全场景业务部总裁贾永利解释，一方面，大语言模型具备泛化能力，能够帮助手机智能助手提升理解能力。另一方面，大模型Plug-in的插件能力，可以在手机内部打通各应用之间的壁垒，借助工具拓展能力。

此外，ChatGPT等AIGC应用一直以来都伴随着强烈的隐私安全争议，但如果完全在端侧运行，就能够完全避免这一问题。因为大模型在端侧运行，数据也不会离开端侧。而且，这样响应的速度还会更快。

另一边，大模型对于到手机等移动终端的需求也已经非常迫切。

大模型的汹涌之势让云端越来越无法独自承载算力的需求。高通高级副总裁Alex Katouzian近期就直言，“随着连接设备和数据流量加速增长，叠加数据中心成本攀升，（我们）不可能将所有内容都发送到云端。”

不算数据传输要消耗网络带宽、存储，以及硬件等大量资源，光是云端算力现在已经让相关厂商有些吃不消。ChatGPT仅在推理阶段，保守估计每个月算力成本在1000万美元左右。

最大的问题还不是“贵”，而是“缺”。

此前，就连OpenAI创始人Sam Altaman都自曝GPU很缺，甚至直言不希望太多人用ChatGPT。近期，也有业内人士推测，小型和大型云提供商的大规模H100集群容量即将耗尽，H100的需求趋势至少会持续到2024年底。当前英伟达H100的产能还严重受制于供应链。

所以，云端和终端形成配合，手机等终端闲置算力资源被利用起来，解决“集中式”算力与“分布式”需求的错配，已经成为大模型发展“降本增效”的确定趋势。更重要的是，相比数量有限的中心节点，众多的移动终端堪称触及万千场android景的“毛细血管”，也就决定了这一入口会是大模型加速应用渗透的关键。

如何把大模型“装进口袋”?

“相比传统的PC或者服务器，移动终端最大的挑战就是如何平衡好体验和能耗，这是鸿蒙内核设计最重要的核心点之一。”华为终端业务软件部总裁龚体强调。

大模型需要大量的计算资源和存储资源，尤其是基于现有的手机硬件配置，这就需要软件系统做好协调，提升效率降低能耗。

现在手机为了提高性能，至少是8个芯片内核，就需要手机系统做协同，这个过程就会消耗大量算力。如果采用异构资源调度，就可以高效协调CPU、GPU、NPU。龚体表示，这样调度效率可以提升60%以上。

手机系统能够进行运算，调度的最小单位叫做线程，传统的操作系统中往往上万线程同时运行，其中就会存在大量无效线程。针对这点，就可以通过更轻量的并发模型来处理并发操作，降低无效线程切换对算力的消耗。据龚编程客栈体说，并发模型可以让任务切换开销节省50%。

另外，在操作系统的任务调度方面，这也是影响流畅体验的最基本要素，相比公平调度，动态优先级调度会很大程度降低能耗。动态优先级调度就类似于一个智能交通系统，可以根据道路状况和交通流量，动态调整交通信号灯亮起状态，如当某个方向的车流增加时，该方向的信号灯就提前变绿，就会减少拥堵和延迟。

不过，要想让大模型部署到手机上，还能运转起来，光是手机操作系统升级改进还远远不够。

随着大模型预测越来越准确，网络越来越深，神经网络消耗的内存容量已成为核心问题。同时，还涉及内存带宽的问题，网路运行时，内存、CPU和电池都会飞速消耗，这绝对是现在的手机难以承受之重。

因此，在php部署到手机之前，就必须对大模型进行压缩，以降低对推理算力的需求。但是，一定要确保原有性能和精度基本不变。

量化就是一种常见且重要的压缩操作，可以减少模型占用的内存空间，提高推理性能。本质上就是将浮点运算模型转化为整数运算模型，因为整数运算比浮点运算精度更高，运算速度也更快。

当前，量化技术也已经在加速突破。服务器上训练的模型一般采用32位浮点运算（FP32），在手机端，高通已经将FP32模型量化压缩到INT4模型，实现64内存和计算能效提升。高通的实现数据表明，在借助高通的量化感知训练后，不少AIGC模型可以量化至INT4模型，与INT8相比，性能提升约90%，能效提升大约60%。

大模型压缩技术，无疑是AI巨头制胜移动终端战场的关键因素。这也在一定程度上，解释了英伟达在今年2月为什么“悄悄”收购了掌握压缩大模型技术的人工智能初创公司OmniML。

大模型倒逼终端硬件升级

“本年度我们将能够支持参数达100亿的生成式AI模型在手机上运行。”高通产品管理高级副总裁兼AI负责人Ziad Asghar近期则对外表示，100亿-150亿参数的模型可以覆盖绝大多数AIGC用例。如果终端已经可以支持这一参数级别，运算可全部在终端上进行，手机会成为真正的个人助理。

但是，当前新一代旗舰版手机芯片也就可以承载运行10亿参数级大模型，高通在今年6月计算机视觉学术顶会 CVPR 上，成功演示的跑在安卓系统上的大模型，也不过15亿python参数。

参数跃升几乎十倍，奔赴移动终端的大模型已踩下“油门”，那手机也就不得不加速升级才能应对。

手机硬件亟需在AI加速器和内存进行革新。

首先，更大参数的大模型，需要更大的内存和存储空间来存储模型参数和中间结果。这就要求移动终端内存芯片容量，以及内存接口带宽都进行升级。

其次，更大的参数势必需要更强大的计算和推理能力，处理输入数据和输出结果。

虽然，目前手机芯片上的AI加速器（例如各种NPU IP）几乎已经是标配，但设计基本上是针对上一代卷积神经网络设计，并不完全针对大模型。

为了适配大模型，AI加速器必须能有更大的内存访问带宽，并减少内存访问延迟。这就需要AI加速器的接口上做出一些改变（例如分配更多的pin给内存接口），同时也需要片上数据互联做出相应的改变，来满足AI加速器访存的需求。

高通能喊出“年内100亿参数跑手机”的重要原因之一，就是其手握搭载了高通史上最快速、最先进的AI引擎的第二代骁龙8处理器，相比第一代骁龙8处理器，AI性能提升了4.35倍，能效提升60%。

当然，超大规模参数大模型的训练和推理，即便在云端也亟待突破五堵墙:内存墙+算力墙+通信墙+调优墙+部署墙，手机更得一层一层去突破。

不过，从“智能”到“人工智能”，对于手机来说，机遇大于挑战。

“创新周期对电子消费品的影响更为重要，甚至可以带领一个产业走出经济周期的影响。”荣耀终端CEO赵明判断，当前智能手机行业就处在一个AI、5G+开启的新一轮创新周期中。

把大模型装进手机，分几步？

来源：光锥智能公众号 2023-08-08 10:04:43

把大模型装进手机，分几步？

汶上县中医院加强“6+2”S管理，促“双提升”活动再上新台阶

国产海上系泊钢缆成功安装

8月7日基金净值：工银养老产业股票A最新净值1.559，跌1.83%

甘肃省公务员考试报名时间（甘肃省公务员考试什么时候报名

彩虹显示器件股份有限公司关于募集资金投资项目结项并将节余募集资金永久补充流动资金的公告

落地价370万元，4.0TV8+650马力！3.6秒破百！兰博基尼URUS

结婚纪念日礼物送老婆浪漫（结婚纪念日礼物送老婆）

海参泡发最好方法步骤（猴腿的正确泡发方法）

ncd故障码什么意思，柴油车dpf灯亮怎么办

车评头条：雅马哈跑车将使用1.5升涡轮增压

鉴于名义收益率接近当前周期的最高水平，且估值“略微下降”，摩根大通JayBarry等策略师建议建立5年期国债多头仓位

穿书后成了病娇师尊的掌中囚宠139

QQ三国小蛮猪精元图片（qq三国小蛮猪）

菏泽高新税务：开展 “全国个体工商户服务月” 活动

组图｜咸丰：老少齐上阵 ！“村BA”燃爆健身激情

dvd光盘刻录视频能播放吗（刻录dvd视频光盘）

蘋果業績失色，市值失守3萬億！一圖速覽機構最新評級

奔驰车主与保安争执将其顶车上开走 具体是什么情况！

上海专科批次征求志愿网上填报即将开始，院校（类别）缺额计划表公布

日久光电实控人陈超解质押1200万股，占总股本4.27%

杭州城建拟发行5亿元中期票据 用于偿还公司有息债务

综述：美国多地持续高温造成多重影响

葱长什么样子(葱长什么样)

打通服务最后一公里！兰陵县行政审批服务局探索审批新模式

冲突之下 苏丹面临传染病疫情发生风险

多彩课堂点亮缤纷假期

安徽五河持续开展“专精特新”培育行动

小红书开启首届“马路生活节”，探索“生活不在别处”新生态

2d横版手游排行榜前十名 2d横版网络游戏

能挂机的网游端游（能挂机的网游）

城景融合 近悦远来 福泉福地让游客流连

前国际级裁判谈张琳芃铲伤明天：7岁小孩都知道是红牌

两起航空产业链“小”并购后的大目标：备战下一代窄体机

成都大运会|中国队3:0力克葡萄牙队闯入男排半决赛

姚振华被打，白衣骑士亟待白衣骑士？

罗体：迪巴拉热身赛第35分钟早早离场，腹股沟不适但并无大碍

深圳宝安区建材市场批发市场在哪里 深圳宝安区建材市场

中印尼“两国双园”9个项目签约 28个项目开竣工

环境保护相关专业新旧专业对应表 环境保护相关专业

中泰证券：“金九银十”旺季将至，焦煤行情上涨不止

【甘快看】兰州市博物馆发布通告周一不闭馆

全球通银卡有什么待遇（全球通银卡是什么意思）

丢录取通知书、遗落背包、娃走丢……暑运期间，火车站频现“马大哈”

回归贴--下周主题战

创新领先 智造领先 绿色领先！伊利现代智慧健康谷擦亮中国奶业“三张名片”

什么酸奶减肥最快（什么酸奶减肥效果好）

尖椒苦瓜炒肉_尖椒苦瓜

古代的山东有多牛？顾维钧称它为中国的耶路撒冷，一点都不过分！

郎酒宣布人事任免，杨飞升任小郎酒事业部总经理

迷你世界怎么用触发器

2023年8月6日耐磨地坪金刚砂价格最新行情预测

【碧蓝档案/蔚蓝档案】全角色节奏榜（强度榜）以及综合评分榜（23.8.6）

阿富汗黄玉属于黄口料嘛

三分神射手！张敬一多图回顾大运会：大家都超棒的 谢谢大家

国乒包揽7金，中国代表团76金创大运会最佳战绩

华邦颖泰：全球领先的半导体解决方案提供商

三八妇女节不放假违法吗 三八妇女节不放假是不是违法吗

大运会-中国女篮险胜日本夺冠 韩旭18+10+9两人轰20+

8月6日，怀柔-密云线、通密线全部列车临时停运

189邮箱登录电信 189邮箱登陆登录

红米k40怎么设置相册密码

成都大运会丨大运会上的国际友人，开始用外语给串串香写评价了

评论 | 着力推动民营经济实现高质量发展

爱上中国传统文化 大运会赛场内外刮起“中国风”

过敏性紫癜不可以吃什么(紫癜不要吃什么食物好?)

山东省烟台市发布雷雨大风黄色预警

科技特派员“下沉”企业，助力沅江特色农业发展

富民县农业农村局_关于富民县农业农村局介绍

暑期档电影火爆 拉萨影院迎来观影高峰

渝湘高铁重庆至黔江段郭家山隧道顺利贯通

巴拿马运河“限行”措施实行至明年9月底 年收入或减少2亿美元

印尼41岁富婆与闺蜜16岁儿子结婚 基本信息讲解

青海省治多县发布暴雨黄色预警

中国取消对澳大利亚大麦“双反”，专家认为有益双方

资本市场政策暖风频吹 机构热议券商板块能否领衔新一轮行情

中国证监会发布2项金融行业标准

三角龙骨吊顶安装示意图（三角龙骨挂片怎么固定）

组图｜咸丰：老少齐上阵！“村BA”燃爆健身激情

奔驰车主与保安争执将其顶车上开走具体是什么情况！

杭州城建拟发行5亿元中期票据用于偿还公司有息债务

冲突之下苏丹面临传染病疫情发生风险

城景融合近悦远来福泉福地让游客流连

深圳宝安区建材市场批发市场在哪里深圳宝安区建材市场

环境保护相关专业新旧专业对应表环境保护相关专业

创新领先智造领先绿色领先！伊利现代智慧健康谷擦亮中国奶业“三张名片”

三分神射手！张敬一多图回顾大运会：大家都超棒的谢谢大家

三八妇女节不放假违法吗三八妇女节不放假是不是违法吗

大运会-中国女篮险胜日本夺冠韩旭18+10+9两人轰20+

爱上中国传统文化大运会赛场内外刮起“中国风”

暑期档电影火爆拉萨影院迎来观影高峰

巴拿马运河“限行”措施实行至明年9月底年收入或减少2亿美元

印尼41岁富婆与闺蜜16岁儿子结婚基本信息讲解

资本市场政策暖风频吹机构热议券商板块能否领衔新一轮行情

新疆巴州河流进入丰水期各级水电站满发助力电网迎峰度夏

中原CVI按周回升至32.25点银行估价取态续偏淡

吉高集团打造低碳智慧高速推动绿色交通迈向可持续发展

谍战剧《潜行者》正在热映全员演技在线！

加快智能化改造洛阳造起重机走俏海内外【组图】

骑共享单车都能碰到吴京长沙含“星”量飙升 “追星游”安排

龙泉股份：随着水利管网建设力度加大公司产品仍有较大需求

山河药辅业绩快报：下游复苏公司订单增长明显上半年净利同比增长逾三成

泰山保险邯郸市某支公司被罚遗失经营保险业务许可证

华安证券给予盐津铺子买入评级 23Q2收入延续高增盈利水平如期提升

2023绿色低碳高质量发展大会将现场签约103个项目总金额6371亿元

新业态增长强劲上半年规上文化企业营收近六万亿元

沪深交易所IPO零申报原因是这样的

同舟共济共渡难关 | 保定博野县东街村低洼处积水清理了

国家减灾委、应急管理部针对河北严重洪涝灾害将国家救灾应急响应级别提升至三级

工信部：上半年全国多晶硅、硅片、电池、组件产量再创新高同比增长均超过65%