江南体育app手机大模型背后的AI芯片暗战挑战的不只是摩尔定律智能手机集成AI技术已非新鲜事,自2017年起,AI便开始在图像降噪等处理任务中发挥作用,并逐步扩展至帧率优化、画质增强等场景应用。然而,这些早期应用所依赖的模型参数量通常不超过1000万,与当前讨论的端侧大模型相比,其规模相差很远。如今,即使是最小的端侧大模型,其参数量也已达到10亿,是早期模型的100倍。尽管如此,这些10亿参数级的模型也只能执行一些基本的文本处理任务。
考虑到手机用户对多模态(文本、图像、视频等)处理的需求,甚至需要动辄百亿参数的模型才能提供满意的用户体验。手机运行如此大规模的模型,需要至少13GB的内存和130GB/s的带宽。然而,观察到2023年旗舰手机的配置,内存通常为16GB,带宽为50GB/s,这样的硬件配置使得在手机上运行大模型看起来几乎成为不可能的任务。
尽管如此,手机厂商和用户都渴望将大模型集成到手机中。手机行业增长放缓,厂商急需新体验来打破僵局。集成大模型的手机承载着新的重要任务——打破传统应用壁垒、垂直整合软硬结合的新生态。同时,用户对大模型的认知逐渐形成,他们期望能够在智能手机上享受到大模型带来的便利。
2023年下半年开始,我们逐渐看到各大手机厂商争相进入大模型赛道,而背后,芯片厂商正在赋能。芯片的进化被认为符合摩尔定律,那就是每24个月左右,晶体管的密度就会成倍,目前摩尔定律的速度已经明显放缓,每年仅能增长20%-30%,而以端侧AI的复杂度来讲,每年需要底层硬件提升的性能则需要达到至少两倍。如何突破摩尔定律的瓶颈从而达到用户期待的性能需求,考验的是芯片厂商的创新能力。
另外,除了芯片本身的性能,如何能让芯片在手机上发挥最大的能效来达到更好的体验,还需要芯片厂商的生态能力、服务能力等各个方面的持续发力。
在这场手机芯片大进化的背后,联发科和高通是最受瞩目的两大玩家。在2023年10月的骁龙峰会上,高通发布了骁龙8Gen3,支持运行100亿参数端侧大模型。紧随其后,联发科发布了天玑9300,支持运行10亿至330亿参数的端侧大模型。
AI能力的增强正成为芯片厂商新的竞争焦点。本期《AI未来指北》端侧大模型系列,将深入探讨手机端侧大模型背后的软硬件创新。我们对话了联发科技计算与人工智能技术事业群副总经理陆忠立博士,作为这场AI芯片进化的亲历者和推动者,在本次对话中,他分享了关于这一领域的一些关键见解:
Allen(陆忠立)你好,端侧大模型是目前行业关注的一个重要方向,我们看到今年各大手机厂商的一个宣传重点就是端侧大模型,这对产业来讲,会是一个巨大的机遇吗?
我们认为这是一个千载难逢的机会,就像大家所讲的AI是iPhone Moment。现在的大模型让智能手机从Smart Phone变成了AI Smart Phone这样的概念。传统的智能手机可以下载APP,这些APP让你的手机变得很聪明,这个智能并不是手机变智能,对于使用者而言,只是在消费内容而已江南app。
现在端侧大模型出现,会颠覆原来的使用体验。举例来讲,你现在买一个东西可能要到多个电商平台去找最低价的产品,或者通过比价网站找到性价比最好的产品。如果有一个AI助手或智能体,它能够自动帮你去做这些事情,找到最适合你的产品。这样的话,从“你”的角度来讲,这才叫AI Smart Phone。AI Smart Phone和Smart Phone最大的区别就是它能更了解使用者,让使用者更容易达到他想要做的事情,而且是完全朝着对使用者有利的方向。我们觉得现在看起来大模型、多模态、智能体这一系列的发展,就是往这个方向在走,让所谓的智能手机变得更智能化,成为AI Smart Phone。
我们认为大模型后面会变成一个新的入口,主要就是因为它可以智能化地跟使用者沟通。但是大语言模型仅仅是第一个阶段;第二个阶段则是多模态。第一阶段大语言模型,就像大脑,它能够跟你对话,到了第二阶段就等于多了感官,多了眼睛、耳朵。所以它能够接收到更多的资讯,能够更深入地理解使用者的意图,也更能够全面了解这个世界,我们都能看到,像谷歌最近发布了双子星(Gemini),苹果前几天也发布了它的多模态模型。
从我自己来讲,我会的。即使在目前这个阶段,我们已经看到一些颠覆性的应用,后面只会有越来越多的应用。另外,现在99%的大模型都是运行在云端上算力很强,不过本地端会有无法替代的几个优点:第一就是隐私性的问题。因为很多隐私信息,比如说我的声音或者是影像,我并不希望被上传到云端变成训练材料的一部分。另外可以做个性化,如果说语言模型根据你的声音来更适配,准确度可能会更高。第三,我目前觉得最重要的部分是成本。像我刚刚讲到的云端APP,每个月还是要交一定的钱。假设这个能够跑在端侧,原则上大概除了你一开始买手机的费用,后面基本上就是免费的。
端侧大模型很大一部分的确是受限于芯片处理的能力。大模型目前我们看起来有三个需求,一个是刚才您提到芯片算力的部分,另外还有两个很重要的部分,一个是内存的容量,还有内存的带宽。甚至在某些情况下,内存的容量跟内存的带宽会影响到整个大模型执行的性能。所以端侧来讲,目前我们看到的是芯片很大部分决定了你在端侧大模型能够跑的大小,或者是速度。举例来讲,以2023的旗舰手机来讲,算力大概都是在40TOPS到50T(TOPS)左右,内存的容量大概是在16GB,内存的带宽大概是在50GB/s,大概是这样的数字。
我并不认为是越大越好,最重要的还是适配性的问题,需要的模型规模与要完成的具体特定工作有关。举个例子,如果仅仅是处理文章的摘要,我们发现10亿参数左右的大模型能够达到的效果其实跟ChatGPT的效果差不多江南app。如果你要进行一些对话,需要的内存带宽,还有算力也会越大,这个连带影响需要的功耗也会越大。我想大部分人也不希望买一个智能手机,做了简单的对话,但是马上就没有电了。所以手机大模型的参数量要考虑到性能和功耗的平衡,根据用户所需要的性能以及目标应用有哪些来决定大模型的参数量。
我们都知道在云端跑大模型成本很高,那么在手机端侧,具有AI能力的芯片成本会增加多少?用户会不会对成本的增加有所感知?
以芯片成本来讲,如果加上执行大模型的能力,对于整个芯片来讲会有一些成本的增加。芯片并不只是在执行大模型,芯片里面有CPU、GPU、APU,还有各种不同功能的模组。刚刚讲的大模型主要是增强在APU方面的性能和面积,所以对于整体的成本增加有限,以有限成本的增加换取整个大模型在端侧执行,可以让使用者的体验有远超以往的改善。02
当生成式AI加上我们可能越来越复杂的游戏需求、拍照需求,对手机芯片的要求是不是越来越高了?摩尔定律失效了吗?未来可能有哪些更好的方法去突破这种手机的芯片能力极限?
摩尔定律是18个月,或者是每24个月它的晶体管密度就会成倍,但是到了先进制程我们看到整个趋势是变慢下来,以目前来看的线%。从应用层面来看,联发科技也大概做了一些统计,以端侧AI模型的复杂度来讲,每年增加的幅度可能都是两倍、三倍,甚至是十倍,所以看到这两个的确是有蛮大的差距。这个差距没有办法完全靠摩尔定律来弥补,所以就需要在硬件上面有所创新。另外更重要的,是在算法和软件层面的创新。
技:天玑9300,采用了全大核的设计,这个做法很激进,也在尝试突破摩尔定律的创新吗?陆忠立:
如果说摩尔定律提供的性能是比较有限,我们就需要在架构上面做一些创新,全大核的架构基本上从这个点开始出发的,同时我们的工程团队也的确能够解决全大核的一些挑战。
看需求,AI的需求会比较高一点,百分比会比较高,在30%到50%左右,CPU和GPU可能会稍微低一点,因为之前成长很快,现在越来越困难,所以百分比就会比AI低一点。腾讯科技:
这有点像当初遇到的一个问题,把长颈鹿放到冰箱里,第一步先打开冰箱,然后塞进去。其实到后来也就是这个样子,一开始发现说塞不进。我们从去年(2022年)开始就已经有看到大模型这件事情,那时候觉得离手机来讲还是有点远。因为那时候的模型就是ChatGPT,大概1750亿参数,跟手机能够做的实在相差很远。不过我们还是有一直在关注这件事情,我们事实上从2019年就开始在基于Transformer模型在做一些应用,跟我们的客户端在很多视频及拍照场景就有落地。
所以后来看到大模型也是基于Transformer的架构,所以我们也在思考有没有可能把这样的东西放到端侧。只是说那时候觉得距离差得很远。
回到我们说的手机大模型,即使7B,其实跟原来的手机AI模型也差距很大。原来的手机AI模型,参数量一般来讲大概是在1000万参数以内,到目前的手机端侧大模型最小的1B也已经是10亿,所以基本上要加上100倍的样子。如果你要更大一点,就要1000倍。如何把这样的模型放到端侧,研发同仁花了很多的时间去想办法拆解,这是第一步。
其实硬件、软件都要,以及跟厂商合作。因为端侧大模型准不准是厂商说了算,他们知道要问什么问题或者什么应用,以及要什么样的答案,那都是由厂商这边的QC或者QA还有RD来决定。联发科技的角度就是提供平台,提供对应的工具链,能够让客户跑得顺。如果结果准确度有什么问题,大家一起来讨论怎么来解决这个问题。
这是很好的问题。我们自己判断会有三类重要的终端。第一是刚刚提到的智能手机;第二就是PC,现在都有所谓的AI PC的出现,也是让你的PC更有智能,可以做更多内容的创作和生产力的提升;第三个很有潜力的是在车用,主要像新能源车,因为它能提供更好的使用者的体验跟自然语言交互的界面,会让你跟汽车的互动变得更方便。我们觉得大概这三个会直接受到大模型的影响或者助力。当然,随着时间的推移,还会再传播到其他的终端。
我们判断大概分成三步走:第一步就是现在的大语言模型,主要就是文本进、文本出。第二步就是现在已经在发生的,就是所谓多模态。因为刚刚讲这种大语言模型比较像人的大脑,有的时候是一本正经江南app,有的时候也会胡说八道。不过再来就是要有更多的感官输入,包含视频、图像、声音进来。产出的内容也是一样,不是只产生文本,也会产生视频和图像的输出,这就是现在多模态在专注的事情。
因为手机本来就是多模态的设备,这样更能够感受到整个环境的需求,比较深刻理解目前要做的一些任务或者一些事情,也会提供更多的服务。这就是现在看到的好几家公司都已经推出多模态的模型。
基于这些新的模型,也有一些新的做法。主要还是集中在刚刚讲的两方面,一些是硬件的演进,突破算力。第二个非常重要,甚至有时候更重要的是在算法上面的改进。这些算法的改进,就让这些多模态的大模型能够在端侧执行。第三步就是到智能体的部分,除了刚刚讲的能够多模态进来以后,还能善用工具或者善用APP执行任务。