财联社
财经通讯社
打开APP
直指端侧痛点 豆包向推理算力又“砍了一刀”:新模型架构最高降本83%
Play
语音播报
00:00
/
00:00
NaN:NaN:NaN
①该架构在保证模型效果的前提下,推理速度较传统的MoE架构提升2-6倍,推理成本最高可降低83%;
                ②大模型的推理能力对应的是端侧AI工具的响应能力和速度,直接影响用户体验;
                ③先前的研究者提出了MoE和PKM(Product Key Memory)方案,但它们都有各自的局限性。

《科创板日报》2月12日讯(编辑 宋子乔) 豆包概念股午后大幅走强,汉得信息一度拉升封板,广和通、移远通信、润欣科技、博通集成等纷纷大幅冲高。

消息面上,据豆包大模型团队消息,字节跳动豆包大模型Foundation团队近期提出一种全新的稀疏模型架构——UltraMem,该架构在保证模型效果的前提下,推理速度较传统的MoE架构提升2-6倍,推理成本最高可降低83%。

这项创新成果已被机器学习和AI领域的顶级会议ICLR 2025接收,为解决大模型推理效率和扩展能力问题提供了全新思路。

直指大模型推理场景中的痛点

大模型的推理能力对应的是端侧AI应用/工具的响应能力和速度。随着模型规模的扩大,推理成本和访存效率已成为限制大模型规模应用的关键瓶颈。

在Transformer架构下,模型的性能与其参数数量和计算复杂度呈对数关系。随着LLM规模不断增大,推理成本会急剧增加,速度变慢。

为了解决计算问题,先前的研究者提出了MoE和PKM(Product Key Memory)方案,但它们都有各自的局限性

MoE架构牺牲了效率:MoE架构成功将计算和参数解耦,通过稀疏激活专家的方式,在训练阶段有效减少了计算量,但在推理时,由于模型在推理时只能一个字一个字的生成,batch size(批量大小)和sequence length(序列长度)通常较小,少量的token即可激活几乎所有的专家,进而导致访存急剧上升,进而使推理延迟大幅增加。

PKM架构牺牲了效果:PKM架构通过引入“行路由”和“列路由”机制,这种方法让每个token在推理时仅仅只激活极少数的value(与提示模板中的内容相关联的数据或信息),所以推理时不会遇到访存瓶颈,但其效果很差,且扩展能力有限,难以应对更大规模的模型需求。

这些局限性使得MoE和PKM在推理效率、模型效果和扩展能力等方面的优化空间仍需进一步探索。UltraMem正是为了解决上述痛点。

据介绍,UltraMem参考了PKM的设计,但针对PKM的缺陷予以补充,以实现更高效的访存、更优质的检索,同时,降低了显存和部署成本,其优势主要在于

降低推理成本:与传统的MoE架构相比,UltraMem在推理成本上实现了最高83%的降低,这对于大规模模型的部署和运行具有重要意义。

提升推理速度:UltraMem的推理速度相比MoE架构提升了2-6倍,这使得模型在处理大规模数据时更加高效。

保持模型效果:在降低推理成本和提升推理速度的同时,UltraMem还保持了模型的效果,确保了模型的准确性和可靠性。

豆包研究团队在151M、680M、1.6B三个不同规模的模型上进行了广泛的实验。实验结果表明,UltraMem在模型效果和推理速度方面均优于MoE和PKM架构,且在680M、1.6B上具有显著的效果优势。

无论是训练端还是推理端,当大模型厂商卷起成本,意味着AI应用将在未来更加高效、易用。

推理成本大幅降低,将助推AI技术在更多领域的应用成为可能,尤其是对于资源受限的场景,如边缘计算和移动设备等,能让更多企业和开发者有能力使用和部署AI模型。

对于用户而言,UltraMem架构的突破、推理速度的提升可使AI应用如智能助手、自然语言处理等在实时应用中响应更迅速,交互更流畅,优化用户的使用体验,提高内容创作、日常办公等场景下的效率。

人工智能 豆包AI
财联社声明:文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
商务合作
专栏
相关阅读
评论
发送
cls-1839916
厉害了~
02-12 07:20·上海回复
cls-g1po1k
才看到,汉得卖飞了啊
02-12 07:49·IP未知回复
道法自然丶
拉高出货了
02-12 07:49·IP未知回复
道法自然丶
拉高出货了
02-12 07:49·IP未知回复
天行健64
立昂技术
02-12 07:23·IP未知回复
天行健64
立昂技术
02-12 07:22·IP未知回复
www
02-12 07:01·IP未知回复
一六有财
用户一多,算力依旧不够用
cls-1377281 回复 一六有财除了消费有限,其他都是无限的,包括人
02-12 07:08·IP未知回复
02-12 06:15·广东回复
cls-1588730
人家DS搞出来,字节开始照葫芦画瓢了
红顶天 回复 cls-1588730所以DS还是真的是栋梁之材!
02-12 09:20·广东回复
02-12 08:55·IP未知回复
生产队的驴
是豆包的推理模型成本降低83%,还得看模型强不强,不要盲目冲
02-12 08:03·湖南回复
cls-3zqv2p
这个利好端侧,明天省广买不进了
02-12 07:47·IP未知回复
xu7686249
对应用是最直接的降本增效
02-12 09:49·浙江回复
cls-3zqv2p
省广集团必须涨停
02-12 09:41·IP未知回复
cls-z9nr6u
硬件完蛋。
02-12 08:51·河南回复
master
意思是梁文峰的模型也是小儿科,欧特曼的模型是幼儿园级的?[龇牙]
02-12 08:37·广东回复
cls-aj4e8w
这么小的模型有啥用?
02-12 08:37·北京回复
红顶天
AI这是要炒上天的节奏
02-12 08:16·广东回复
蓝天下的静湖
无论什么模型都要用算力,利好国产算力
02-12 08:08·山东回复
低调的过小日子
02-12 07:17·IP未知回复
炒股养家龙头板
哪吒和悟空由天龙集团和天舟文化字节跳动处理
02-13 05:27·湖南回复
股票我爱你
摸板[流泪][流泪][流泪]
02-12 10:59·山东回复
cls-mk46rb
无敌了
02-12 10:08·安徽回复
雾野_58
ai直接平铺了 锁仓一个月 时刻盯盘 不集体大跌 t都不带做一下
02-12 09:48·IP未知回复
老猫
越来越快
02-12 09:47·IP未知回复
红顶天
敢问一句,豆包是否敢开源?
02-12 09:30·广东回复
cls-1399127
省广集团必须涨停
02-12 09:24·江苏回复
多点赞来多涨停3916
02-12 09:19·IP未知回复
cls-1308377
11
02-12 08:29·北京回复
cls-1391028
穷游架构!
02-12 08:22·IP未知回复
胖胖0755
02-12 08:05·IP未知回复
燃点43
浙文互联那必须涨停
02-12 08:00·IP未知回复
阿布都妞子胖7462
好 事情
02-12 07:50·IP未知回复
南波万_
牛,汉dxx
02-12 06:49·重庆回复
milo
海天瑞声
cls-3e191f 回复 milo垃圾公司,不要碰
02-12 08:01·IP未知回复
02-12 06:12·湖南回复
没有更多内容