直指端侧痛点豆包向推理算力又“砍了一刀”：新模型架构最高降本83%

①该架构在保证模型效果的前提下，推理速度较传统的MoE架构提升2-6倍，推理成本最高可降低83%；
②大模型的推理能力对应的是端侧AI工具的响应能力和速度，直接影响用户体验；
③先前的研究者提出了MoE和PKM（Product Key Memory）方案，但它们都有各自的局限性。

人工智能

关注

《科创板日报》2月12日讯（编辑宋子乔） 豆包概念股午后大幅走强，汉得信息一度拉升封板，广和通、移远通信、润欣科技、博通集成等纷纷大幅冲高。

消息面上，据豆包大模型团队消息，字节跳动豆包大模型Foundation团队近期提出一种全新的稀疏模型架构——UltraMem，该架构在保证模型效果的前提下，推理速度较传统的MoE架构提升2-6倍，推理成本最高可降低83%。

这项创新成果已被机器学习和AI领域的顶级会议ICLR 2025接收，为解决大模型推理效率和扩展能力问题提供了全新思路。

直指大模型推理场景中的痛点

大模型的推理能力对应的是端侧AI应用/工具的响应能力和速度。随着模型规模的扩大，推理成本和访存效率已成为限制大模型规模应用的关键瓶颈。

在Transformer架构下，模型的性能与其参数数量和计算复杂度呈对数关系。随着LLM规模不断增大，推理成本会急剧增加，速度变慢。

为了解决计算问题，先前的研究者提出了MoE和PKM（Product Key Memory）方案，但它们都有各自的局限性：

MoE架构牺牲了效率：MoE架构成功将计算和参数解耦，通过稀疏激活专家的方式，在训练阶段有效减少了计算量，但在推理时，由于模型在推理时只能一个字一个字的生成，batch size（批量大小）和sequence length（序列长度）通常较小，少量的token即可激活几乎所有的专家，进而导致访存急剧上升，进而使推理延迟大幅增加。

PKM架构牺牲了效果：PKM架构通过引入“行路由”和“列路由”机制，这种方法让每个token在推理时仅仅只激活极少数的value（与提示模板中的内容相关联的数据或信息），所以推理时不会遇到访存瓶颈，但其效果很差，且扩展能力有限，难以应对更大规模的模型需求。

这些局限性使得MoE和PKM在推理效率、模型效果和扩展能力等方面的优化空间仍需进一步探索。UltraMem正是为了解决上述痛点。

据介绍，UltraMem参考了PKM的设计，但针对PKM的缺陷予以补充，以实现更高效的访存、更优质的检索，同时，降低了显存和部署成本，其优势主要在于：

降低推理成本：与传统的MoE架构相比，UltraMem在推理成本上实现了最高83%的降低，这对于大规模模型的部署和运行具有重要意义。

提升推理速度：UltraMem的推理速度相比MoE架构提升了2-6倍，这使得模型在处理大规模数据时更加高效。

保持模型效果：在降低推理成本和提升推理速度的同时，UltraMem还保持了模型的效果，确保了模型的准确性和可靠性。

豆包研究团队在151M、680M、1.6B三个不同规模的模型上进行了广泛的实验。实验结果表明，UltraMem在模型效果和推理速度方面均优于MoE和PKM架构，且在680M、1.6B上具有显著的效果优势。

无论是训练端还是推理端，当大模型厂商卷起成本，意味着AI应用将在未来更加高效、易用。

推理成本大幅降低，将助推AI技术在更多领域的应用成为可能，尤其是对于资源受限的场景，如边缘计算和移动设备等，能让更多企业和开发者有能力使用和部署AI模型。

对于用户而言，UltraMem架构的突破、推理速度的提升可使AI应用如智能助手、自然语言处理等在实时应用中响应更迅速，交互更流畅，优化用户的使用体验，提高内容创作、日常办公等场景下的效率。

特别声明：文章内容仅供参考，不构成投资建议。投资者据此操作风险自担。