中信证券：OpenAI o1推理升级，关注强化学习新机遇

中信证券杨泽原、丁奇、马庆刘 2024-09-18 08:39

Play

语音播报

00:00

/

00:00

①新模型在训练和推理端同步推动算力需求倍增，算力产业链景气度持续上升；
                ②应用端进一步降低各领域应用开发成本，推理性能提升扩展强逻辑场景覆盖，加速各领域应用落地。

中信证券研报指出，OpenAI o1模型升级思维链和强化学习，重点提升模型推理性能，代码、数学、科学等强逻辑领域能力大幅提升，持续探索AGI实现新方式。新模型在训练和推理端同步推动算力需求倍增，算力产业链景气度持续上升；应用端进一步降低各领域应用开发成本，推理性能提升扩展强逻辑场景覆盖，加速各领域应用落地。建议持续关注相关领域的头部AI公司。

▍事项：北京时间9月13日凌晨， OpenAI发布o1模型；OpenAI o1具备复杂推理能力，代码、数学、科学领域达到顶尖水平。

o1可将任务拆解成多个简单任务，构成完整思维链并进行优化，提升最终回答的逻辑性、综合性、准确性。当前preview版本已开放给5级API用户，并将在下周向企业和学术用户优先开放。根据公司官网，编程方面，模型在Codeforces竞赛上超过83%的专业人员。数学方面，以2024年的美国数学邀请赛为测试集，o1单次生成可解决74%的问题，多次生成后进一步提升正确率到83%，而GPT-4只能解决12%的问题。科学方面，模型GPQA Dimond测试集正确率78%，超越人类专家70%水平。

▍技术解析：强化学习+LLM寻求最优路径，奖励模型泛化问题尚需验证。

参考OpenAI官网及DeepMind的论文Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters（Charlie Snell，Jaehoon Lee，Kelvin Xu等），我们推测o1模型将复杂任务拆解成多任务构成的思维链，并采用类似强化学习（RL）的模式，通过各节点行为优化寻求最优路径。其中，奖励模型决定优化方向，拥有明确评判标准的领域更具优势，因此o1模型在代码、数学、科学领域表现更优，而在写作、编辑等任务上表现暂时不及GPT-4o，未来奖励模型能否准确评估其他的输出结果，是相关技术路线发展的核心问题之一。

▍算力投入：强化学习带来算力投入和推理成本倍增。

根据OpenAI测算，训练和推理端用于强化学习的算力投入与模型效果依然成正比，大模型获得全新有效算力投入途径，有望带来数倍于传统大模型的算力需求。其中模型推理端算力需求增长显著，根据公司官网，当前o1-preview模型生成时间可达分钟级，API定价输入15美元/百万Token和输出60美元/百万Token，较GPT-4o输入5美元/百万Token和输出15美元/百万Token的定价有数倍增长。根据英伟达CEO黄仁勋在Communacopia + Technology会议上的发言，海外Blackwell系列需求旺盛，算力行业景气度持续上行。

▍应用展望：加速开发成本优化，Agent能力提升B端率先受益。

短期聚焦代码、数学、科学等强逻辑领域，其中AI代码生成将推动全领域开发效率提升。根据微软财报，海外GitHub Copilot Q1付费用户数超180万，同比，国内工商银行软开中心编码助手生成代码量占总代码量的比例超32%，o1模型代码能力，有望进一步提升AI辅助开发效率。未来模型通过奖励模型泛化有望扩展更多行业，加速对边缘行业和场景的覆盖，思维链结合工具使用、知识库等能力应用，可以形成更强Agent性能，服务企业汇总、分析、预警、预测、管理等强逻辑任务需求。

▍风险因素：

AI核心技术发展不及预期，AI被不当使用造成严重社会影响，企业数据安全风险，信息安全风险，行业竞争加剧。

▍投资策略：

OpenAI o1模型重点升级思维链能力，结合强化学习，提升代码、数学、科学等强逻辑领域能力，持续探索AGI实现方式。新模型在训练和推理端同步推动算力需求倍增，算力产业链景气度持续上升；应用端进一步降低各领域应用开发成本，推理性能提升扩展强逻辑场景覆盖，C端和B端应用有望加速。建议持续关注相关领域的头部AI公司。

财联社声明：文章内容仅供参考，不构成投资建议。投资者据此操作，风险自担。