Kimi创始人杨植麟：Scaling laws依然有效强化学习是重点

①如果说长文本是月之暗面登月的第一步，那么提升模型深度推理能力则是第二步。除了数学推理模型外，几个多模态能力也在内测中。
                ②Kimi每月的活跃用户规模已经达到3600万。提升用户留存，成为目前最核心的任务。

《科创板日报》11月17日讯（记者黄心怡） 在月之暗面Kimi Chat上线一周年之际，Kimi发布了新一代数学推理模型k0-math模型，以及包含了k0-math强化模型的Kimi探索版，未来几周将会分批陆续上线Kimi网页版和Kimi智能助手APP。

“如果说长文本是月之暗面登月的第一步，那么提升模型深度推理能力则是第二步。”月之暗面创始人杨植麟在接受包括《科创板日报》在内的媒体采访时表示。

除数学推理模型外，杨植麟透露，几个多模态能力也在内测中。

作为炙手可热的AI独角兽公司，近日杨植麟陷入一场仲裁纠纷，并面临人才流失的质疑。

对此杨植麟回应称，并没有人才流失，而是主动选择做了业务的减法。

“先聚焦，然后全球化，需要更耐心一点。我们不希望把团队扩那么大，这对创新的影响是有致命性的伤害。如果想把团队保持在一定的规模，那么最好的方式是业务上做一些减法。”

据悉，kimi每月的活跃用户规模已经达到3600万。谈及用户投流策略，杨植麟表示最关键的提升用户留存，这是目前最核心的任务，对此没有上限的限制。

“百模大战”已经经历了一年多时间，业界的焦点从卷模型转向了卷应用。此前有消息称，一些大模型企业放弃了预训练模型,业务重心转向AI应用。

对于预训练大模型未来发展，杨植麟认为，预训练大模型还有迭代空间。“预计还有半代到一代的模型的空间会在明年释放出来，我觉得在明年，业内领先的模型会把预训练做到一个比较极致的阶段。”

▌Scaling laws依然有效但需要更好的方法

大模型的Scaling laws，即规模法则，是当前AI圈不少人所信奉的定律。所谓Scaling laws是相信“大力出奇迹”，随着模型规模、训练数据和计算资源的增加,模型性能会得到显著提升,

杨植麟认为，“Scaling”对AI而言是不变的关键词。“支撑AI技术在过去几年发生的进展，基本上可以归功于一个词是Scaling。”

不过，杨植麟表示，Scaling并不意味把模型做得更大就好，而是要找到有效的方法来Scale，比如更好的数据和方法。

“我们接下来会越来越关注基于强化学习的方法来Scale。我们认为，接下来AI发展的方向，还是持续地Scale，只是Scale的过程不一样，是更多的强化学习，在强化学习的过程中生成更多的数据来做。”

杨植麟把AI的发展比作荡秋千，会在两种状态之间来回切换。“一种状态是算法数据已经完备了，但是算力不够，这就要求做更多的工程，把基础设施做得更好，就能够持续的提升。从transformer诞生到GPT4，更多的矛盾就是怎么能够Scale，但在算法和数据上可能没有本质的问题。”

但是随着算力扩展到一定的规模，这时算力的增加很难再直接提升模型的质量。

“这时的状态是，你会发现再加更多的算力，并不一定能看到直接的提升。因为核心是没有高质量的数据，小几十G的token是人类互联网积累了20多年的上限。于是，要通过算法的改变，来释放Scaling的潜力，所有的好算法是跟Scaling做朋友，它就会持续变得更好。”

▌大模型需要提升思考能力

大模型的出现、AIGC的应用改变了人机交互方式，在不少业内展望中，在以大模型为代表的AIGC技术加持下，人机交互体验将彻底被重构。而杨植麟认为，在强调交互能力的同时，更应该注重大模型的思考能力。

“AI最重要的是思考和交互这两个能力。思考的重要性远大于交互，不是说交互不重要，交互是一个必要条件，但思考会决定上限。因此，接下来很重要的一件事是让AI具备思考的能力。”

最适合让AI锻炼思考的能力，无疑是数学场景。

“伽利略曾说过，宇宙是由数学这门语言书写而成的。它是整个宇宙的基石，很多规律只是通过数学来刻划的。而且好处是并不需要跟外界进行交互，相对来说比较严密的自成一体，它自己可以成为一个体系，这让数学成为AI学习这种思考能力的一种非常好的场景。”杨植麟称。

相比文字应用能力，大模型的数学能力一直存在较大的差距。

今年6月，上海人工智能实验室通过旗下司南评测体系OpenCompass对7个大模型进行高考“语数外”全卷能力测试。测试结果显示，三科总分420分，大模型最高分仅303分，其中语文、英语表现相对良好，数学全不及格。

杨植麟表示，目前的模型还是有一些局限性。“比如拿高考数学全国范围内最难的题去考大模型，现在有一定的概率会做错。但本身模型的能力提升是很快的，比如去年对高考题大概能做百分之二三十的准确率，但如今我们能做到90%的准确率。”

在现场的演示中，Kimi对2024AIME数学竞赛、高等数学题目进行了解答，通过用强化学习的方式来逼近更强的链路思考，来确保每一步的正确性，并且在得出答案，会像人类一样进行二次验算。

“当然，还有非常大的提升空间，但如果持续的做强化学习的Scaling，应该是可以能够在更多的场景完成长链路的思考、复杂的推理。还有很重要的一点，就是更多的泛化，把这种推理泛化到更多的任务里。”杨植麟称。

据悉，月之暗面计划在教育领域进行探索，并与Kimi搜索场景结合。“无论是K12、大学甚至竞赛，这里会有很多的场景可使用。我们还是希望把它更多的泛化，比如把强化学习的技术用在搜索场景里，跟Kimi探索版相结合，提升模型在搜索过程中的推理能力，做更复杂的搜索。”

▌聚焦核心业务不要把自己变成大厂

近日来，关于月之暗面缩减出海项目、聚焦Kimi的消息在市场上流传。杨植麟透露，大概今年三、四月份，做出了聚焦Kimi，对业务做减法的决定。

“这一是基于美国市场的判断，二是基于自身的观察。我们主动选择做了业务的减法，应该聚焦在上限最高的事情，然后做好。”

杨植麟认为，创业团队的人数不能太多，而是要真正聚焦于把核心的创新能力做好。如果把自己变成大厂，就没有任何优势了。

“在国内大模型创业公司里，我们始终保持人数最少，始终保持卡和人的比例是最高的，这是非常关键的。我们不希望把团队扩那么大，因为人数扩张对创新的影响有致命性的伤害。如果你想把团队保持在一定的规模，那么最好的方式是业务上做一些减法。”

杨植麟透露，“一开始也尝试过比如说几个产品一块做，这在一定的时期内可能是有效的，到后来发现还是要聚焦，把一个产品做到极致是最重要的。比如三个业务一起做，就活生生把自己变成大厂，那会没有任何的优势。”

对于在大模型研发上，杨植麟表示，预训练大模型还有半代到一代的空间，预计明年预训练大模型就会达到比较极致的阶段，但重点会在强化学习上。此外，几个多模态的能力也在内测中。

谈及用户投流和商业化变现的平衡，杨植麟称，目前最核心的任务就是提升留存。“留存是一个重要的衡量指标，这对我们来说是最重要的。留存到多少会满意？我的回答是永无止境。”

①专项行动聚焦网民关切，重点整治同质化推送营造“信息茧房”、违规操纵干预榜单炒作热点、盲目追求利益侵害新就业形态劳动者权益、利用算法实施大数据“杀熟”等。
                                    ②专家表示，此次通知之后将会有一轮具体的行动。第三方机构和成熟统一的评估标准可能在这次指导文件发布后逐步完善。