Meta人事巨震、AI教母站台通往AGI之路遇上分岔路口

科创板日报郑远方责编魏少磊 2025-11-15 09:48

①LeCun离职创业投身世界模型，李飞飞公司推出基于世界模型的首款产品，王兴兴与哈勃也对世界模型表现出高度关注。
                ②这是一场关于智能本质的辩论，或将决定下一个十年谁将引领通往AGI的征途。

《科创板日报》11月15日讯 Meta一场人事巨震，让业界目光再次聚焦向世界模型。

Meta首席AI科学家、图灵奖得主Yann LeCun（杨立昆）在被曝准备离职创业。LeCun在Meta任职12年，技术发展愿景却一直与押注AI大语言模型的扎克伯格相悖，而他创业公司的核心使命，正是推进他多年来心心念念的世界模型架构。

在这一场“看似简单”的人事变动背后，AI发展已来到岔路口。世界模型还是大语言模型？这是一场关于智能本质的辩论，或将决定下一个十年谁将引领通往AGI的征途。

无独有偶，AI教母李飞飞的创业公司WorldLabs在11月13日推出了首款产品Marble，由多模态世界模型驱动，这个被其称为“构建空间智能未来的基础”的产品，能从一张图片、一段视频或一句话中构建持久的3D世界。

大洋彼岸的这一边，王兴兴与华为哈勃近日也对世界模型表现出高度关注：

极佳视界日前完成新一轮亿元级A1轮融资，将持续推进世界模型为中心的物理AI智能模型研发迭代，加速通用具身人形本体研发，同时将继续打造标杆场景商业化应用落地。根据工商变更信息显示，极佳视界新增投资方为哈勃投资、华控基金。

宇树科技创始人、董事长王兴兴则在第八届虹桥国际经济论坛上表示，目前具身智能两种主流模型，一是VLA+RL模型，可以用仿真环境做训练，或者用真实场景做训练，但也面临很多挑战，泛化能力相对不是特别够。 “而基于视频生成的世界模型，个人还是非常喜欢。但这个模型面临比较大的挑战，中小型机器人公司这个模型跑不太动，因为视频生成模型对算力的需求非常大，需要的算力卡比较多，反而是一些大的AI公司、互联网公司对视频模型的资源更加丰富，可以做出来的概率更大一点。”

▌读万卷书，还要行万里路

尽管具体技术和产品形态各异，但“世界模型派”的核心共识是：当前主导AI领域的大语言模型存在根本局限。

语言哲学奠基人维特根斯坦曾《逻辑哲学论》中提出：“我的语言极限，就是我世界的极限。”但这对AI而言或许并不适用，李飞飞表示，“我不是哲学家，但我深知，至少对AI而言，世界远不止于文字。”

在最新万字长文中她直言，语言终究是人类为了交流而创造出来的一种抽象信号，自然界中本没有文字，物理世界遵循的是它自身的规律。AI 如果想要真正地理解世界、与世界互动，就不能只停留在文本的符号游戏里，做一个“黑暗中的文字大师”。

LeCun也多次批评大语言模型，认为它们充其量只是一个强大的文本数据库，记住了海量文本，却完全不理解文本背后的物理世界。

所谓的世界模型到底是什么？

世界模型的本质，是通过对真实世界的高维认知建模，赋予智能体理解、预测和规划能力。其通过绕开语言转化环节，直接将空间感知数据输入模型，在模型潜空间内完成物理规律推演，并直接输出指令，实现对现实世界的“内在理解”与“主动推理”。

用李飞飞的话来说，它能让“看见”晋升为“推理”，让“感知”转化为“行动”，让“想象”落地为“创造”。

它要求AI不仅会读万卷书，更能行万里路——理解一个杯子为何会碎，预测一辆汽车如何转弯，从而为真正的具身智能、自动驾驶和能与人类无缝协作的机器人奠定基石。

值得一提的是，硅谷中声援世界模型的并非只有李飞飞和LeCun这些技术大牛，科技巨头中谷歌同样也已跑在前列。

短短一年半时间里，其旗下的DeepMind就将世界模型Genie从2D一路升级至能实时生成交互式3D环境的Genie 3。只需一句话，Genie 3就能在720p分辨率下创造一个用户可以边走边看的动态世界，场景细节能在长达一分钟的记忆中保持连贯。除了游戏外，Genie 3还能为机器人或自动驾驶系统提供多元化训练场景，可以为AI智能体研究提供更长、更稳定的交互回合。

必须承认，目前世界模型的研究仍处于早期阶段。相较于适合快速迭代、短期内易于落地的VLA路线，世界模型代表了更底层的认知方式，强调物理规律和空间理解力，适合长期演进。但在这条平行赛道上，一场定义AI下一个十年的角逐已经鸣枪起跑，AI正在努力超越文本，尝试理解并重塑我们所在的物理世界。

财联社声明：文章内容仅供参考，不构成投资建议。投资者据此操作，风险自担。