财联社
财经通讯社
打开APP
Meta人事巨震、AI教母站台 通往AGI之路遇上分岔路口
①LeCun离职创业投身世界模型,李飞飞公司推出基于世界模型的首款产品,王兴兴与哈勃也对世界模型表现出高度关注。
                ②这是一场关于智能本质的辩论,或将决定下一个十年谁将引领通往AGI的征途。

《科创板日报》11月15日讯 Meta一场人事巨震,让业界目光再次聚焦向世界模型。

Meta首席AI科学家、图灵奖得主Yann LeCun(杨立昆)在被曝准备离职创业。LeCun在Meta任职12年,技术发展愿景却一直与押注AI大语言模型的扎克伯格相悖,而他创业公司的核心使命,正是推进他多年来心心念念的世界模型架构。

在这一场“看似简单”的人事变动背后,AI发展已来到岔路口。世界模型还是大语言模型?这是一场关于智能本质的辩论,或将决定下一个十年谁将引领通往AGI的征途。

无独有偶,AI教母李飞飞的创业公司WorldLabs在11月13日推出了首款产品Marble,由多模态世界模型驱动,这个被其称为“构建空间智能未来的基础”的产品,能从一张图片、一段视频或一句话中构建持久的3D世界。

大洋彼岸的这一边,王兴兴与华为哈勃近日也对世界模型表现出高度关注:

极佳视界日前完成新一轮亿元级A1轮融资,将持续推进世界模型为中心的物理AI智能模型研发迭代,加速通用具身人形本体研发,同时将继续打造标杆场景商业化应用落地。根据工商变更信息显示,极佳视界新增投资方为哈勃投资、华控基金。

宇树科技创始人、董事长王兴兴则在第八届虹桥国际经济论坛上表示,目前具身智能两种主流模型,一是VLA+RL模型,可以用仿真环境做训练,或者用真实场景做训练,但也面临很多挑战,泛化能力相对不是特别够。 “而基于视频生成的世界模型,个人还是非常喜欢。但这个模型面临比较大的挑战,中小型机器人公司这个模型跑不太动,因为视频生成模型对算力的需求非常大,需要的算力卡比较多,反而是一些大的AI公司、互联网公司对视频模型的资源更加丰富,可以做出来的概率更大一点。”

▌读万卷书,还要行万里路

尽管具体技术和产品形态各异,但“世界模型派”的核心共识是:当前主导AI领域的大语言模型存在根本局限。

语言哲学奠基人维特根斯坦曾《逻辑哲学论》中提出:“我的语言极限,就是我世界的极限。”但这对AI而言或许并不适用,李飞飞表示,“我不是哲学家,但我深知,至少对AI而言,世界远不止于文字。”

在最新万字长文中她直言,语言终究是人类为了交流而创造出来的一种抽象信号,自然界中本没有文字,物理世界遵循的是它自身的规律。AI 如果想要真正地理解世界、与世界互动,就不能只停留在文本的符号游戏里,做一个“黑暗中的文字大师”。

LeCun也多次批评大语言模型,认为它们充其量只是一个强大的文本数据库,记住了海量文本,却完全不理解文本背后的物理世界。

所谓的世界模型到底是什么?

世界模型的本质,是通过对真实世界的高维认知建模,赋予智能体理解、预测和规划能力。其通过绕开语言转化环节,直接将空间感知数据输入模型,在模型潜空间内完成物理规律推演,并直接输出指令,实现对现实世界的“内在理解”与“主动推理”。

用李飞飞的话来说,它能让“看见”晋升为“推理”,让“感知”转化为“行动”,让“想象”落地为“创造”。

它要求AI不仅会读万卷书,更能行万里路——理解一个杯子为何会碎,预测一辆汽车如何转弯,从而为真正的具身智能、自动驾驶和能与人类无缝协作的机器人奠定基石。

值得一提的是,硅谷中声援世界模型的并非只有李飞飞和LeCun这些技术大牛,科技巨头中谷歌同样也已跑在前列。

短短一年半时间里,其旗下的DeepMind就将世界模型Genie从2D一路升级至能实时生成交互式3D环境的Genie 3。只需一句话,Genie 3就能在720p分辨率下创造一个用户可以边走边看的动态世界,场景细节能在长达一分钟的记忆中保持连贯。除了游戏外,Genie 3还能为机器人或自动驾驶系统提供多元化训练场景,可以为AI智能体研究提供更长、更稳定的交互回合。

必须承认,目前世界模型的研究仍处于早期阶段。相较于适合快速迭代、短期内易于落地的VLA路线,世界模型代表了更底层的认知方式,强调物理规律和空间理解力,适合长期演进。但在这条平行赛道上,一场定义AI下一个十年的角逐已经鸣枪起跑,AI正在努力超越文本,尝试理解并重塑我们所在的物理世界。

人工智能 AI智能体
财联社声明:文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
商务合作
热门解锁
相关阅读
评论
发送