对话自变量CTO王昊：在具身智能的“无人区” 探索端到端大模型的终极形态|连线创始人

①对于商业化时间表，王昊对《科创板日报》记者给出了相对务实的判断："普通清洁、收纳这类任务，1-2年时间可以实现完全自主。但在所有家庭任务中实现闭环，时间可能要更长；
                ②数据采集方面，王昊强调2026年会越来越依赖人的穿戴式或Ego-Centric方式采集数据，这是大趋势。

编者按：他们创办的公司或已是独角兽，或刚启动种子轮，或已家喻户晓，或长期身居幕后，或正起于微末，但他们都是中国新经济的微观脉搏，是这轮产业和技术升级的微观主导者和实践者，不同行业成千成万的他们的身影汇聚，投射变革的洪流。

由财联社和《科创板日报》联合发起的 “连线创始人/CEO”栏目，主要关注创新创业型企业，以企业创始人/CEO的访谈为一手信源，让成长中的创业公司走入公众和市场视野，并发掘最新技术和产业趋势。

《科创板日报》4月10日讯（记者李明明）2026年开年，国内具身智能赛道已是独角兽林立——自变量机器人、众擎机器人、星动纪元、千寻智能等企业估值相继突破百亿大关，加之宇树科技、智元机器人等已有的百亿阵营，行业百亿估值公司至少已达10家，正式迈入头部独角兽集群发展的新阶段。

在这波密集的资本浪潮中，自变量机器人的爆发力尤为典型。据《科创板日报》记者此前独家获悉，继今年1月官宣获得由字节跳动、红杉中国等机构参与的十亿元级别融资后，该公司在2月份短期内又迅速完成了数亿元的新一轮融资。

近期，《科创板日报》记者采访了自变量联合创始人、CTO王昊，围绕自变量的技术路线迭代、开源进展、场景落地战略，以及对具身智能行业的核心判断，展开了全面且深度的分享。

王昊对《科创板日报》记者勾勒出一幅清晰的技术蓝图：端到端大模型是底座，世界模型与VLA的融合是突破口，人机协作的数据闭环是燃料，家庭场景是终极试炼场。这是一条与"分段式""垂类小模型"截然不同的路径，也是一条需要长期投入、承受不确定性的"无人区"探索。

当前具身智能行业深陷“虚假繁荣”的症结：技术验证长期困于仿真“温室”——完美参数下表现优异，却难以跨越重力、摩擦、光线变化等真实物理世界的“鸿沟”，导致模型泛化能力弱、长期稳定性差、成本居高不下，产业化落地举步维艰。

自变量与深圳市人工智能行业协会等联合举办的全球首届具身智能开发者大会（EAIDC 2026），正是对这一行业痛点的正面回应。其意义在于彻底撕掉Demo滤镜，将竞赛全面推向"真实荒野"：通过全球最大规模真机实战，让上百条机械臂在真实场地同步作业，直面物理世界的所有变量，拒绝"纸上谈兵"。这不仅为技术成熟度提供了在真实物理环境中检验的平台，更以标准落地、产业链闭环推动产业化拐点的真正到来。

开发者大会启示：具身智能需要"动手"的文化

作为全球首届具身智能开发者大会的核心环节，"具亮计划"决赛采用了极具挑战性的赛制：参赛团队在三天内，于现场完成数据采集、模型训练和测试。王昊对《科创板日报》记者表示，这种赛制设计 deliberately 模拟了具身智能的真实开发环境。

"我们提供所有硬件，没有力觉传感器，"王昊举例说，"但在限速柔性操作、需要处理力信息时，有的队伍尝试密集捕获机械臂关节的电流信号。虽然没有那么准确，但把关节电流信号加入模型，可以部分弥补力感受的缺失——这是很有意思的想法。"

更令他印象深刻的是团队间的分化："第一天下午开源，到晚上有的选手还在调试环境，有的已经有成绩了。后来我们发现，频繁评测、仔细观察数据和硬件的团队，比不动手的成长得快得多。"

王昊从中提炼出一个关键认知：具身智能是交互学习，让机器在测试和人的观察中找到问题，越有可能找到物理世界复杂性的解法。 "这和一般的编程比赛差别很大——一般编程比赛没有硬件，没有数据。在具身智能黑客松中，爱动手、爱评测的团队更容易突出。"

谈及举办比赛的初衷，王昊表示核心目标是降低开源项目的使用门槛，建立通用和标准的接口。"把所有人放在同一套硬件、相同赛制下，大家会尝试怎么尽可能快把代码用起来、用好。同时，我们也想寻找同路人，挖掘优秀选手，支持和鼓励大家一起加入具身智能大潮。"

从WALL-OSS到世界模型与VLA的融合框架

开发者大会见证了开源社区的蓬勃活力，而技术的最终落地还要看模型产品的真实迭代。距离 WALL-OSS 开源过去整整半年，王昊在接受《科创板日报》记者专访时，揭晓了这段时间的关键突破——世界模型与VLA（Vision-Language-Action）的联合建模。

"现在业界的世界模型大多是分段式做法：先训练一个视频生成模型，再用动作生成模型，两段式拼接完成从视觉到动作的映射。"王昊解释道，"但我们的联合框架中，动作和视觉是联合建模的。这样做的好处是，动作预测可以更好地尊重未来的预测，而未来预测又可以更好地遵循物理规律。通过联合建模，我们希望突破世界模型很难遵循物理规律的限制。"

这一技术路线的差异化在于对"物理规律"的强调。当前视频生成模型虽然能够预测像素级的变化，但在具身智能场景下，模型需要理解的是物理世界的因果关系——物体如何受力、操作如何改变环境状态。王昊指出，短期来看，自变量将引入更多多模态输出架构以减少误差累积；中长期目标则是在基模上实现"绝对意义上通用场景的泛化"。

当被问及"多模态"的具体所指时，王昊明确回应："以前是输出有限模态，现在在端到端模型上更多考虑动作、语言、视觉的融合。"这意味着自变量的新一代架构将不再局限于传统的"视觉编码器+大语言模型+动作输出"的流水线，而是探索更原生的多模态对齐方式。

"我们越来越倾向于做原生的多模态，在很早的时候就让语言和动作对齐。"王昊表示，"以前的方式往往会牺牲视觉能力——语言描述的信息很宏观，但具身操作需要厘米级甚至毫米级的空间精度，时间尺度在秒级别。如果能让动作、语言、视觉在同一个水平下进行思维链推理，模型就能同时在宏观和微观上都有清晰表现。"

数据战略：真机、Ego-Centric与穿戴式的金字塔配比

尽管WALL-OSS在数据驱动下取得了长足进步，但王昊也坦言，数据采集依然是横亘在具身智能行业面前的壁垒之一。面对近期大热的Ego-Centric（第一人称视角）和Human-Centric（以人为中心）数采路线，王昊明确表态：自变量的核心路线不会偏移，但数据策略将发生重大调整。

自变量一直坚持真实世界的数据采集，过往主要来自机器人真机，这个不会停。所有交互式学习和强化学习，最重要的数据都来自于真机。王昊强调，"但2026年会有很大变化——我们会越来越依赖人的穿戴式或Ego-Centric方式采集数据，这是大趋势。"

王昊特别区分了Human-Centric与Ego-Centric的概念差异："Human-Centric意味着机器人的通用数据形态，它一定有末端执行器，可以是灵巧手的某种设备，自由度和机器人的自由度之间取折中。而Ego-Centric的数据完全和人的自由度一致，手持式、穿戴设备则介于两者之间。"

这一数据战略的底层逻辑是人机协作的闭环进化。"尽早用人机协作的方式让闭环跑起来，"王昊说，"先用高质量数据、大规模训练构建基础模型，然后放到真实环境中。它有做不好的地方，人就接管，帮它从错误中恢复。这样的数据会成为非常宝贵的来源，帮助模型提升。评测、训练和数据采集要在同一个过程中完成，而不是分开的。"

自变量从成立第一天起就选择了"大小脑统一的端到端大模型"路线。王昊对《科创板日报》记者坦诚分析了这一路线的核心挑战。

"端到端相比于分层或小模型，训练更复杂，需要的规模更大。如果没有这两个条件，端到端的效果不一定比分层模型好。"他指出，"端到端意味着必须有规模效应——数据量、模型参数量要上去。这两点达不到，训练很难起效。"

第二个挑战在于Infra。"对端到端大模型的Infra要求和以往小模型不同。如果在Infra上没有突破，训练效率会很低。"王昊补充道。

第三个挑战更为根本：评测的复杂性。"语言大模型可以看loss曲线，但具身智能不是这样。Loss不能反映真实世界的表现，因为真实世界是闭环系统——环境怎么变化，模型怎么应对，更考验模型的处理能力。"

面对"数据壁垒"的经典难题——模型不够好就做不了复杂任务，采集不到高质量数据，没有数据又训练不好模型——王昊的解决方案是尽早建立人机协作的闭环，让评测、训练和数据采集在同一个过程中完成。

家庭场景：直面"具身智能的圣杯"

上个月，自变量机器人携手58集团旗下58到家平台，在深圳正式推出了一项全新的智能保洁家庭服务——机器人保洁员正式“上岗”，与保洁阿姨协同作业完成家庭清洁服务。自变量与58同城合作进军家庭服务场景，这一选择在外界看来颇为激进——家庭场景比工业场景标准化程度更低，难度更大。王昊却认为这是必由之路。

"家庭确实是具身智能的圣杯，因为它代表最广泛、最开放的环境，以及最广泛的任务。解决了家庭任务，就代表模型可以实现完全的泛化，基本上实现保姆级别的通用机器人。"他强调，"这个最终目标不是先做简单场景、最后达到，而是一开始就要直面最复杂、最开放的场景，才能让模型智能水平提升到可以解决丰富场景的能力。越早开始越好。"

进入家庭场景需要攻克两大难题。首先是零样本泛化能力。"进入家庭一开始没有多少机会训练模型，需要激发模型的推理能力，让它在家庭场景通过推理探索成功，之后才能结合人机协作让训练越来越好。"其次是长程任务的精细度问题。"现在基模进入家庭，在很多任务上有完成的趋势或动作意图——比如对任何物体都有伸过去抓的趋势，但精细度不够，导致完成复杂长程任务时错误累积、最终失败。"

王昊提出两点解决思路：一是激发模型的推理能力，通过语言、视觉、动作在同一水平下的思维链，让模型自己规划和反思；二是在大规模真机基础上探索强化学习，"保持在基模标准下更高的空间精度"。

对于商业化时间表，王昊对《科创板日报》记者给出了相对务实的判断："普通清洁、收纳这类任务，1-2年时间可以实现完全自主。但在所有家庭任务中实现闭环，时间可能要更长。"他区分了"大规模进入家庭"和"机器人被大规模应用"两个概念，强调前者是逐步迭代的过程。

专访最后，面对"具身智能是否会重走大模型卷算力、高资本投入老路"的提问，王昊给出了冷静的判断。

"做基础模型的投入一直很高。我们从公司成立第一天起，在数据、算力、基础设施上的投入都很大。"他承认，"但一旦建立规模化效应，当你投入10倍资源取得领先时，资源聚集效应会越来越明显。你会以数量级的优势在速度上超越别人，后来者要追上需要花数倍资源的增加。越早开始越有优势，越晚开始越难做成。"

这是否意味着需要千亿级投入？"大家可以看自动驾驶的投入，每年几百亿。如果完全靠纯资本投入很难，这是一个逐步发展的过程。"王昊强调，"很难在一年内把模型做到完全通用。要协作发展、阶段式发展——不停提升基模能力，不断迭代，反馈回来做更强的基模。模型越来越强，和商业竞争形成互补，研发投入才会越来越大，最后形成完全闭环。"

①OpenAI在向部分投资者发送的一份备忘录中表示，其2025年的算力为1.9吉瓦，是上一年的三倍，并在2030年达到约30吉瓦；
                                    ②相比之下，OpenAI估计Anthropic在2025年底的算力为1.4吉瓦，并将在明年达到7至8吉瓦。