①高压直流方案落地,也同步提升了AI数据中心的运维难度;
②业内人士分析,高压直流、液冷、数字孪生、智能传感将共同组成下一代AI算力工厂的核心基础设施。
《科创板日报》6月17日讯(记者 黄心怡)《科创板日报》记者独家获悉,京东团队即将于近期开源视觉语言实时交互模型JoyAI-VL-Interaction。
《科创板日报》记者从一份在开源社区和海外AI技术圈受到关注的技术报告获悉,该模型想解决的问题,不只是让模型更会"看视频",而是让模型能够通过摄像头等实时视频流持续观察现实世界,并自己判断什么时候该回应、什么时候该保持沉默、以及什么时候把任务委托给后台agent。换句话说,它试图把多模态大模型从传统的"一问一答",推进到"实时流式交互"。
值得一提的是,这个方向并非京东一家在押注。上个月,海外的 Thinking Machines Lab(TML)也提出了"interaction model"的概念,认为自主交互性应当成为模型自身的能力而被独立 scaling。两个团队几乎在同一时间走到了相同的技术方向和战略判断上,这本身就说明"从轮次制走向交互式"是一个时机已到的趋势。不同的是,TML 目前放出的是一个 research preview,而京东选择了把模型、数据、训练方法和完整系统全部开源。
今天大多数多模态模型仍然是轮次制的:用户上传图片或视频,再提出问题,模型才开始回答。但很多真实场景并不是这样发生的。比如,监控画面里突然出现火情,老人摔倒,直播中商品快速闪过,视频通话里用户状态发生变化。这些时刻一旦错过,就很难补救。模型如果只能等用户提问,往往已经慢了一步。JoyAI-VL-Interaction 的核心思路是:让模型像人一样持续"在场",边看、边记、边判断,并在关键时刻主动回应。
值得注意的是,JoyAI-VL-Interaction 并不只是一个单独模型。报告称,京东计划开源模型权重、交互数据、训练方法和完整系统。系统支持摄像头、直播流、监控流等输入,也包括语音输入输出、可视化界面、长期记忆和后台模型接口。也就是说,开发者不只是能研究模型,还可以直接搭建一个能够看视频流、做判断、主动交互的实时 AI 助手。
报告还将 JoyAI-VL-Interaction 与豆包、Gemini 的 App 内视频通话助手进行了人工评测。评测覆盖六类场景:监控预警、实时计数、实时翻译、时间感知、直播解说和引导、长程记忆。
在58个案例中,JoyAI-VL-Interaction 对豆包的总体胜率为 77.6%,对 Gemini 的总体胜率为 87.9%。其中,在监控预警场景中,对两个基线均取得100%胜率。
这类模型适合需要AI持续在场的场景,例如安防监控场景,火情、摔倒、异常行为提醒,老人和小孩看护场景,电商购物、直播运营、赛事解说、以及 AI 眼镜和无障碍辅助等场景。
报告也提到,JoyAI-VL-Interaction 目前是8B规模模型。相比豆包、Gemini 背后的更大模型和持续的产品迭代,它在通用知识、长尾场景、表达丰富度和稳定性上未必占优。此外,训练数据也还有继续扩展和清洗空间。评测仍处于早期阶段,还未展开大规模系统性评估。
不过,报告也将此视为一个积极信号:即便在当前的数据规模下,模型就已经展现出不错的交互能力,并观察到特定的能力涌现。这说明将交互性训进模型这条路数据效率很高,因此开源出来和社区一起探究不同的应用落地场景,以推动interaction models这一研究方向的发展。
过去,大模型主要比拼参数、知识和推理能力。但在真实世界里,一个AI助手是否有用,还取决于它能不能持续观察、判断时机,并在该说话时及时出现。如果JoyAI-VL-Interaction 按计划开源模型、数据和系统,它可能会成为国内多模态开源领域一个值得关注的新方向:从离线视频理解,走向实时流式交互。