①通过简短的文本描述,Sora可以生成1080P、720P、360P三种分辨率的视频,时长可达10秒; ②泄露者疑似部分参与Sora内测的艺术家,他们还发出了一封控诉信。
大模型领域最热话题又重新回到视频模型上,因为一家创业公司被认为做出了“最强国产Sora”。
4月27日,在中关村论坛未来人工智能先锋论坛上,生数科技联合清华大学发布了具有“长时长、高一致性、高动态性”性能标签的视频大模型Vidu,可根据文本描述直接生成长达16秒、分辨率达1080P的高清视频内容。
高一致性是团队着重强调的特点。清华大学人工智能研究院副院长、生数科技首席科学家朱军表示,当前国内视频大模型的生成视频时长大多为4秒左右,Vidu则可实现一次性生成16秒的视频时长。同时,视频画面能保持连贯流畅,随着镜头移动,人物和场景在时间、空间中能保持高一致性。
在动态性方面,Vidu的动态镜头在推、拉、移之外,开始涉及一段画面中远景、近景、中景、特写等镜头的切换,以及直接生成长镜头、追焦和转场效果。物理规律方面,朱军介绍称,Vidu可以模拟真实物理世界中细节复杂且符合物理规律的场景,例如合理的光影效果、细腻的人物表情等,还可生成具有深度和复杂性的超现实主义内容(例如“戴珍珠耳环的猫”)。
在生数科技放出的视频物料中,的确有不少用户反馈认可其时间与空间上的一致性表现,而这是视频模型在长时长内容生成上需要克服的关键问题。
一致性表现不能独立于视频时长以外单独讨论。目前,Vidu对外公布的时长上限是16秒,Sora最大时长则是1分钟。今年2月Sora推出后,生数科技内部成立了攻坚小组,加快原本视频方向的研发进度。3月,内部实现8秒的视频生成,并在4月提升到16秒生成,但团队没有公布更多技术突破的细节。
从已有信息来看,技术路线上,Vidu采用的是自研U-ViT架构,与Sora一样是Diffusion和Transformer的融合架构。这种架构不采用插帧的多步骤处理方式来生成视频,而是通过单一步骤“端到端”直接生成内容,从文本到视频的转换是直接、连续的。
这意味着,Vidu同样绕不开模型训练的Scaling Law(规模法则),需要不断堆积更大参数和更多算力。
算力限制之外,一名有多模态大模型训练经验的创业者对界面新闻记者表示,生成数据的差距是国内视频大模型与Sora之间的重要差别。视频大模型需要大量的数据收集,其路线是一个逐渐细化和确定的过程。从实现上来讲,这是一个确定性事件,但需要一定时间。
因此,尽管生数科技在两个月内有如此提升已经是算法和工程能力上的突破,但在同等性能表现下追平Sora的1分钟时长,真正做到全面对标Sora,必然还有较长的一段路要走——至少不是“两倍于两个月”这样简单的线性估算。
“16秒跟1分钟,看起来大概差四倍,但中间的误差累计到后面可能不只是四倍的算力或者工程能力能弥补的。”一名大模型领域投资人对界面新闻记者表示。
他同时指出,其实Vidu和Sora一样,目前释放的素材并不足够多,从其发布的物料来看一致性表现的确不错,但还是很难做出更准确的判断。
在这一视角下,Vidu与Sora可直接比较的维度或许更多在于以镜头语言为代表的动态性,以及对物理世界规律的理解与模拟能力等方面。而长时长与一致性构成的核心性能,还需要等待后续版本迭代做进一步比较。