国产视频大模型奋起直追 Pika、阿里同日发布“对口型”利器

①在AI视频生成领域，要让视频人物和声音完美同步，仍是一个巨大的挑战；
②EMO不仅可以生成任意时长的说话视频，还能生成人像整个头部都发生丰富变化的说话视频，表情、五官、姿势都会产生非常自然的变化；
③从技术方面来看，视频生成工具的底层模型及技术仍在优化，有望诞生更多后起之秀。

人工智能

关注

《科创板日报》2月29日讯（编辑宋子乔） 在AI多模态领域，科技巨头、明星初创企业似乎把火力集中到了同一个方向——AI视频生成，Sora的火热更是一石激起千层浪，同类产品发布你追我赶，战况之焦灼可见一斑。

在该领域，要让视频人物和声音完美同步，需要捕获说话人微妙和多样化的面部动作，这是一个巨大的挑战。2月28日，PIKA上线唇形同步功能Lip sync，可以为视频中的人物说话匹配口型，音频生成部分由AI语音克隆创企ElevenLabs提供技术支持。

而就在同一天，阿里推出更炸裂的视频生成框架EMO（Emote Portrait Alive）。

两者都有对口型的功能，相比较而言，目前受限于已有产品的架构，PIKA只能分段生成3秒时长的唇形同步视频，且仅仅生成唇部配合音频发生运动；而EMO不仅可以生成任意时长的说话视频，还能生成人像整个头部都发生丰富变化的说话视频，表情、五官、姿势都会产生非常自然的变化。阿里给出的示例如下：

《狂飙》大反派高启强化身罗翔

Sora东京女郎唱歌

小李子演唱超“烫嘴”Rap《哥斯拉》（Godzilla）

目前EMO相关论文同步发表于arXiv，同时宣布开源。

论文显示，EMO团队来自阿里巴巴智能计算研究院。值得注意的是，EMO与Sora技术路线不同，它并不是建立在类似DiT架构的基础上，也就是没有用Transformer去替代传统UNet，其骨干网络魔改自Stable Diffusion 1.5。

这也再次说明一个事实，从技术方面来看，视频生成工具的底层模型及技术仍在优化，多种技术路线并行，尚且没有最优解，大公司之间、大公司与初创企业间的差距不算大，甚至可以说处于同一起跑线，有望诞生更多后起之秀。

▌AI视频生成或是多模态应用的“圣杯”

视频生成领域，已经诞生了多个出圈成果。上文所述之外还包括三大图片转视频神器——阿里的Animate Anyone、字节跳动的Magic Animate、微软的GAIA。

为什么这类应用成了众公司开发AI应用的优先选择？

相较于文字和图片，视频在信息表达、画面丰富性及动态性方面有更大优势，视频可以结合文本、图像、声音及视觉效果，在单一媒体中融合多种信息形式。

这赋予了AI视频工具强大的产品功能，进而开拓出更广阔的应用场景。通过文本描述或其他简单操作，AI视频工具即可生成较高质量和完成度视频内容，这降低了视频创作门槛，让业外人士能够精准用视频进行内容展现，有望广泛赋能各细分行业的内容生产降本增效和创意输出。

国盛证券宋嘉吉此前指出，AI文生视频是多模态应用的下一站，是多模态AIGC“圣杯”，随着AI视频补齐了AI创作多模态的最后一块拼图，下游应用的加速时刻也将到来；申港证券表示，视频AI是多模态领域的最后一环；华泰证券表示，AIGC大潮已逐步从文生文和文生图转向文生视频领域，文生视频的高计算难度和高数据要求将支撑上游AI算力需求持续旺盛。

最新报道称据一位知情人士透露，其在去年下半年见到了字节跳动多模态数字人产品的demo，整体感觉还不错。字节跳动旗下剪映已在数月前组建封闭团队，秘密研发AI产品。目前，该团队仍处于严格保密阶段，研发的产品还未上线。一位接近字节跳动的知情人士称，去年一年，字节跳动创始人张一鸣将主要精力都花在了AI上，足以窥见这家公司对AI业务的重视程度。

可以预见的是，在多模态的广阔竞技场上，虽然参赛选手的增加，将会涌现出越来越多的应用、产品。

特别声明：文章内容仅供参考，不构成投资建议。投资者据此操作风险自担。