打开APP
×
国产视频大模型奋起直追 Pika、阿里同日发布“对口型”利器
科创板日报 宋子乔
2024-02-29 星期四
原创
①在AI视频生成领域,要让视频人物和声音完美同步,仍是一个巨大的挑战;
②EMO不仅可以生成任意时长的说话视频,还能生成人像整个头部都发生丰富变化的说话视频,表情、五官、姿势都会产生非常自然的变化;
③从技术方面来看,视频生成工具的底层模型及技术仍在优化,有望诞生更多后起之秀。
人工智能
关注

《科创板日报》2月29日讯(编辑 宋子乔) 在AI多模态领域,科技巨头、明星初创企业似乎把火力集中到了同一个方向——AI视频生成,Sora的火热更是一石激起千层浪,同类产品发布你追我赶,战况之焦灼可见一斑。

在该领域,要让视频人物和声音完美同步,需要捕获说话人微妙和多样化的面部动作,这是一个巨大的挑战。2月28日,PIKA上线唇形同步功能Lip sync,可以为视频中的人物说话匹配口型,音频生成部分由AI语音克隆创企ElevenLabs提供技术支持。

而就在同一天,阿里推出更炸裂的视频生成框架EMO(Emote Portrait Alive)。

两者都有对口型的功能,相比较而言,目前受限于已有产品的架构,PIKA只能分段生成3秒时长的唇形同步视频,且仅仅生成唇部配合音频发生运动;而EMO不仅可以生成任意时长的说话视频,还能生成人像整个头部都发生丰富变化的说话视频,表情、五官、姿势都会产生非常自然的变化。阿里给出的示例如下:

《狂飙》大反派高启强化身罗翔

Sora东京女郎唱歌

小李子演唱超“烫嘴”Rap《哥斯拉》(Godzilla)

目前EMO相关论文同步发表于arXiv,同时宣布开源。

论文显示,EMO团队来自阿里巴巴智能计算研究院。值得注意的是,EMO与Sora技术路线不同,它并不是建立在类似DiT架构的基础上,也就是没有用Transformer去替代传统UNet,其骨干网络魔改自Stable Diffusion 1.5。

这也再次说明一个事实,从技术方面来看,视频生成工具的底层模型及技术仍在优化,多种技术路线并行,尚且没有最优解,大公司之间、大公司与初创企业间的差距不算大,甚至可以说处于同一起跑线,有望诞生更多后起之秀。

▌AI视频生成或是多模态应用的“圣杯”

视频生成领域,已经诞生了多个出圈成果。上文所述之外还包括三大图片转视频神器——阿里的Animate Anyone、字节跳动的Magic Animate、微软的GAIA。

为什么这类应用成了众公司开发AI应用的优先选择?

相较于文字和图片,视频在信息表达、画面丰富性及动态性方面有更大优势,视频可以结合文本、图像、声音及视觉效果,在单一媒体中融合多种信息形式。

这赋予了AI视频工具强大的产品功能,进而开拓出更广阔的应用场景。通过文本描述或其他简单操作,AI视频工具即可生成较高质量和完成度视频内容,这降低了视频创作门槛,让业外人士能够精准用视频进行内容展现,有望广泛赋能各细分行业的内容生产降本增效和创意输出。

国盛证券宋嘉吉此前指出,AI文生视频是多模态应用的下一站,是多模态AIGC“圣杯”,随着AI视频补齐了AI创作多模态的最后一块拼图,下游应用的加速时刻也将到来;申港证券表示,视频AI是多模态领域的最后一环;华泰证券表示,AIGC大潮已逐步从文生文和文生图转向文生视频领域,文生视频的高计算难度和高数据要求将支撑上游AI算力需求持续旺盛。

最新报道称据一位知情人士透露,其在去年下半年见到了字节跳动多模态数字人产品的demo,整体感觉还不错。字节跳动旗下剪映已在数月前组建封闭团队,秘密研发AI产品。目前,该团队仍处于严格保密阶段,研发的产品还未上线。一位接近字节跳动的知情人士称,去年一年,字节跳动创始人张一鸣将主要精力都花在了AI上,足以窥见这家公司对AI业务的重视程度。

可以预见的是,在多模态的广阔竞技场上,虽然参赛选手的增加,将会涌现出越来越多的应用、产品。

特别声明:文章内容仅供参考,不构成投资建议。投资者据此操作风险自担。
相关企业家
联系Ta
联系企业家
为保护双方个人信息请联系您的专属助理进行接洽
我再想想
点击复制
复制成功,请去微信添加