①2024年对于生成式AI行业而言,是充满变革与突破的一年。 ②面向2025年,生成式AI行业又会发生哪些新变化?行业将有哪些看点?我们让几个AI大模型回答了这个问题。
财联社4月6日讯(记者 徐赐豪) 随着ChatGPT聊天机器人的大热,人工智能行业开启了半年之久的技术“狂飙”。
但是ChatGPT引起的科技伦理、网络安全、知识产权等系列问题同样需要关注。本期《元宇宙之约》对话了新壹科技CEO雷涛。作为一下科技孵化的公司,新壹科技最近推出了自己的智能AI内容生成平台“一帧秒创”。
在雷涛看来,大模型只是解决基础能力,真正到每一个领域应用还是需要去做自己的数据训练;基础模型需要真正去理解用户,因为用户的问题是千差万别,答案也会千差万别。
至于AIGC与元宇宙之间的关系,雷涛表示,AIGC有助于元宇宙快速构建基础设施。
推出AI视频生成平台“一帧秒创”
简单介绍一下公司在AIGC方面的布局。
雷涛:新壹科技是由一下科技孵化的,在元宇宙VR及人工智能领域探索的实体。新壹科技的主要产品及业务涵盖了中短视频平台、VR数字孪生技术应用与直播平台运营等。在2021年年底的时候,我们考虑做一个新的视频平台应用。当时PGC、UGC视频平台已经形成激烈竞争,同时创作者向视频平台转移;但大量创作者没有视频制作的能力,我们当时就做了一个文字直接转换成视频的产品——一帧秒创。
据说一帧秒创拥有几十亿条视频素材?
雷涛:一帧秒创是基于秒创AIGC引擎的智能AI内容生成平台,以文字生成视频为核心功能,为创作者和机构提供多模态生成服务,包括文字扩写、文字转语音、文生图、图文转视频等系列创作服务;通过对文案、素材、AI语音、字幕等要素进行智能分析解构,助力创作者快速成片,实现零门槛产出视频。
AIGC需要有丰富的数据和强大的算法,目前新壹科技在这方面的储备怎样?
雷涛:新壹科技也有涉猎大模型,当然我们的研发能力还不足以去完成一个全新的大模型开发,而是基于目前开源的大模型(比如GPT、清华的GLM)去做自己的垂直化训练,形成自己的大模型产品去为用户服务。
在AIGC应用方面,一帧秒创产品的核心功能是图文转视频,用户只需要输入一个标题,然后通过AI把这个视频完成。其产品逻辑在于通过文案去匹配素材,把素材拼接在一起形成视频,但前提是需要有足够多的素材量。
我们是一下科技孵化的企业,一下科技历史上拥有几十亿条视频为一帧秒创提供素材。我们对这些视频进行了深度的结构化,给它打上丰富的标签,供用户检索、匹配等,通过这样的方式来形成一个比较好的AIGC视频体验。
AI视频生成需要解决两个问题
GPT模型生成视频是否比生成文本要难?
雷涛:GPT本身只有文本能力,但可以基于它的文本能力去拓展它的应用。要实现生成视频输出的话,主要解决两个问题:一是GPT对镜头语音的理解,二是视频数据的处理和理解。
AIGC或者人工智能给视频行业带来怎样的影响?
雷涛:其实我们本身的业务跟视频相关,之前也用了GPT系列模型。在我看来GPT模型可以为视频行业解决以下几个问题:一、视频脚本的撰写,文本撰写本身是GPT的一个基础能力;二、视频字幕的提取、翻译,这是基于GPT本身的一个应用;三、刚刚发布的GPT-4是多模态模型,这个多模态可理解、分析视频内容,同时做视频的推荐和搜索;四、GPT既然能理解视频应用,也能用于视频内容的AI审查、过滤。
一些视频平台上电影解说、科普类、财经类快速成稿都大量运用人工智能来生成。这个最重要的影响就是提高视频的制作效率,让单个用户具备一些工作室才具备的视频制作能力,降低了视频制作的门槛。
人工智能生成的视频会不会有版权问题?
雷涛:我们只是去匹配结果,尽量为客户匹配一些版权可以用的素材;如果用户需要将这些素材运用到商业领域的话,确实需要解决版权的问题。
模型需要真正理解用户的问题
据了解,ChatGPT背后的大型语言模型的训练集最近数据截止于2021年底,所以任何关于2022年里发生的事件,它无法给出准确的答案,如何看待这个事情?
雷涛:ChatGPT你可以把它理解成OpenAI的一个产品Demo,它是向你展示能力,所以就算它的数据训练有时间线,但这不影响它的展示能力。数据不是核心问题,能力才是。模型只是提供解决基础能力,真正到每一个领域的应用还是需要去做自己的数据训练。基础模型真正要解决是怎么去理解用户的问题,因为用户的问题千差万别,答案也会千差万别。
在你看来GPT模型目前还存在哪些问题?
雷涛:首先GPT是一个大语言模型,训练数据特别大,这意味着你如果去做一个类似的大模型,需要耗费大量的这种数据标注、算力、能源以及存储的成本,这种高成本的事情容易造成技术霸权,这是大模型天然存在的一个问题。
第二,训练完成以后,基于它的大量数据伦理方面的问题也越来越凸显。
第三,现在GPT-4的知识范围覆盖很大,很多问题回答可以说井井有条,但也有一本正经的“胡说八道”现象。这就考验它的逻辑思维能力,对用户有没有产生误导性。
这些问题将导致怎样的后果?
雷涛:存在一种可能,如果大家都倾向于去做模型的话,可能会产生类似军备竞赛,把大量的存储、算力、能源等成本都消费在上面。逻辑推理的误导性,可能让用户对很多新闻的真实性存疑,无法区分哪些是真的信息,哪些是假的信息。
AIGC有助于元宇宙基础设施构建
如何看待目前元宇宙行业的发展?
雷涛:整体元宇宙行业发展可能不如预期:一是VR终端销售疲软,META的Quest和字节的Pico4出货量都不及预期;二是与元宇宙相关的NFT概念有极大的投机性;此外,元宇宙行业尚未出现杀手级应用,不管是手机端、还是VR设备端都没有出现这样的产品。
从广义上来,AIGC也是元宇宙的一部分,也许未来下一次技术浪潮来临的时候,元宇宙又会焕发新机,但目前来讲还是偏概念阶段。
AIGC的发展能给元宇宙能带来什么?
雷涛:AIGC这个概念从去年开始逐渐火起来,我们看到AIGC可以生成文本、图片、视频、代码、游戏等。
元宇宙需要大量的内容生产。如果是靠传统的PGC或者UGC方式,要么生产成本过高,要么就是生产质量偏低。AIGC这种方式有助于元宇宙快速构建基础设施,包括文字、语音、视频等多媒体内容。
此外,元宇宙可以通过AI来生成代码或者AI来生成里面的人物,这个也是AIGC未来可能达到的一个方向。