①多模态大模型已经能够记住和回忆空间,甚至内部已经形成了局部世界模型,表现出了空间意识; ②使用认知地图辅助空间推理,可提升模型在空间任务上的准确率; ③李飞飞表示,在2025年,空间智能的界限很可能会再次突破。
编者按:
财联社、科创板日报旗下《AI daily》今日正式推出“Insight・AI 锋线”访谈。访谈聚焦国内外人工智能及大模型领域优秀企业、创业者、领军学者、投资人等,带来AI赋能千行百业的最新探索、实践与思考。Insight・AI 锋线,洞见,先锋,一线!
《科创板日报》9月20日讯(记者 黄心怡)作为AI六小虎之一,MiniMax已完成了A+轮融资,最新一轮由阿里领投,金额为6亿美元。公司估值已突破25亿美元,背后投资方包括腾讯、红杉中国、高瓴、IDG、米哈游等。
在MiniMax的公司内部,同事彼此之间只称呼花名。而对于创始人闫俊杰,员工称呼他为为IO(花名)。闫俊杰曾担任过商汤副总裁、研究院副院长和智慧城市事业群CTO。2021年12月,在商汤上市前夕,闫俊杰离开商汤,创立了MiniMax。
近日,MiniMax发布首款AI高清视频生成模型abab-video-1。闫俊杰在发布会后接受《科创板日报》等媒体在采访中透露,采用新一代技术的abab7系列模型将于未来数周内正式发布,效果对标GPT-4o的模型。谈及大模型商业化的难点,闫俊杰回应称,这确实是行业考验,只有通过这一考验的企业才能成功。
“当产品没人用的时候,或者当产品不赚钱的时候,肯定是不能怪用户,大部分只能怪自己的技术做得不够好,或者产品做得不够好。这可以当成对一个行业的考验。如果能够通过考验,就能够跑出来。如果通不过确实(公司)应该关掉。”
闫俊杰在发布会现场
▌竞争在所难免 要把自己可能做强的地方无限放大
随着以GPT为代表的新一轮人工智能浪潮的兴起,为通用人工智能(AGI)的实现创造了更多的想象空间。
闫俊杰认为,AGI并非高大上的东西,而是要能够变成大家每个人生活中的一部分。
“比如大家看抖音或者看视频号的时候,不会意识到这是基于推荐算法短视频的内容分发平台,大家就觉得抖音、微信已经变成大家生活中的一部分。AGI也是一样,当AI变成如同手机这般,成为大家每天都在用的一部分的时候,AGI就实现了。当然这需要很长的时间,但我觉得可以一步一步地努力。”
对于短期五年内AI能带来的改变,闫俊杰认为,5年后,在有AI帮助的情况下,每个人会大大提高智商的上限,做到比数百人会场里智商最高的人更高。“当然,在有AI的帮助下,人的智商上限能提升多少,这个事情是不太确定的。”
进入2024年,大模型竞争愈发激烈。面对大厂的迅猛夹击,初创公司的生存空间被压缩。
“竞争是难免的。“闫俊杰感叹,“中国有些发展很好的行业,像电动车、手机、移动互联网,都有好几家公司进行了长期非常激烈的竞争,最终使得中国产品在全球领先。既然其他新兴行业发展历史是这样的,大模型又有可能产生很大的社会价值,确实也就应该有很多的竞争。这是发展的客观规律。”
闫俊杰认为,假如一家创业公司在激烈的竞争中打不赢,那么就应该被淘汰。
“当那些比你大好多倍的公司,都开始跟你竞争的时候,就会意识到有些东西是没用的。因为那些东西大厂比你强百倍千倍。我们能做的就是,把有可能变强的事无限地放大(做强)。归结起来有两点,一是技术如何提升,二是如何跟用户做更好的共创。这两点都需要一些非常关键的判断,需要靠非常长期的积累。”
▌多模态大模型 意味着底层基础设施也需要升级
在过去几个月,视频生成大模型的赛场非常热闹。生数科技打造的视频大模型Vidu上线;智谱AI正式发布视频生成大模型“清影”;商汤发布首个面向C端用户的可控人物视频生成大模型Vimi;阿里达摩院推出一站式AI视频创作平台“寻光”;快手可灵AI正式上线网页端,并开源名为LivePortrait的可控人像视频生成框架……
近日MiniMax也发布了首款AI高清视频生成模型。闫俊杰认为,多模态大模型是必由之路,因为多模态内容是人类交流沟通中的主要部分。
“现在我们每天看的大部分内容,都不是文字,而是一些动态的内容。打开小红书是图文,打开抖音都是视频,甚至打开拼多多买东西,大部分时候也是图片。对于人类社会,大模型的核心意义做更好的信息处理,大部分的信息体现在多模态的内容里,而不是在文字上,文字很多时候是其中最精华的那么一小部分。为了能有非常高的用户覆盖度,有非常高的使用深度,唯一的办法输出(多模态)的动态内容,而不只是输出单纯的基于文字的内容,这是一个非常核心的判断。”
尽管多模态被普遍看好,但业界在探索中也感受到,相比文本模型,视频生成模型的研发难度显然更高。
对此,闫俊杰认为,视频大部分的时候工作复杂度确实比做文本更难,因为视频的文本天然很长。比如一个视频涉及千万的输入和输出,天然会很难处理。其次,视频量很大。又比如5秒的视频有几兆,但是5秒看完的文字可能都不到1K,这是几千倍的存储差距。这其中的挑战在于,之前基于文本建的底层基础设施怎么来处理数据,怎么来清洗数据,怎么来标注,这意味着基础设施也需要升级。
“此外,还需要更多的耐心。做文字有很多开源的东西,如果基于开源来做研发会更快,但视频开源的东西没那么多,需要重新来做,付出的耐心也更大。”
▌客观来看,价格战提高了模型的调用量
今年以来,不少大模型企业纷纷开启价格战,以换取AI大模型普及度。闫俊杰认为,客观来看,价格战确实提高了模型的调用量。
“当国内的模型搞起价格战后,本来认为大模型很贵的大部分公司,开始发现大模型很便宜,可以放心地使用。最终惊人地发现有了大模型的价格战之后,很多非常传统的企业开始非常愿意使用大模型。他们觉得反正成本低,出错了之后也不要紧,出错了多调用一次就好了。客观地来说,这非常大地提高了模型的调用量。”
在国内的模型激烈竞争的局面下,MiniMax正在向海外市场拓展。闫俊杰表示,“正是由于国内的模型这么激烈的竞争,推着大家必须往前赶,至少目前已可以达到在非英语国家的语种上,也能够跟GPT不相上下的水平。竞争以及各种各样的事既然不能避免,那就努力做到最好。我们看到乐观的一面,国内大模型的使用量确实在显著地增长,并且中国的模型在海外确实越来越具有竞争力,我觉得是两个积极的变化。”
在具体的商业化模式,闫俊杰介绍,整个公司的商业化可分成两个形式,一是面向B端的MiniMax开放平台,二是产品内的广告机制。
“MiniMax开放平台现在已经有超过三万家企业客户和开发者,包括知名的互联网公司、传统的企业等等。用户会使用我们的声音跟视觉的能力,因为不是所有的公司都可以自己做,我们是很好的合作伙伴。二是MiniMax的产品里也有广告机制,可以做商业化的变现。不过,在现阶段,最重要的事还不是商业化,是真正地让技术到达广泛可用的程度。”
目前,国内已有智谱AI、百川智能、零一万物、月之暗面、MiniMax、阶跃星辰六家独立大模型创业公司,被称之为“AI六小虎”。金沙江创投主管合伙人朱啸虎在接受媒体采访时直言,大模型太贵了,靠商业化根本养不活自己。这几家创业公司最好的结果就是卖给大厂。
谈及投资人朱啸虎的言论和大模型商业化的难点,闫俊杰回应称,这确实是行业考验,只有通过这一考验的企业才能成功。
“当产品没人用的时候,或者当产品不赚钱的时候,这时候肯定是不能怪用户的。大部分时候只能怪自己的技术做得不够好,或产品做得不够好,反正我们是这么来看待这件事的。”
在闫俊杰看来,QQ在2000年也不知道该怎么赚钱,尝试无数商业化变现的方案都失败了,但是最终找到了移动增值业务、找到了游戏,都会经历这样的过程。“这可以当成对一个行业的考验,如果能够通过考验,就能够跑出来。如果通不过确实(公司)应该关掉。”
在整个访谈中,对于行业竞争与企业前景,闫俊杰始终显得比较坦然。“肯定不能怪用户,也不能怪生态,(许多事)只能怪自己做得不够好,至少我们一直是在努力的。希望自己能变得更好,这是我们唯一可以做的事。”