财联社
财经通讯社
打开APP
上海AI公司开源模型登上全球第二
①6月17日,上海国产AI独角兽MiniMax发布全球首个开源大规模混合架构推理模型MiniMax-M1,在权威评测榜单中位列全球开源模型第二;
                ②M1发布后,MiniMax又连续发布视频生成模型Hailuo 02、通用智能体MiniMax Agent等,保持日更。

6月17日,在官网和开源平台GitHub上,上海国产AI独角兽MiniMax抛出全球首个开源大规模混合架构推理模型——MiniMax-M1。该模型在权威评测榜单已位列全球开源模型第二。M1发布当天,MiniMax创始人兼CEO闫俊杰在朋友圈写下:第一次感觉到大山不是不能翻越。

闫俊杰在朋友圈写下:第一次感觉到大山不是不能翻越

M1之后的4个工作日,MiniMax又连续发布视频生成模型Hailuo 02、通用智能体MiniMax Agent、视频创作智能体Hailuo Video Agent,以及音色设计工具Voice Design,保持日更且个个有声响。

MiniMax究竟啥来头?梳理其脉络可发现,它在ChatGPT爆红前就已投身AGI(通用人工智能),并且是国内率先放弃大模型主流稠密架构和传统注意力机制的创业公司。不跟随,是其成长的典型特征。

实力

M1甫一登场,即在权威评测榜单中位列全球开源模型第二,仅次于5月28日发布的DeepSeek-R1-0528。不过从细分项来看,M1在长文本处理、工具调用等方面形成碾压级优势。

MiniMax-M1在权威评测榜单中位列全球开源模型第二

比如,M1支持100万token(模型输入、输出基本单位)的上下文输入,足以一次性容纳《三体》英文原著,能力是DeepSeek同类模型的8倍,可媲美谷歌最新闭源模型Gemini2.5Pro。

而在输出长度上,M1的8万token高于Gemini2.5Pro的6.4万token,对于需生成长篇技术文档、小说剧本等场景,这一优势极具含金量。

M1在保持性能的同时,其性价比让友商有些坐不住了。在用8万Token深度推理时,M1所需算力仅为DeepSeek的30%。M1在强化学习阶段,成本仅53.5万美元。此成本,比MiniMax自己预估的少了一个数量级,更别提跟其他友商相比了。

文本大模型M1只是开胃菜。MiniMax的视频生成大模型Hailuo 02,直接叫板谷歌第三代视频生成模型Veo3。

体操、杂技等复杂运动,一直被作为AI视频模型的图灵测试。但过往AI视频里,常出现运动主体肢体错乱(如三条腿)、五官扭曲等“翻车”状况。

与谷歌Veo3相比,Hailuo 02实现了对物理世界规律的极致理解。

同为跳马,Hailuo 02实现了对物理世界规律的极致理解,可见谷歌Veo3生成视频出现肢体错乱扭曲不符逻辑

Hailuo 02实现了对物理世界规律的极致理解。以“一只猫在奥运会从10米高跳板上进行跳水表演,翻腾旋转,动作优美”为提示词,让谷歌Veo3和Hailuo 02各自生成视频。前者的视频中,猫咪翻转动作含糊,几乎直扑入水;后者则在空中完整翻转三周半后优雅入水,动作全程均符合逻辑。

谷歌Veo3和Hailuo 02各自生成“猫跳水”视频对比,谷歌Veo3视频中猫直接入水,Hailuo 02视频中的猫在空中完整翻转三周半后入水,动作全程符合逻辑。

Hailuo 02生成的“猫跳水”视频在Instagram发布后一周内,即获3亿现象级流量。一夜之间,长颈鹿、羊、河马等动物都“学会”了跳水、打乒乓等,“动物奥运会”这一AI视频新品类被Hailuo 02开创出来。

长颈鹿也“学会”了跳水

打磨

殊不知,为锤炼Hailuo 02,MiniMax打造了一支导演、编剧、美术复合团队班底,与技术团队一同打磨。

MiniMax AI艺术总监郑晓东坦言,他天天跟算法工程师们开会,跟听天书一般。但他依旧理直气壮地提要求:一要有电影质感,把大片最高审美带给用户;二要挑战高动态、超复杂、大幅度动作;三是结果导向,AI生成的片段切入电影或短剧的比例,第一步要达到5%。

“我就代表用户提意见。如果不能将高动态美学的能力给到用户,还不如不做。”郑晓东从未质疑过自己要求的合理性。

过去一年,AI视频技术团队经历了无数抓狂时刻。明明架构、算法不断优化,效果却背道而驰。

但唯有高质量的数据、创新的算法,以及死抠每一道训练环节以避免“差之毫厘,谬以千里”,最终成就了Hailuo 02的一鸣惊人。

MiniMax要把大片审美带给用户

关键在于,AI视频生成领域曾陷入效果、效率、成本的“不可能三角”,即追求极致生成效果,往往拖慢效率,且需要海量的计算资源、高昂的训推成本。Hailuo 02却以创新的NCR架构,在将模型参数和训练数据量分别提升3倍和4倍的同时,效率还实现了2.5倍的飞跃。

郑晓东认为,团队敢讲真话、有自己的原则和坚持、一切只为模型效果负责,这些尤为关键。“这可能也是MiniMax数十人的视频团队,却比大厂数百人队伍还扛打的秘诀。”

记者采访时,MiniMax公司多名员工提及“做好模型本身”。他们说,闫俊杰反复强调:好模型的本质是技术驱动,而模型是产品出现的驱动力。

言下之意,技术好、模型好,自有产品力。此条逻辑似已经被证明——MiniMax视频生成应用Hailuo AI,去年下半年起持续霸榜全球第一,力压海外的Sora、Runway等产品。同时,MiniMax开放平台快速成长,已有全球超过5万名企业客户和开发者注册,Hailuo AI已帮助来自200个国家和地区的创作者生成了超过3.7亿个视频。

Hailuo 02官方价格显著低于Runway、可灵等国内外同行,实现行业底价。

逆行

从某种意义上说,MiniMax如今的主场时刻,是用“逆行”换来的。

去年以来,迫于内部成本与外部竞争,国内外大模型公司多在加速收敛。如去年7月时,美国前六的AI创业公司只剩OpenAI和Anthropic,若加上面临被收购的xAI公司,最多2.5个。

而国内,百模大战很快收缩为个位数竞争,曾经的大模型“六小虎”,不少转而押注行业落地。

MiniMax成了为数不多仍在坚持基座模型研发的创业公司。

MiniMax的沉着,在于迷雾中的清醒与果敢。

2023年下半年,国内同行多坚信大模型稠密架构,MiniMax却率先投入资源研究MoE架构。MoE架构将模型分成多个专家子网络,视情动态激活“专家”进行计算,以节省计算开销。早在去年初,MiniMax就已上线国内首个基于MoE架构的大模型,而今年初爆火的DeepSeek-R1使用的就是MoE架构。如今,MoE几乎取代稠密架构,成为行业主流。

此次M1的成功不仅在于沿用MoE架构,核心秘笈还在于使用了线性注意力机制。模型传统的注意力机制中,token长度与算力消耗呈平方关系,token增长百倍,算力消耗就增长万倍。线性注意力机制是在token长度增加后,努力让算力消耗呈线性增长。事实上,该理论2019年就有海外学者提出,但敢于投时间、人力、算力资源验证其可行性,并最终用于大规模商业化部署的,全球范围仅MiniMax一家。

另外,MiniMax还创造了一种名为CISPO的强化学习方法,可更好保留长推理链条中的转折点。MoE、线性注意力、CISPO,共同构成模型高效能、低成本的基石。

不过,大模型发展是一场长跑,其决赛季远未到来。面对平均每三个月就能带来“行业一震”,MiniMax保持敬畏,其目标始终就一个——留在牌桌上。

去年世界人工智能大会上,闫俊杰在接受记者采访时谈及“生存”。他认为,技术上能快速进步、商业上能较好循环,唯有符合这两点的公司才能留下来。他还补充道:“在等待市场出现千万级乃至亿级AI应用过程中,大模型公司该做的,就是具备每年提升10倍的能力。我们成立迄今,正是按这个速度来的。”

另据记者了解,MiniMax与上海人工智能实验室书生·浦语大模型,以及商汤、阶跃星辰等四大基座模型,共同构成大模型“上海队”。如商汤今年4月全新升级“日日新SenseNova V6”,推理能力对标OpenAI o1,数据分析能力大幅领先GPT-4o,其体系还涵盖国内首个支持10分钟中长视频深度解析的大模型。又如成立才2年多的阶跃星辰,已累计发布22款自研基座模型,其中多模态模型占比超7成,也因此在行业内被称为“多模态卷王”。

上海还在去年底印发《关于人工智能“模塑申城”的实施方案》,力争到2025年底建成世界级人工智能产业生态,建设3至5个大模型创新加速孵化器,建成一批上下游协同的赋能中心和垂直模型训练场。

商汤今年4月全新升级“日日新SenseNova V6”。

人工智能 AIGC
财联社声明:文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
商务合作
热门解锁
相关阅读
评论
发送