蚂蚁集团开源发布全模态大模型 Ming-Flash-Omni 2.0

打开APP

11:24 蚂蚁集团开源发布全模态大模型 Ming-Flash-Omni 2.0

蚂蚁集团开源发布全模态大模型 Ming-Flash-Omni 2.0，是业界首个全场景音频统一生成模型，可在同一条音轨中同时生成语音、环境音效与音乐。用户用自然语言下指令，可对音色、语速、语调、音量、情绪与方言等进行控制。模型在推理阶段实现了 3.1Hz 的极低推理帧率，实现了分钟级长音频的实时高保真生成。（记者黄心怡）

蚂蚁集团人工智能 TMT行业观察

阅读 52327

特别声明：文章内容仅供参考，不构成投资建议。投资者据此操作风险自担。