打开APP
×
11:24
蚂蚁集团开源发布全模态大模型 Ming-Flash-Omni 2.0
蚂蚁集团开源发布全模态大模型 Ming-Flash-Omni 2.0,是业界首个全场景音频统一生成模型,可在同一条音轨中同时生成语音、环境音效与音乐。用户用自然语言下指令,可对音色、语速、语调、音量、情绪与方言等进行控制。模型在推理阶段实现了 3.1Hz 的极低推理帧率,实现了分钟级长音频的实时高保真生成。(记者 黄心怡)
蚂蚁集团
人工智能
TMT行业观察
阅读 6666
特别声明:文章内容仅供参考,不构成投资建议。投资者据此操作风险自担。
相关企业家
联系Ta
联系企业家
为保护双方个人信息请联系您的专属助理进行接洽
我再想想
点击复制
复制成功,请去微信添加