打开APP
×
阿里深夜炸场!通义千问发布新一代端到端旗舰模型Qwen2.5-Omni
通义千问Qwen
2025-03-27 星期四
北京时间周四凌晨,阿里巴巴发布通义千问系列的最新旗舰模型Qwen2.5-Omni。这款端到端多模态模型专为广泛的多模态感知设计,能够处理文本、图像、音频和视频等多种输入,同时能够通过生成文本和合成语音提供实时流式响应。
人工智能
关注

财联社3月27日讯,北京时间周四凌晨,阿里巴巴发布通义千问系列的最新旗舰模型Qwen2.5-Omni。这款端到端多模态模型专为广泛的多模态感知设计,能够处理文本、图像、音频和视频等多种输入,同时能够通过生成文本和合成语音提供实时流式响应。

据“通义千问Qwen”官方微信号介绍,这款模型的主要特点如下:

模型性能方面,Qwen2.5-Omni在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。

在多模态任务OmniBench,Qwen2.5-Omni达到了SOTA的表现。此外,在单模态任务中,Qwen2.5-Omni在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval和主观自然听感)。

该模型现已在 Hugging Face、ModelScope、DashScope 和 GitHub上开源开放。

特别声明:文章内容仅供参考,不构成投资建议。投资者据此操作风险自担。
相关企业家
联系Ta
联系企业家
为保护双方个人信息请联系您的专属助理进行接洽
我再想想
点击复制
复制成功,请去微信添加