财联社资讯获悉,近日,谷歌宣布推出Gemini1.5。Gemini1.5建立在谷歌基础模型开发和基础设施的研究与工程创新的基础上,包括通过新的专家混合(MoE)架构使Gemini1.5的训练和服务更加高效。谷歌现在推出的是用于早期测试的Gemini1.5的第一个版本——Gemini1.5Pro。它是一种中型多模态模型,针对多种任务的扩展进行了优化,其性能水平与谷歌迄今为止最大的模型1.0Ultra类似,并引入了长上下文理解方面的突破性实验特征。
一、AI领域进展不断
2月16日凌晨,OpenAI在官网发布了创新性文生视频模型——Sora。从OpenAI在官网展示的Sora生成视频的效果来看,其在生成视频质量、分辨率、文本语义还原、视频动作一致性、可控性、细节、色彩等方面均表现得很出色。特别是可以生成最长1分钟的视频,超过Gen-2、SVD-XT、Pika等主流产品。
除OpenAI及谷歌在大模型能力上持续突破外,英伟达Nvidia近期发布了一款名为“ChatwithRTX”的工具,该工具专为GeForceRTX30系列和40系列显卡的所有者设计,让他们能够在WindowsPC上脱机运行AI聊天机器人,类似离线版ChatGPT。这款ChatwithRTX工具允许用户根据个人需求定制GenAI模型,其功能类似于OpenAI的ChatGPT。用户可以将该工具与文档、文件和笔记相连接,进而进行查询。
二、多模态大模型的新一轮浪潮有望开启
开源证券认为,当前AI技术已迅速越过文生文和Chatbot阶段,大举进入视频生成领域。从Pika、Gemini1.0到Sora和Gemini1.5,支持AI视频生成的AI多模态模型不断突破,特别是Sora能够理解和模拟现实世界的模型基础,有望成为实现AGI的重要突破节点。
浙商证券刘雯蜀进一步分析指出,2024年国内外厂商有望发布更加复杂的多模态大模型,实现文本、语音、图像以及音视频等多模态数据的复杂处理和交互。OpenAI发布Sora模型,有望开启多模态大模型的新一轮浪潮。
三、相关上市公司:万兴科技、易点天下、昆仑万维
万兴科技旗下“天幕”大模型是以视频创意类AI技术为核心的多媒体大模型,涵盖音频、图像、视频等多模态能力,将支撑公司在影视、广告、动画等内容创作领域的应用升级与拓展。
易点天下AIGC产品KreadoAI是公司对外的AI类产品,该产品包含了多模态模型的融合,包括文本生成、图生图、文本生成视频、语音生成、声纹克隆、数字人生成等,也包括了文字到广告创意图片及视频的生成能力。
昆仑万维的多模态预训练大模型已完成数据收集和清理,目前进入实验性训练阶段,后续将继续紧密跟踪国际前沿技术进展。