视频生成实验模型“VideoWorld”由豆包大模型团队与北京交通大学、中国科学技术大学联合提出。不同于Sora 、DALL-E 、Midjourney等主流多模态模型,VideoWorld在业界首次实现无需依赖语言模型,即可认知世界。 目前,该项目代码与模型已开源。
《科创板日报》5日讯,DeepSeek-R1、DeepSeek-V3、DeepSeek-V2、Janus-Pro正式上线昇腾社区,支持一键获取DeepSeek系列模型,支持昇腾硬件平台上开箱即用,推理快速部署。(记者 黄心怡)
《科创板日报》19日讯,在云栖大会期间,通义万相大模型发布文生视频能力。同时,通义千问新一代开源模型Qwen2.5发布,涵盖多个尺寸的大语言模型、多模态模型、数学模型和代码模型,总计上架100多个模型。(记者 黄心怡)
①Meta发布开源大模型Llama 3.1,这是Meta目前为止规模最大的大语言模型,性能对标GPT-4o和Claude3.5; ②大模型开源和闭源优劣比较时有发生,随着Llama 3.1发布,二者获或迎来新一轮激斗; ③英伟达同期推出组合服务,为Llama 3.1助攻。
《科创板日报》6日讯,今日,在2024世界人工智能大会(WAIC)上,启明创投发布了2024《生成式AI》报告预告,其中对多模态模型作出预测:将出现图像和文本的统一连续表示,并且基于此的图文联合扩散模型将达到GPT—10级别能力;3年内视频生成将全面爆发,结合3D能力,可控多视频生成将对影视、动画、短片的生成模式带来变革。(记者 李明明)
①《科创板日报》记者实测发现谷歌Gemini 1.5 Pro在文本理解能力上优于GPT-4o,但在多模态理解方面,GPT-4o更胜一筹; ②前华为“天才少年”预测国内第一个端到端多模态大模型年底将到来。
财联社5月13日电,多模态AI概念震荡回升,中胤时尚、网达软件涨停,万兴科技、佳发教育、因赛集团、值得买等跟涨。消息面上,OpenAI在社交媒体X上宣布,将于5月13日上午10点(北京时间5月14日凌晨1点)在其官网上直播演示ChatGPT和GPT-4的更新。据硅谷科技媒体The Information报道,OpenAI正在开发具备音频和视觉理解能力的AI语音助手,最早可能会在5月13日的活动上预览。
①生数科技在两个月内有如此提升已经是算法和工程能力上的突破,但在同等性能表现下追平Sora的1分钟时长,还有较长的一段路要走。 ②目前,Vidu对外公布的时长上限是16秒,Sora最大时长则是1分钟。
财联社4月11日电,多模态AI概念持续走强,三六零午后涨停,昆仑万维、值得买、引力传媒、华策影视等涨幅靠前。消息面上,近日,AIwatch.ai发布“全球AI产品增速黑马榜”,三六零两款AI产品进入前十,其中360AI搜索居榜首,3月访问量环比增加1677%。360苏打办公同时上榜,数据显示其3月访问量超WPS,据了解“苏打办公”将集成更多AI爆款应用,升级为360AI办公工具集。
财联社4月10日电,大模型的应用需要深入各行各业,解决实际问题。要拓宽其应用场景,加强大模型技术与产业的深度融合,推动产学研合作,解决技术合规性、安全性、数据质量等问题,助力大模型走向广阔市场空间。展望未来,期待看到更多具有开源精神的项目和创新生态社区涌现,推动技术的共享和发展,成为技术与产业结合的桥梁和纽带。
《科创板日报》2日讯,2日获悉,在复旦大学自然语言处理实验室(FudanNLP)师生的努力下,基于多模态大模型“复旦·眸思”(MouSi)为视障者量身打造的“听见世界”APP上线,将成为视障人士的生活助手与智能管家。2023年上半年,复旦大学自然语言处理实验室发布了开发MOSS对话式大型语言模型,被称为中国版的GPT,仅用半年时间多模态模型“眸思”问世。据介绍,“眸思”和基于文本的MOSS不同,它能够理解并识别图片内容,致力于成为视障者的一双“眸”。
①在AI视频生成领域,要让视频人物和声音完美同步,仍是一个巨大的挑战; ②EMO不仅可以生成任意时长的说话视频,还能生成人像整个头部都发生丰富变化的说话视频,表情、五官、姿势都会产生非常自然的变化; ③从技术方面来看,视频生成工具的底层模型及技术仍在优化,有望诞生更多后起之秀。
财联社2月29日电,国新文化涨停,开普云、宣亚国际、因赛集团涨超5%,天娱数科、竞业达、汉王科技等跟涨。消息面上,字节跳动正在AI大模型领域秘密研发多个产品,其中包括多模态数字人产品以及AI生图、AI生视频产品等。
①《千秋诗颂》由“央视听媒体大模型”制作,美术设计、动效生成和后期成片等各环节均由AI辅助制作; ②同等预算条件下,按照传统动画制作流程计算,《千秋诗颂》至少需要8个月时间,依托大模型后,制作周期缩短至4个月; ③对于古诗词的理解,不能单凭AI技术,打造优质中文语料库至关重要。
①在大规模训练时,Sora已可以模拟数字世界,渲染出与《我的世界》游戏极其相似的HUD、高保真度渲染世界及游戏动态,还能控制玩家角色。 ②英伟达高级研究科学家Jim Fan猜测,Sora不会明确调用UE5(虚幻引擎5),但有可能将UE5生成的文本、视频当做合成数据添加到训练集中。
①OpenAI发布了首个文生视频模型Sora,可以用文字指令生成长达1分钟的高清视频。 ②不少业内分析指出,这将对于广告业、电影预告片、短视频行业带来巨大的颠覆。也有从业者保持冷静:短期内的颠覆速度不一定那么快,更多地是借助新技术,激发更多人的创作力
①Open AI对外公布文生视频模型Sora,其建立在过去对DALL-E和GPT模型的研究基础之上; ②Sora能够从文本说明中生成长达60秒的视频,并能够提供具有多个角色,特定类型的动作和详细的背景细节的场景; ③Sora还能在一个生成的视频中创建多个镜头。