财联社
财经通讯社
打开APP
【盘中宝】训练大模型的数据或在2026年耗尽!这一资源将成为AI发展的“胜负手”,这家公司拥有海量正版数据资源,原创驻站作者440余万名
全球数据争夺战正在拉开序幕,训练大模型的数据或在2026年耗尽,这家公司拥有海量正版数据资源,原创驻站作者440余万名。

财联社资讯获悉,数据资源正成为了稀缺的资源,最新一波为“生成式人工智能”提供动力的超大模型依赖于海量的数据。

此前,模型构建者多数时候从互联网抓取数据(通常是未经许可的)。现在,他们正在寻找新的数据来源来维持这种疯狂的训练模式。与此同时,拥有大量新式数据的公司正在权衡如何最好地从中获利。一场数据争夺战正在拉开序幕。

一、可用于训练的高质量文本可能会在2026年耗尽

人工智能模型的两个基本要素就是数据集和处理能力,系统在数据集上接受训练,模型通过处理能力检测这些数据集内外部之间的关系。在某种程度上,这两大基本要素可以相互替代:一个模型可以通过吸收更多数据或增加更多处理能力加以改进。然而,在专业人工智能芯片短缺的情况下,后者正变得越来越困难,这导致模型构建者加倍专注于寻找数据。

研究机构Epoch AI认为,对数据的需求将会急剧增加,以至于可用于训练的高质量文本可能会在2026年耗尽。据悉,谷歌和Meta这两家科技巨头的最新人工智能模型已经接受了超过1万亿个单词的训练。相比之下,在线百科全书Wikipedia上的英语单词总数约为40亿个。

值得关注的是,近期国内外巨头纷纷披露AI大模型,AI领域3大核心是数据、算力、算法,其中数据将成为AI大模型的核心竞争力,光大证券指出,高质量的数据资源可让数据变成资产、变成核心生产力,AI模型的生产内容高度依赖源头数据。

东北证券分析称,在本轮AI浪潮下,叠加数据要素市场的快速变革,本身是数据源、或接近数据源的公司能够更好地使用AI创造出更大价值,成为AI新时代真正的受益者。

二、语料库须长期自我积累沉淀,未来数据将成为AI发展的胜负手

由于人类的自然语义数据是有限的,GPT3训练量是40t语义训练量,GPT4外界有人推测超过了400t的数据量,再往后模型参数越来越大,所需要的数据量也越来越大。人类现有知识马上就用完了,GPT5可能是NLP这个模态最近几年的一个天花板。

东吴证券则指出,对于我国而言,算法和算力都可以通过挖掘优质人才、引进优秀工程实践,或者直接购买海外优质资产追赶。而培养中文环境的优质数据集、语料库却必须长期自我积累沉淀,未来数据将成为AI发展的胜负手,并有望为中国训练自己的大模型,走出差异化道路提供重要基础。

三、相关上市公司:中文在线、中信出版、汤姆猫

中文在线拥有海量的正版中文数据资源,公司在数据的优势有三个,第一个是海量,公司拥有的中文文字字数超万亿字。第二个是正版版权,拥有旗下数字内容从数字版权到全部版权的权利,可为AI模型公司提供拥有版权的数据集用于训练。第三个是完整的各类型商业生态链,公司拥有网络原创驻站作者440余万名。

中信出版是是全国优秀出版机构,拥有图书、报刊、电子、音像和网络出版及批发零售全牌照,主营图书出版与发行、数字阅读与服务业务和书店业务。

汤姆猫已将汤姆猫IP植入连接了ChatGPT的API,进行语音智能互动功能测试,初步验证了相关技术实现的可行性,已正式着手应用产品的开发。公司海外收入占比近八成,公司系列休闲应用全球平均月活超4亿人次,累计下载量已超180亿人次。

相关个股:
汤姆猫-3.91%
中文在线-6.18%
中信出版-4.86%
财联社声明:文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
商务合作
相关阅读
专栏
盘中宝
重磅信息挖掘
立即订阅