①上海在建设语料基座方面释放出明确信号,将布局新领域,重点在突破具身智能、强推理、稀缺数据集等三个专项。 ②WAIC2025期间,多个AI数据语料最新解决方案发布,多行业企业亦介绍了各自高质量数据集的建设进展。 ③中国电子云高级副总裁黄锋称,数据准备占模型训练80%以上的工作量。
财联社7月28日讯(记者 付静 张校毓)一年一度的AI产业盛会世界人工智能大会(WAIC)正在上海举行,财联社记者现场观察到,人形机器人、AI眼镜等应用的展台前颇为热闹,其背后的数据亦受到多方关注。
“数据既是AI模型的基础,也是应用的基础,数据准备占模型训练80%以上的工作量。大语言模型本质上还是对于基础数据的知识的压缩,其实本质上还是个统计学的模型。”中国电子云高级副总裁黄锋在接受财联社等媒体采访时表示。
WAIC2025期间,上海在建设语料基座方面释放出明确信号:一方面通过进一步加大稀缺语料数据集、思维链数据集建设等方面专项工程,聚焦具身智能、科学智能,做优行业语料,构建多层次语料供给体系;另一方面,强化语料标准建设,升级语料运营平台,进一步攻关数据合成、思维链数据集成等方面新技术,持续优化创新新型数据底座的建设。
据悉,前期上海已做了大量的语料数据库建设,接下来不仅将注重高质量语料,还将布局新的领域,重点在突破具身智能、强推理、稀缺数据集等三个专项。
由于高质量数据集建设面临着目标定位模糊、实施路径碎片化、技术底座薄弱三大难题,国家部委和地方政府注重“人工智能+数据要素”政策协同布局。目前,建设高质量数据集也成为众多领域企业布局AI大模型的一大“重头戏”。
财联社记者最新获悉,上海库帕思科技有限公司(简称“库帕思”)按上海市整体部署打造了全国首个语料运营公共服务统一门户,深化众包众创和开源开放的语料运营机制。库帕思曾于WAIC2024期间发布《语料库建设导则》,今年则集中发布了10项团体标准、3项行业标准、1项指南。
库帕思董事长山栋明称,数据正发生一系列变化,如从传统的互联网向学术密集型转变、从两维平面向立体高维转变、从原生数据向合成语料转变、从关注预训练向后训练转变。为此,公司的做法包括重构语料数据的方法体系及基础设施、链接行业生态。
励讯集团(RELX)中国区高级副总裁张玉国在接受财联社记者采访时表示,语料资源长期供给不足,其根源在于数据资源供给机制尚不健全。“一个成熟的数据市场,应能支持企业按照自身需要,自主采购、加工、标注数据并高效完成合规验证。目前这一市场链条尚未打通。”
WAIC2025期间,中国电子云面向国家关键行业推出全链路AI解决方案,亦涵盖多模态数据治理平台。据悉,中国电子云目前与国内超过五家国家实验室和超过十家央企达成了高质量数据集合作意向。
黄锋称,近年大家越来越重视多模态的数据治理平台工具链,但是市面上现在相对成熟的平台不多。“中国电子云多模态数据治理平台的定位,是通过一系列的治理动作把原始的数据集变成AI ready的数据集,包括文本解析、关键信息提取、数据标准化、归一化、去重等工作。平台的产出是高价值、高密度、标准化的数据,可以直接用于模型训练,也能有效提升模型的效果和性能。”
“今年以来B端客户对大模型应用落地意愿增强了,但落地快不快也得看企业自身的数据好不好。”一家AI方案商相关负责人也对财联社记者如此表示。
对于上述现象,中国工程院院士、清华大学教授郑纬民总结为,“企业拥抱AI有章可循:找准核心问题、用好高质量数据、微调基础大模型即可见效。”
高质量数据集是指用于训练、验证和优化大模型而收集、整理、标注形成的覆盖行业核心专业知识和生产经营活动的数据资源集合。2023年12月31日,国家数据局等17部门联合印发的《“数据要素×”三年行动计划(2024-2026年)》提出,推动科研机构、龙头企业等开展行业共性数据资源库建设,打造高质量人工智能大模型训练数据集。今年4月30日,《高质量数据集建设指南(征求意见稿)》发布。
谈及为何国家数据局强调高质量数据集,黄锋分析称,真正要落地智能体应用时,如果做行业模型所需的数据集没有准备好、从数据知识库的构建到应用开发平台的数据没有准备好,大概率会模型效果不好。
值得注意的是,WAIC期间,不少领域的企业介绍了各自高质量数据集的建设进展。
例如:东航数科董事长高志东称,东航正在着力构建安全、营销、服务、运行、机务、管控等多领域数据集。高志东坦言,在此过程中东航遇到了跨主体数据共享难度大、缺乏统一标准、多源异构数据融合难等挑战。
此外,广州国家实验室助理研究员邵健表示,为解决可穿戴设备“数据质量”问题,当前广州国家实验室正建设一个25万人规模的高质量多模态数据资源库,依托多模态数据和高质量可穿戴数据,希望发掘出能反映呼吸疾病早期进展的数字标志物,实现对于相关病症“预测风险”。