财联社
财经通讯社
打开APP
国家层面首次系统性部署 高质量数据集成物理AI时代“新石油”
Play
语音播报
00:00
/
00:00
00:00
语音播报由AI生成
①这是国家层面首次对数据赋能人工智能发展作出的系统性部署;
                ②高质量数据集的严重匮乏,已成为制约物理AI及其衍生的智能体、具身智能和世界模型等前沿领域发展的核心瓶颈。

《科创板日报》6月8日讯(编辑 宋子乔)今日,国家数据局发布《关于推进行业高质量数据集建设行动的实施方案》,这是国家层面首次对数据赋能人工智能发展作出的系统性部署。

《实施方案》指出,行业高质量数据集是经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型性能的行业数据的集合,包含行业通识和行业专识数据集。

《实施方案》的总体目标是,到2028年底,建成一批覆盖重点领域、经过应用验证的行业高质量数据集,打造一批数据驱动人工智能创新发展的典型应用场景,培育一批具备领先优势的创新型数据企业和专业人才,形成一批行业高质量数据集建设工具和标准。

具体措施包括:围绕行业高质量数据集供给、流通、应用等关键环节,部署六大专项行动,提出面向人工智能应用需求,持续推进文本、图像、音视频等多模态高质量数据集建设;聚焦智能体、具身智能和世界模型等重点方向,要求加快推进数据集建设;引导具备条件的地区因地制宜开展数据标注创新试验区建设。

数据是AI训练的核心原料,训练一个领先的大模型,需要数百万甚至数千万条标注数据。从GPT-4的13万亿tokens(词元)高质量数据(中文汉字通常每个对应1-2个tokens),到Qwen2.5-Max的20万亿tokens训练规模,国际巨头正以数据优势构筑技术壁垒。

高质量数据集的严重匮乏,已成为制约物理AI及其衍生的智能体、具身智能和世界模型等前沿领域发展的核心瓶颈。

在2026年世界智能产业博览会上,国家数据局局长刘烈宏明确指出:“高质量数据集是具身智能‘感知-决策-执行’的重要基础。”据《科创板日报》此前报道,具身智能领域多个投资者表示,当下具身发展的核心瓶颈就是数据。高质量数据的规模化生产能力,就是这个赛道的“石油”,“具身数据有着特殊的技术要求,现有民用数据无法复用。例如抓取水杯,机器人无法自主判断握持力度,极易滑落。高精度、第一视角、多维度的具身数据极度稀缺。”

上述判断与“AI教母”李飞飞的观点高度契合。从当年的ImageNet到如今的WorldLabs,李飞飞始终强调数据集的大小决定了智能的程度,她曾在访谈中明确表示,现在,数据可能又成为发展世界模型一个特别特别难的问题,“数据与算法平等重要。”

在2026年2月思科AI峰会上,李飞飞直言,物理世界AI发展滞后于语言模型,核心瓶颈在于数据信噪比——文本数据语义清晰、易获取,而物理世界的像素、体素数据充满噪声,且3D、4D维度的高质量数据极度稀缺。在接受a16z的访谈中,她进一步指出,AI进步的核心限制从来不是算力或算法,而是高质量、多模态、符合物理一致性的数据,这一结论从ImageNet时代延续至今,在世界模型研发阶段更为凸显

今年以来,高质量数据集领域新动向颇多

4月15日,国家数据局发布《关于推进行业高质量数据集建设行动的实施方案(征求意见稿)》,向社会公开征求意见。工业和信息化部、国家数据局近期联合印发《关于联合实施2026年“模数共振”行动的通知》,推动人工智能模型与数据资源协同互促、同频共振,并提出到2026年底,基本形成“数据-模型-场景应用”良性互促的循环,推动人工智能高水平赋能新型工业化。

行业平台层面,4月29日,国家数据集管理服务平台发布并启动试运行,提供覆盖数据集全生命周期的公共服务能力。截至5月31日,已认证机构516家,发布数据集1350个,覆盖农业、工业制造、交通、文旅等重点领域。

截至今年一季度,全国已建成高质量数据集超过11.6万个,总体量超过960PB。截至今年3月,我国日均词元调用量已超过140万亿。

人工智能 大数据
财联社声明:文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
商务合作
热门解锁
相关阅读
评论
发送
复制
取消
垃圾广告
政治激进内容
色情低俗内容
取消