国家层面首次系统性部署高质量数据集成物理AI时代“新石油”

科创板日报宋子乔责编季晟 2026-06-08 19:39

Play

语音播报

00:00

/

00:00

语音播报由AI生成

①这是国家层面首次对数据赋能人工智能发展作出的系统性部署；
                ②高质量数据集的严重匮乏，已成为制约物理AI及其衍生的智能体、具身智能和世界模型等前沿领域发展的核心瓶颈。

《科创板日报》6月8日讯（编辑宋子乔）今日，国家数据局发布《关于推进行业高质量数据集建设行动的实施方案》，这是国家层面首次对数据赋能人工智能发展作出的系统性部署。

《实施方案》指出，行业高质量数据集是经过采集、加工等数据处理，可直接用于开发和训练人工智能模型，能有效提升模型性能的行业数据的集合，包含行业通识和行业专识数据集。

《实施方案》的总体目标是，到2028年底，建成一批覆盖重点领域、经过应用验证的行业高质量数据集，打造一批数据驱动人工智能创新发展的典型应用场景，培育一批具备领先优势的创新型数据企业和专业人才，形成一批行业高质量数据集建设工具和标准。

具体措施包括：围绕行业高质量数据集供给、流通、应用等关键环节，部署六大专项行动，提出面向人工智能应用需求，持续推进文本、图像、音视频等多模态高质量数据集建设；聚焦智能体、具身智能和世界模型等重点方向，要求加快推进数据集建设；引导具备条件的地区因地制宜开展数据标注创新试验区建设。

数据是AI训练的核心原料，训练一个领先的大模型，需要数百万甚至数千万条标注数据。从GPT-4的13万亿tokens（词元）高质量数据（中文汉字通常每个对应1-2个tokens），到Qwen2.5-Max的20万亿tokens训练规模，国际巨头正以数据优势构筑技术壁垒。

高质量数据集的严重匮乏，已成为制约物理AI及其衍生的智能体、具身智能和世界模型等前沿领域发展的核心瓶颈。

在2026年世界智能产业博览会上，国家数据局局长刘烈宏明确指出：“高质量数据集是具身智能‘感知-决策-执行’的重要基础。”据《科创板日报》此前报道，具身智能领域多个投资者表示，当下具身发展的核心瓶颈就是数据。高质量数据的规模化生产能力，就是这个赛道的“石油”，“具身数据有着特殊的技术要求，现有民用数据无法复用。例如抓取水杯，机器人无法自主判断握持力度，极易滑落。高精度、第一视角、多维度的具身数据极度稀缺。”

上述判断与“AI教母”李飞飞的观点高度契合。从当年的ImageNet到如今的WorldLabs，李飞飞始终强调数据集的大小决定了智能的程度，她曾在访谈中明确表示，现在，数据可能又成为发展世界模型一个特别特别难的问题，“数据与算法平等重要。”

在2026年2月思科AI峰会上，李飞飞直言，物理世界AI发展滞后于语言模型，核心瓶颈在于数据信噪比——文本数据语义清晰、易获取，而物理世界的像素、体素数据充满噪声，且3D、4D维度的高质量数据极度稀缺。在接受a16z的访谈中，她进一步指出，AI进步的核心限制从来不是算力或算法，而是高质量、多模态、符合物理一致性的数据，这一结论从ImageNet时代延续至今，在世界模型研发阶段更为凸显。

今年以来，高质量数据集领域新动向颇多。

4月15日，国家数据局发布《关于推进行业高质量数据集建设行动的实施方案（征求意见稿）》，向社会公开征求意见。工业和信息化部、国家数据局近期联合印发《关于联合实施2026年“模数共振”行动的通知》，推动人工智能模型与数据资源协同互促、同频共振，并提出到2026年底，基本形成“数据-模型-场景应用”良性互促的循环，推动人工智能高水平赋能新型工业化。

行业平台层面，4月29日，国家数据集管理服务平台发布并启动试运行，提供覆盖数据集全生命周期的公共服务能力。截至5月31日，已认证机构516家，发布数据集1350个，覆盖农业、工业制造、交通、文旅等重点领域。

截至今年一季度，全国已建成高质量数据集超过11.6万个，总体量超过960PB。截至今年3月，我国日均词元调用量已超过140万亿。

财联社声明：文章内容仅供参考，不构成投资建议。投资者据此操作，风险自担。