
①高端算力供给不足、软硬件适配不畅、技术标准不一、应用成本高昂,成为广大中小企业发展的显著壁垒; ②在首届光合组织人工智能创新大会上,多名演讲嘉宾认为,应该建设开放、共享、分工、协作、团结、共赢的产业格局。
《科创板日报》12月19日讯(记者 陈俊清) 当前,人工智能已实现从辅助工具到核心生产要素的根本性跃迁。科学大模型、世界模型、具身智能等前沿方向迅猛发展,对底层算力提出了前所未有的规模与性能要求。
然而,繁荣背后,“性能墙”与“生态墙”双重制约依然突出——高端算力供给不足、软硬件适配不畅、技术标准不一、应用成本高昂,已成为广大中小企业发展的显著壁垒。在此背景下,“开放”从可选项转变为产业突破瓶颈、实现可持续发展的行业共识。
在近日于昆山举办的首届光合组织人工智能创新大会(HAIC2025)上,多名演讲嘉宾认为,市场需要开放、高效、安全、稳定的智能计算基础设施,应该建设开放、共享、分工、协作、团结、共赢的产业格局。
超集群破解算力不足、生态碎片化难题
IDC预计,全球在人工智能技术上的支出未来5年累计将超过5万亿美元,并将在未来五年内带动约22.3万亿美元的全球累计经济影响。到2030年,AI将为中国经济累计影响超过4万亿美元,中国未来5年在人工智能技术上的支出总额将达到5000亿美元。
IDC中国区副总裁兼首席分析师武连峰在会上分析了当前算力发展方向。他表示,为满足万亿规模模型训练推理及海量用户需求,传统节点已无法适配,需通过超高速总线将多个GPU整合为高密度计算单元;开放生态则可避免用户锁定于单一厂商,适配不同GPU、CPU发展。
同时,算力市场也面临集群规模持续增大、性能与效率瓶颈凸显、生态壁垒问题突出、综合运行保障能力不足等多重挑战。武连峰认为,AI超集群是核心解决方案。与传统集群相比,AI超集群实现多项跨越:一是在单节点内实现高密度算力集成,规模可达百P级;二是稳定跨越,通过多超节点连接实现优异扩展性,依托高可靠性设计保障系统容错能力,支持长时间运行;三是采用更高效的数据中心整体设计以及液冷技术,适配多元需求的同时降低PUE。
中科曙光高级副总裁李斌表示,自2022年AI大模型出现智慧涌现以来,模型参数的“军备竞赛”推动人工智能综合能力快速提升,也倒逼算力基础设施加速升级。当前全球领先AI超级计算机的性能增速,已超越传统超算发展黄金时期。与此同时,大模型技术迭代也对计算装备提出多重新挑战,涵盖内存容量与带宽、互联带宽与延迟、系统能耗与效率、稳定性及应用生态兼容性等关键维度。
面对行业挑战,中科曙光明确发展方向主要包括两方面,一是在芯片制程等单点技术相对落后的情况下,通过系统工程创新弥补差距;二是以开放架构促进软硬件协同。基于此,中科曙光提出AI计算开放架构理念,以GPU算力芯片为核心进行紧耦合系统设计,优化数据通路实现存算传高效协同,并整合冷却、供电、管理等环节提升效能。
作为HAIC2025的核心亮点之一,中科曙光发布scaleX万卡超集群。据介绍,该集群面向万亿参数大模型与前沿科学智能等极致场景设计,由16个scaleX640超节点通过全栈自主研发的原生RDMA高速网络互连而成,硬件支持多品牌AI加速卡,软件兼容主流计算生态。
针对此次发布的万卡超集群,李斌在接受《科创板日报》等媒体采访时表示,其算力较传统算力集群提升显著,一方面,超集群通过提供更充沛的算力供给,解决传统集群算力不足导致的产业周期变长问题,在气象数据模拟、新药研发等领域成效显著;其次,通过算力、数据、模型一体化管控及智能调度,超集群可以让科研人员聚焦核心任务,无需关注底层运维细节。在行业赋能层面,该超集群将为银行的结算时效提升、数据安全保障以及新能源汽车仿真模拟等重点行业的数字化转型提供核心支撑。
对于大规模超算集群可能因高度定制化而牺牲升级灵活性的问题,李斌坦言“鱼与熊掌不可兼得”,当前超节点系统为适配苛刻算力需求,多采用基于业务算法的高度定制化耦合设计,确实存在升级灵活度不足的问题。为此,曙光在通过推动 “AI计算开放架构” 来寻求平衡。该架构旨在实现从芯片到系统的垂直整合与协同优化,并通过成立“联合实验室”及下设多个技术工作组,如芯片互连、底层软件栈、冷却技术等,联合产业链伙伴共同制定开放标准,让硬件架构能兼容不同计算芯片,缓解生态碎片化。
互联总线开放提速 国产算力迈向生态协同
面对大模型和智能体应用快速普及带来的算力与系统复杂性提升,开放计算已成为破解生态碎片化和应用迁移成本高企的关键路径。“当前AI芯片正向异构融合演进,CPU与加速器协同能力成为制约系统性能释放的重要因素。通过软硬件协同优化和生态共建,开放计算有望加速AI能力向行业场景渗透,为数字化转型提供可持续的基础算力支撑。”海光信息总裁沙超群表示。
在沙超群看来,产业发展维度方面,AI领域呈现三大显著特征:其一,基座大模型竞争白热化,全球领先科研团队与科技企业持续加码,参数规模向万亿乃至十万亿级突破,世界模型研究加速推进;其二,行业应用迈入深水区,垂类大模型数量超数千个,专注解决实际问题的行业智能体相关企业达5000多家,AI正全方位重塑千行百业信息系统并引发能效革命;其三,原生应用普及度大幅提升,日活用户逼近3亿大关,通过手机、汽车、可穿戴设备等载体深度融入日常生活,我国日均Token消耗量已达50万亿,未来在数字融合、具身智能技术驱动下将实现更广泛渗透。
作为AI产业发展的核心支撑,算力芯片与AI产业呈现相辅相成的发展态势。在摩尔定律尚未失效的背景下,万亿级乃至十万亿级大模型预训练及海量并发推理需求,推动算力芯片形态不断演进。
沙超群认为,当前,NVLink已成为主流模型架构,对通讯效率和性能提出更高要求,算力芯片已从单一GPU向CPU+GPU异构协同转变,再到互联技术、超节点、超集群技术的迭代,这不仅是规模的扩张,更是对通讯、存储、供电等极致效率的体系化竞赛。
沙超群分析称,我国AI算力产业具备多重优势:国际影响力开源基础模型不断涌现、应用场景丰富,且AI基础投资规模持续扩大,今年中国相关投资达800亿美金,未来仍有增长空间。与此同时,AI算力行业也面临严峻挑战,国内30多家算力芯片企业单体规模有限,多数不具备系统能力;产业生态孤立、技术壁垒林立、生态碎片化问题突出,整机厂商、最终用户及开发者需适配多套技术路线,且与国际主流生态存在兼容性难题。
针对上述困境,沙超群表示,AI算力发展需要更加紧耦合的系统,也需要开放、统一的互联协议,构建开放、协同、开源、共赢的产业新生态是破局关键。据其介绍,海光信息秉承CPU+DCU双芯战略:一方面加强自主迭代,实现每年一代芯片、性能翻一番,同时通过CPU、DCU及互联协同设计高效超节点,发挥系统算力优势;另一方面通过开源开放协同6000多家合作伙伴,打造系统化能力,聚合国内GPU产业生态。
据了解,海光信息已于今年三季度正式宣布开放互联总线协议(HSL),该协议的核心内容包括开放完整的总线协议、提供IP参考设计、开放指令集等。据海光系统互联总线工作组负责人介绍,海光信息将于2026年一季度发布HSL IP参考设计以及HSL硬件系统参考设计,支持海光系统互联总线的系统将于2027年实现量产。
此外,在本届HAIC2025上,由浪潮信息、中兴、联想开天等30余家头部科技企业联合发起的“AI计算开放架构联合实验室”首批项目组协同创新计划启动。该联合实验室将重点围绕系统高速互联总线、统一基础软件栈、AI服务器设计规范等行业共性需求,开展协同研发,以解决国产智算服务器“适配难”、缺少统一类CUDA基础软件栈、异构算力间兼容性不足、系统协同效率低等问题。实验室相关技术成果将遵循开放协议,推动在不同架构与场景中的快速验证与应用。据悉,这一产学研协同平台预计未来三年总投入将达10亿元,建成涵盖设计、仿真、验证及测试的完整研发环境,开展30+联合研发项目。