①在完成初步样品交付和优化后,三星计划根据客户的进度安排开始批量生产HBM4E;
②其HBM4E在性能、容量、能效与散热方面均有大幅提升,专为大模型、生成式AI及高性能计算场景打造。
《科创板日报》5月29日讯(记者 黄心怡)从生成式人工智能到智能体的爆发,正在AI底层基础设施领域催生一场深刻变革——其核心是从传统GPU硬件转向可量化、可交易的智能“货币”Token。随着Token调用量指数级增长,一个围绕“Token经济学”的时代正在拉开序幕,中国的算力市场和国产芯片产业正站在这一历史转折点上,迎来前所未有的机遇与挑战。
根据国家数据局披露的数据,2024年初我国日均Token调用量约1000亿,2025年底跃升至100万亿,2026年3月进一步突破140万亿,两年间增长超过1000倍。
《科创板日报》记者从云计算服务商优刻得获悉,今年以来其平台上的Token调用量呈现井喷式增长,客户规模快速扩张。一个直观指标是:在同一月份内,月末单日Token总消费金额可达月初首日的1.5至2倍。这已非线性增长,而是典型的指数级加速信号——意味着越来越多的企业正将AI能力嵌入真实业务场景,从“测试调用”走向“常态化生产”。
这一现象并非孤例。国内AI Infra服务商硅基流动平台上的Token生成量、开发者活跃度以及企业客户数,均在今年加速攀升,延续了爆发式增长态势。截至目前,硅基流动的公有云及私有云MaaS平台,日均Token生成量已达数万亿量级,服务超过1000万用户和1万家企业客户,覆盖政企、互联网、金融、能源、交通、文娱等各行各业。
优刻得相关负责人认为,推动Token需求持续高涨的动力来自三个方面:首先,头部大模型公司为保持竞争力,训练与推理算力的采购量仍在飙涨,模型参数扩大和多模态能力引入使得算力消耗呈指数级上升。其次,垂直行业模型公司进入规模化投入期,利用自身行业数据持续训练和迭代,形成长期、稳定的需求。最后,AI Agent的兴起正在引爆新一轮算力消耗,Agent在执行多步骤任务、调用工具和进行复杂推理时,单次任务的Token消耗量远高于传统对话场景。
这种需求狂飙,已让算力供给方感到供不应求的压力。在阿里巴巴的业绩交流会上,CEO吴泳铭直言:“目前服务器没有一张卡是空着的,客户的需求无法完全满足,排队的还很多。”
魔形智能相关负责人陆嘉骏向《科创板日报》记者提到,从客户反馈来看,他们也在催促增加算力资源、扩大供应量,“这是一个增速非常快的增量市场,长期处于供不应求的状态”。

联想集团董事长兼CEO杨元庆则点明了需求的变化趋势。他在业绩会上指出,AI基础设施正经历爆发式增长,当下约有70%-80%的AI基础设施(以GPU服务器为主)被用于模型训练,仅有20%-30%用于推理。但他预测:“未来这个比例很可能会反过来,70%用于推理,30%用于训练。”他强调,这并不意味着训练所需算力会减少,恰恰相反,训练需求依然会持续增长。这也意味着大型云服务厂商已难以满足全部算力需求,一批新兴的云服务商(Neocloud)正在以更快的速度崛起。
▍Token经济学崛起 重构算力行业商业模式
Token消耗量的狂飙,正倒逼整个产业链重新思考价值交换的底层逻辑。过去,算力市场遵循的是“硬件资源租赁”模式;而今,一种更灵活、更贴合应用层的“Token服务”模式正在崛起。这便是“Token经济学”的核心——将底层算力封装为可计量、可定价、可结算的智能服务。
然而,这并非一场简单的“新老交替”。优刻得相关负责人认为,Token计费与算力租赁将在未来相当长一段时间内阶段性共存。长期来看,AI服务全面转向按实际Token用量计费是大势所趋;但当前及未来相当长一段时间内,裸金属服务器与云服务器租赁模式不仅不会消亡,反而在特定场景下仍拥有可观的市场空间与成长潜力。
他表示,原因在于,AI创新并非只有“调用API”一条路径。对于许多立志构建核心壁垒的AI初创公司而言,拥有自有模型能力是区别于竞争对手的关键,简单调用通用API难以形成差异化的“护城河”。此外,数据安全与合规也是刚性约束,金融机构、医疗机构或大型制造企业的核心数据必须“不出域”,因此更倾向于在租赁的独占性算力设备上完成自有模型的训练、微调和推理部署。在这些场景下,裸金属租赁带来的独占性、可控性与性能确定性,是MaaS按量计费模式暂时无法完全替代的。
优刻得相关负责人认为,短期内的确会形成“分流效应”:初创企业和传统企业的创新团队为快速验证想法、降低前期成本,会优先选择按Token计费的MaaS服务,在一定程度上抑制裸金属租赁的增量需求。然而,这种冲击是阶段性的。当企业完成技术验证、业务体量达到一定规模后,为确保市场竞争力、数据主权与模型自主权,它们将转向构建专属的AI能力。届时,算力租赁需求将再次释放,并从“通用算力租赁”升级为“面向专属模型的智算租赁”。Token计费降低了创新门槛,吸引更多企业成为AI的“尝试者”;而这些“尝试者”终将成长为“重度用户”,为算力租赁市场带来更坚实、更长尾的增量需求。

更深层次看,Token经济正在推动整个行业价值链和商业模式的重构。知名咨询机构CIC灼识董事总经理董晓雅认为,这一变化主要体现在两个层面。首先,算力的计价逻辑正从“资源时长”转向“服务消耗”,客户不再关心租用了多少GPU,而是关心消耗了多少Token、响应是否稳定、成本是否可控。其次,行业竞争核心将从“谁拥有更多算力”转向“谁能够更高效地生产Token”。未来,决定厂商盈利能力的将是单位Token成本的控制能力,涵盖服务器利用率、缓存命中率、推理框架效率等一系列复杂技术栈。
在此背景下,算力租赁厂商的角色也将发生根本性转变。董晓雅指出,厂商需要从传统的“硬件出租商”进化为“AI基础设施服务商”,必须具备模型部署、推理优化、API服务、SLA保障乃至行业场景适配等综合能力,商业模式也将随之演变为“基础租金+用量计费+效果分成”的混合模式。
这种转变的直接结果,便是“Token工厂”及“Token运营商”的兴起。硅基流动的业务负责人形象地指出,从“卖算力”到“卖Token”,对行业的影响巨大。它不仅让算力服务商摆脱了低水平的资源租赁竞争,更通过与AI Infra厂商合作,将任何算力中心一键转化为能生产高价值Token的“工厂”。而对于中小开发者和创业公司而言,按Token计费极大地降低了试错成本。
魔形智能相关负责人陆嘉骏也认为,这有望让更多AI应用创新创业成为可能,大大降低创业门槛,从而开拓出更多潜在的应用市场。“创业公司只需要确定底层的大模型来开发产品,再找token工厂供应token,调用时只需通过API和几行Python代码,就能稳定获得这些模型的能力,把精力聚焦在产品研发上。这就好比以前设计家用电器需要自己配发电机、倒汽油、发电,而现在只需安心设计电器,插头是标准的,用户插上就能用。”这种开发范式,将点燃AI应用创新的燎原之火。
▍Token荒与国产算力的重要窗口期
尽管“Token工厂”的模式令人振奋,但现实是:面对指数级增长的需求,算力供给,尤其是高性价比的Token供给,正处于严重短缺状态。
面对如此巨大的市场缺口,国产算力迎来了重要窗口期。多家大模型及行业模型公司已将部分推理能力迁移至国产芯片平台,一些技术能力较强的企业甚至已基于国产芯片构建了完整的智算集群,并开始对外提供Token化的模型服务。
然而,机遇与挑战总是并存。优刻得相关负责人表示,国产算力距离全面替代英伟达生态仍有差距,挑战主要体现在三个维度:软件生态支撑丰富度不足,导致开发者迁移成本高企;CUDA兼容性仍是痛点,国产芯片多采用“兼容CUDA”或“自研编程框架”两条路线,但前者往往无法做到100%兼容,后者则需要客户投入额外迁移成本;卡间互联能力存在代差,PCIe协议在带宽和延迟上相比NVLink仍有显著差距,影响大规模集群的训练效率。
魔形智能陆嘉骏一针见血地指出:“严格来说,不是算力供不应求,而是Token供不应求。”他解释道,按照当前的市场Token价格,一个纯商业化的项目如果使用国产芯片来运行,基本上都是亏损的,而高昂的Token生产成本,主要受制于目前国产芯片的性能。
这一观点得到了来自大模型厂商的印证。DeepSeek在发布其V4预览版时就坦言,受限于高端算力,其服务吞吐有限,预计要到下半年新一代昇腾芯片批量上市后,价格才会有大幅下调的空间。陆嘉骏将此视为一个信号:“也许从今年下半年到明年,这些国产卡就能跨过盈亏平衡点,从而获得更大规模的应用。”
CIC灼识董事总经理董晓雅则从市场发展的角度进行了总结。她认为,当前算力市场的供需矛盾,本质上是有效算力供给能力仍然有限,市场真正稀缺的不是账面上的算力规模,而是“可用、易用、可规模化交付”的有效算力。因此,未来的行业竞争,将从单一芯片性能的比拼,转向芯片供给、服务器集成、超节点架构、网络互联、存储、推理框架、模型适配、异构调度及应用生态等多环节的协同能力竞争。具备系统级整合能力与场景落地能力的厂商,更有机会在新一轮AI基础设施重构过程中建立长期竞争优势。