①多家芯片、云厂商盯上推理的蛋糕,英特尔CPU亦瞄准推理需求,已可以面向10B模型做推理。 ②基于至强新品,多款服务器新品将密集面市,国内数据中心预期步入新发展阶段。 ③众多从业者认为算力需求将持续增长,未来推理需求规模或将达到训练需求的5-10倍。
财联社9月28日讯(记者 付静)“可能在短期或中短期内,市场焦点会集中在一些大型通用模型上,然而对于AI来说,更广阔的应用空间实际上是在推理场景中。”近日召开的英特尔®至强®6性能核处理器发布会后,英特尔市场营销集团副总裁、中国区云与行业解决方案和数据中心销售部总经理梁雅莉在接受财联社记者采访时表示。
据财联社记者多方采访梳理获悉,当前国内大模型厂商算力成本至少七成仍用于训练端,而未来推理将成“大模型下半场”。海内外众多厂商均已盯上推理算力的蛋糕,芯片巨头英特尔服务器CPU至强(Xeon)系列重量级新品亦瞄准推理市场需求,直接带动多家服务器厂商新品于今年9月起至明年一季度密集面市,国内数据中心预期步入新发展阶段。
推理算力需求或达训练10倍 供给端紧盯蛋糕
“实际上,在AI技术的实际应用落地过程中,用户感受最直观、最强烈的往往是推理环节的性能表现。虽然过去我们一直在强调大模型训练的重要性,但真正到了企业应用层面,推理的需求规模往往是训练需求的5-10倍。”站在推理算力需求视角,紫光股份(000938.SZ)旗下新华三集团计算存储产品线副总裁刘宏程向财联社记者表示。
他进一步告诉财联社记者,通用模型应用于具体行业时,往往需要结合企业数据进行私有化微调与推理。“通用大模型的投入成本过高,很多企业难以承担,而且投入与产出的时间比也较长。因此,企业更倾向于在通用模型的基础上进行微调,以满足自身特定需求,并通过推理来实现应用落地。”
财联社记者采访了解到,众多从业者认为算力需求将持续增长,对行业发展前景持乐观态度。
“我们认为能够在‘百模大战’竞争中生存下来的通用大模型数量将非常有限,可能不会超过一只手能数得过来的数量。某些参与者可能会面临巨大挑战,甚至被市场淘汰。但从整个市场的角度来看,训练规模的需求仍然非常庞大。此外,当所有的通用模型和私域模型都达到可用并准备变现的阶段时,我们预测将会有一个规模达到训练市场5到10倍的推理市场等待着我们。算力投入预计将在未来5-10年内保持高速增长。”刘宏程称。
站在供给视角,据财联社记者观察,国内炙手可热的华为、近期因启动IPO颇受关注的GPU独角兽燧原科技、壁仞科技、海外的AMD、Cerebras Systems、FuriosaAI等众多芯片厂商纷纷加码AI推理竞赛。与此同时,Meta、微软、OpenAI等厂商亦透露亲自下场做推理芯片的计划,其中Meta上半年已正式发布MTIA v2芯片。
财联社记者问及英特尔如何看待推理算力供给侧的蓬勃趋势,梁雅莉称,前述厂商亲自开发推理芯片,“一方面是因为需求旺盛,另一方面也是为了寻找价值和性能之间的平衡。”
她认为,推理算力需求下,硬件架构和性能固然重要,更重要的是软件的优化和整体系统的设计。软件层面,比如深度学习框架需要不断优化;整体系统设计层面,无论CPU、GPU甚至FPGA,最重要的是如何与产业的每一个具体场景深度融合。
CPU可用于10B模型推理 推动服务器革新
英特尔最新至强6性能核处理器(代号Granite Rapids)的发布,使得AI推理算力赛道迎来更强劲的CPU选手。
据悉,至强6性能核采用分离式模块化设计,包括Intel 3工艺的计算模块、Intel 7工艺的I/O模块;最高配备128个X86内核,支持高达每秒6400MT的DDR5内存、每秒8800MT的MRDIMM内存、6条UPI 2.0链路(速率达每秒24 GT),96条PCIe 5.0或64条CXL 2.0通道、504MB的L3缓存。
英特尔至强6能效核处理器(代号Sierra Forest)曾于今年6月推出,针对高核心密度和规模扩展任务所需的高效能优化,而性能核处理器则面向计算密集型和AI工作负载所需的高性能进行优化。
公开资料显示,至强是英特尔为与普通个人电脑市场作区分研制推出的服务器CPU品牌,该产品线面向中高端企业级服务器、工作站市场。英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立透露,现有AI服务器中大部分机头CPU仍是英特尔CPU。基于英特尔“四年五个制程节点”战略,2024年至强6系列采用了Intel 3制程工艺。
据悉,自第四代至强起,英特尔针对AI加速推出专属指令集“英特尔®高级矩阵扩展(下称AMX)”,使得CPU能够支持市面常见大模型的推理计算,第四代、第五代至强可以用于处理6B、7B甚至13B的模型,正被业内大量使用中。而在第六代至强中,AMX亦做出升级。
财联社记者于发布会现场获悉,从实际推理表现看,针对70亿参数的Llama2大模型推理,至强6性能核相比第五代至强单颗CPU性能和每瓦特性能分别有3.08倍、2.16倍提升;针对80亿参数的Llama3,则分别有2.40倍、1.68倍提升。
“2年前,一个主流服务器搭配的至强处理器应该是24-48核。相比上一代,至强6性能核性能装备从64核到128核,单核性能提升1.2倍。”陈葆立在发布会上称。
据财联社记者观察,除了CPU内核数及整体性能提升,在GPU用于AI推理被视作主流的当下,这款CPU加码推理的意义更在于带动国内数据中心步入新发展阶段。
刘宏程认为,融合架构相比单一GPU服务器更符合企业私有化微调、推理的需求。“因为对于私域小规模的训练和推理任务来说,融合架构的投资回报率更高,能更有效地利用资源。”
梁雅莉亦告诉财联社记者,“未来的市场环境下,性能和成本必须做平衡考虑。尤其是对于推理场景,只追求性能是欠妥的,企业最终要平衡的是在这样一个场景下耗费的算力成本是多少,以及它如何转化为企业的商业价值,最终大家都需要进行成本效益分析。”
财联社记者注意到,由于生成式AI算力需求持续增长,在本月受业内关注的两大互联网巨头的“主场”2024腾讯全球数字生态大会、2024云栖大会上,围绕英特尔至强6性能核的讨论声就已逐渐增多。
而OEM厂商方面,超聚变服务器产品总经理朱勇对财联社在内的媒体表示,基于通用场景的CPU推理可实现“一芯多用”:“现在CPU已经发展到可以去做一些10Billion左右的大模型推理场景,这为客户带来的优势是能够降低TCO。”
“过去我们常常区分通用服务器和GPU服务器,但在这一代至强6服务器上,我们实现了一个融合基础设施,即能够同时兼顾通用计算和GPU加速的需求。这种融合将加速各行业对新技术应用的推动,因为用户不再需要在不同类型的服务器之间做出选择,而是可以更加灵活地应对多样化的计算需求。”刘宏程称。
此外财联社记者获悉,浪潮信息(000977.SZ)、超聚变、新华三、中兴通讯(000063.SZ)、联想等厂商基于英特尔至强6性能核处理器的服务器新品将陆续面市。