有卡不等于有算力？模型参数扩张带动对AI infra诉求多芯异构成趋势|行业动态

财联社记者付静责编孙放 2024-09-10 09:31

①模型参数扩张带动对AI infra诉求，AI算力规模上升，性能却未必快速线性增长；
                ②具备硬件资源，配套软件能力仍缺乏，叠加没有实际终端客户或应用场景等，造成智算中心闲置；
                ③多芯异构是智算的一大趋势，需要通过“多芯兼容”满足更多国产化诉求，同时缓解卡的供给风险。

财联社9月10日讯（记者付静）“我们如何高效地构建一个智算中心，是不是有卡就足够了？答案是完全不够的。”近日，财联社记者在腾讯（00700.HK）全球数字生态大会上听到了这一对话。

财联社记者观察到，AI算力需求巨幅增长，云计算厂商、通信运营商、芯片厂商乃至众多跨界玩家均瞄准了智算的蛋糕，不过，算力规模上升，性能却未必快速线性增长，同时一些新的技术和功能挑战出现。当下，“大集群不等于大算力”的观点正引发业内诸多讨论。

腾讯云副总裁沙开波在接受财联社记者采访时谈到了AI智算领域的新趋势：大模型参数规模持续增加，需要有更多、更大的算力集群满足训练诉求，对整个AI infra性能的要求更高；AI的场景越来越广泛，会出现更多对AI infra或云基础设施的诉求。

由此，腾讯云正式发布AI infra品牌“腾讯云智算”。财联社记者了解到，随着集群规模增长，大模型厂商基于GPU集群做训练，要做到单卡吞吐不下降、算力闲置不降低等，软件层面可以做一定优化。

“很多行业本身对数据安全合规有很强的诉求，包括用于训练推理的数据可能只有在本地数据中心里才能使用，这个就要求我们很多的能力，很多产品要能够在它的环境里面私有化部署。”沙开波同时告诉财联社记者。

不过沙开波亦明确表示，算力能发挥出多少，上限取决于硬件或芯片本身的性能，不是通过软件可以避免的，软件可以优化的方向是帮助发挥硬件的更多性能。

他分析，即便具备硬件资源，配套软件能力仍缺乏，叠加没有实际的终端客户或应用场景等原因，就造成了业内目前出现的智算需求持续增长，智算中心却闲置的现象。

此前财联社记者从业内人士方面获悉，只有用户愿意来使用算力，才有人愿意来运营，智算中心投资建设方才能收回成本，形成可持续发展的闭环。

与此同时记者注意到，多芯异构是另一大趋势。

据悉，腾讯云智算集结了国内外前沿芯片，今年腾讯全球数字生态大会上，英特尔、英伟达、AMD在内的大厂纷纷以合作伙伴身份亮相，腾讯云智算还宣布和国产算力企业燧原科技在内的多方共建产业高效能云智算中心。沙开波告诉财联社记者，需要通过“多芯兼容”满足更多的国产化诉求，同时缓解卡的供给风险。

会议期间，财联社记者通过英特尔技术人士获悉，公司正与腾讯云在AI领域深入合作。“腾讯云现在的计算实例的一些主力产品如S5、S6、C6、S8、M8都是用至强处理器。”据了解，当前大部分厂商训练、推理所使用的是第四代、第五代英特尔至强，今年6月第六代至强能效核发布，下半年将发布的第六代性能核可用于6B、7B、13B的模型推理。

同时，腾讯云方面表示，“各大芯片厂商不断地加大在GPU上的投入和布局，越来越多的智算中心里，不同型号、不同厂商的卡放在一起异构组网的情况越来越普遍，需要网络的解决方案解决好异构组网场景，更好地发挥出算力的效率。”腾讯云将推出搭载至强6处理器的新一代云实例，基于星星海自研服务器及网络架构的升级，在社交媒体、游戏、数据库、短视频等应用场景进行性能提升。

据悉，腾讯云智算整合了腾讯云高性能计算HCC、高性能网络IHN星脉、高性能云存储、加速框架、容器、向量数据库、智算套件等腾讯云产品。稳定性和性能方面，腾讯云集群千卡单日故障数刷新到0.16，1分钟完成万卡checkpoint写入，千卡集群的通信时间缩短到6%。

财联社记者了解到，目前腾讯云智算已服务了月之暗面、智谱AI在内的90%以上国内头部大模型企业。例如，基于腾讯云高性能计算集群HCC、高性能网络IHN星脉及安全解决方案，智谱AI模型训练集群效提升3.23倍，内容审核准确率提升17%，5分钟GPU服务器故障可自动恢复。

此外，记者从元象科技方面了解到，其最新版本MoE模型用数百亿级别预算量达到了数千亿级别的模型效果。“我们公有云上有个大模型客户，用了腾讯云智算的大模型训练集群解决方案之后，一年的千卡成本可以下降2000万这样的量级。”沙开波还告诉记者。

财联社声明：文章内容仅供参考，不构成投资建议。投资者据此操作，风险自担。