①9月29日,深度求索公司发布新一代大语言模型DeepSeek-V3.2-Exp,并开源于HuggingFace平台,采用稀疏Attention架构提升效率; ②华为昇腾、寒武纪、海光信息均宣布适配该模型。
①DeepSeek-V3.2-Exp模型正式在Hugging Face平台发布并开源。 ②DeepSeek-V3.2最大的意义在于软硬协同设计支持国产算力,全新DeepSeek Sparse Attention机制,叠加国产芯片的计算效率,可大幅降低长序列场景下的训推成本。
DeepSeek-V3.1现已更新至 DeepSeek-V3.1-Terminus版本。此次更新在保持模型原有能力的基础上,针对用户反馈的问题进行了改进。