8月21日,深度求索正式发布新一代大模型DeepSeekV3.1,通过架构优化与国产芯片适配,推动AI推理效率提升与算力生态自主化。此次升级不仅强化了模型性能,还引入面向下一代国产芯片的UE8M0FP8参数精度标准,标志着国产AI技术从软件创新迈向软硬协同的新阶段。
架构升级推动推理效率提升
DeepSeekV3.1采用混合推理架构,将模型划分为“思考模式”(deepseek-reasoner)与“非思考模式”(deepseek-chat),并支持128K长上下文处理。测试数据显示,该模型在编程、多任务理解等场景中表现突出:Aider编程基准测试得分71.6%,超越ClaudeOpus4;SVGBench成绩仅次于GPT-4.1-mini;MMLU多任务语言理解得分达88.5%,与GPT-5持平。
思维链(CoT)机制的压缩技术进一步降低推理成本。经过训练优化后,V3.1在输出token减少20%-50%的情况下,仍能保持与上一代R1-0528相当的性能。此外,非思考模式的输出长度得到有效控制,相同性能下资源消耗显著减少。API定价延续低价策略,输入价格低至0.5元/百万tokens(缓存命中),输出价格为12元/百万tokens,单次编程任务成本仅为1.01美元,为同类闭源系统的1/60。
国产芯片生态加速适配新精度
DeepSeek提出的UE8M0FP8参数精度标准,成为国产芯片适配的关键。该标准采用无符号、8位指数设计,在相同硬件下显存需求降低75%,量化误差减少,同时提升数据中心能效。目前,寒武纪MLU370-S4、思元590/690系列,以及海光、沐曦、摩尔线程等厂商的芯片已支持FP8计算;华为昇腾计划在2025年第四季度实现原生FP8支持。
UE8M0FP8的推广有望推动国产芯片生态标准化。当前,国内厂商正通过统一精度格式提升算力利用率,减少对英伟达、AMD等国外硬件的依赖。例如,寒武纪等企业已基于该标准优化芯片架构,结合大模型训练需求提升并行计算效率。这一协同创新模式,为国产AI算力在复杂任务处理、高并发场景中实现竞争力突破奠定基础。
随着国产芯片与AI模型的深度适配,国内算力生态正从“单点突破”转向“全局优化”,为AI应用在医疗、教育、工业等领域的规模化落地提供更高效的底层支撑。
本文源自金融界
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237