DeepSeek V3.1 发布，更令人好奇的是UE8M0 FP8-脚本导航

> 自媒体 > （AI）人工智能 > DeepSeek V3.1 发布，更令人好奇的是UE8M0 FP8

DeepSeek V3.1 发布，更令人好奇的是UE8M0 FP8

来源：硅星人

2025-08-30 10:45:40

222

管理

DeepSeek 推出了 V3.1 版本，简单过一下亮点：混合推理架构：一个模型同时支持思考模式与非思考模式。更高的思考效率：相比 DeepSeek-R1-0528，DeepSeek-V3.1-Think 能在更短时间内给出答案。更强的 Agent 能力：通过 Post-TrAIning 优化，新模型在工具使用与智能体任务中的表现有较大提升。

但更让人好奇的是，DeepSeek 还在置顶留言里强调：UE8M0 FP8是针对即将发布的下一代国产芯片设计。

这句话放在当下的语境里，就显得耐人寻味——毕竟不久前，相关部门才约谈英伟达，要求解释 H20 芯片的安全风险。

也正因如此，几个技术性的名词才变得格外值得关注：参数精度到底是什么？为什么芯片会决定它的形式？

这些改动背后，或许预示着国内 AI 行业正在进入一个软硬件协同的新阶段。

在很长一段时间里，FP32（32 位浮点数）是计算机的黄金标准，它精度高，范围广，几乎是科学计算、图像处理、AI 的通用方式。但当大模型的参数量级膨胀到数千亿甚至万亿，FP32 就显得臃肿了。每一条权重都要用 32 位去存，显存根本不够用，训练时间也被拖长。

于是，行业开始尝试降低精度。先是 FP16（16 位浮点数），后来是 FP8（8 位浮点数）。举个不恰当例子，就像把一张 4K 高清照片压缩成 480p 的小图，细节损失在所难免，但能存更多张，还能传输得更快。

用英伟达技术博客里的一张图可以直观的看出来，同样用 H100，FP8 的速度远远高于 FP16。

训练大模型时，最大的瓶颈不是算法，而是算力和显存。NVIDIA 官方博客指出，FP8 在不显著牺牲模型效果的前提下，能让吞吐量翻倍、显存占用减半，这是训练 GPT 级别大模型时极具吸引力的优势。

换句话说，在大模型这种追求“规模胜过精度”的赛道上，FP8 成了必然选择。

英伟达技术博客：https://developer.nvidia.com/zh-cn/blog/fp8-precision-performance/

谁制定规则，谁就掌握算力

那 FP8 就 FP8 ，DeepSeek说的“UE8M0 FP8”是什么？为什么还要适配国产芯片？

首先，FP8 本身并不是一个彻底中立的国际标准。表面上，NVIDIA 曾经和 Intel、Arm 一起推动过 FP8 的规范化，推出了 E4M3 和 E5M2 两种格式，分别侧重精度和数值范围，看起来像是一次开放的行业标准化行动。

但在真正落地时，NVIDIA 在自家的 GPU 上加了很多“优化”：比如 per-tensor scaling、per-block scaling 这样的动态缩放策略，用来解决 FP8 动态范围太窄、容易溢出的问题。又比如在 Tensor Core 上内置了针对 FP8 的指令集优化，使得 FP8 在 H100 上能直接跑满算力。这些优化细节没有写进统一标准里，却被深度绑定在 NVIDIA 的硬件和软件栈中。

除了沐曦，燧原科技也在 2025 年推出了最新的 L600 芯片。这颗芯片历时两年半开发，最大的亮点是采用了训推一体的架构：既能承担大模型的训练任务，又能直接用于推理部署。更重要的是，L600 原生支持 FP8 低精度。这与 DeepSeek 模型的精度策略正好对齐。

UE8M0 只是一个冷冰冰的精度参数，放在论文里也许只值半行字。可在今天，它却像是一种信号：国产芯片厂商和大模型公司，开始真正坐到了一张桌子上，去谈怎么一起往前走。大模型不再盲从英伟达的算力逻辑，而是尝试和国产硬件对齐，哪怕过程并不优雅。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

没有了

软银官宣！清仓英伟达套现58亿美元，转投OpenAI……

18天前