DeepSeekV3.2正式版发布：推理媲美GPT-脚本导航

> 自媒体 > （AI）人工智能 > DeepSeekV3.2正式版发布：推理媲美GPT

DeepSeekV3.2正式版发布：推理媲美GPT

来源：清爽饭团sKUNw8

2025-12-02 09:52:52

164

管理

DeepSeek 推出新一代模型 V3.2，同时发布了带长思考增强的 V3.2-Speciale，官网、手机 App 和开放 API 都已经更新到这个版本。

V3.2 在公开的推理基准上表现被官方说成达到了 GPT-5 水平，和 Gemini-3.0-Pro 的距离很近。Speciale 把数学推理能力拉上来了，融合了以前的 DeepSeek-Math-V2，在国际竞赛里的成绩很抢眼：IMO、CMO、ICPC、IOI 等项目拿了金牌，ICPC 的成绩官方称达到了人类选手第二名的水准。顺带一提，Speciale 现在以临时 API 的方式开放给社区做研究和评测，大家能先跑跑看。

它这次强调的一个点是把“思考过程”跟“工具调用”合并起来，模型在推理过程中能去调用外部工具。这背后用的训练方法比较特殊：官方通过大规模的 Agent 数据合成，把模型放在 1800 多种环境下、用超过 8.5 万条复杂指令做强化学习，目标是提高泛化能力。按说这是为了解决模型在多场景、多任务下的适应问题，让它碰到没见过的场景也能稳住。

还有个技术细节挺重要：他们在注意力机制上用了 DSA（稀疏注意力）的变体。两个月前的实验版 V3.2-Exp 就已经对外放过，用户反馈说在实际场景里并没有看到明显的性能下降。也就是说，这套稀疏机制在节约计算资源的同时，还能保持推理质量。把计算开销压缩，看来是刻意为之——官方还提到相较于 Kimi-K2-Thinking，新版本的输出长度明显更短，目标就是降低计算成本和延迟。

训练数据和训练方式上可以展开讲讲。官方没有只靠单一数据集，而是合成大量 Agent 行为数据，覆盖不同环境和任务。强化学习阶段，模型反复在这些复杂指令上被训着优化表现。简单点说，就是让模型在更接近现实使用场景的条件下反复练习。这个路径倾向于解决“一下子见到新任务就乱”的问题。官方也把这当成缩小与闭源大模型差距的主要策略之一。

再说说竞赛成绩的来龙去脉。把数学模块整合进 V3.2-Speciale，是在 DeepSeek-Math-V2 的基础上做的工程化合并。这个模块在定理证明、竞赛题解方面已经过专门训练，所以在 IMO、CMO 这类纯数学竞赛里能拿到金牌并不完全出乎意料。ICPC、IOI 这种偏编程与算法的比赛也有好结果，官方强调 ICPC 的成绩能逼近人类第二名，这背后更多依赖的是模型在复杂搜索和算法推理上的能力提升。

关于模型在智能体评测里的地位，官方表示 V3.2 在公开的智能体基准上是目前开源模型里表现最好的一个，这也是他们想强调的点：尽管闭源模型还占优势，但差距在变小。这个结论基于他们在多个评测任务上的比较，尤其是多环境、多任务的泛化能力测试上，V3.2 的表现被认为是有进步的。

用户层面能感受到的变化包括响应风格和调用工具的流畅度。工具调用不是单纯把 API 串起来，系统能在“思考链”里决定什么时候用工具、用哪个工具，再把结果整合到回答里。工程上这意味着模型不仅要会推理，还要能管理外部接口、处理中间状态和错误。对于社区研究者来说，临时 API 的开放提供了宝贵的试验场，可以验证这些跨工具协作的实际效果。

说说可能的限制和风险点。官方报告里没把所有细节都披露，诸如训练数据的具体构成、某些基准的完整细节还不透明。稀疏注意力虽然节省资源，但不同任务下的稳定性还得更多实测来证明。竞赛成绩光鲜，背后是专门模块化训练和调参的结果，直接把这些能力等同于通用智能还为时尚早。就个人看法，这些成绩确实不小，但用场景和边界需要更清楚的说明。

有一点好玩：两个月前的实验版算是先行器，社区反馈被用来调整现在的发布版。用户那轮反馈主要围绕性能稳定性和输出风格，官方据此在 Speciale 里做了针对性优化。这种先放实验版再根据真实使用数据迭代的做法，不算新鲜但很务实。

版本之间的定位也挺清楚。V3.2 是主干，强调推理能力和节省计算；V3.2-Speciale 更像是实验室的提升版，把数学证明能力、思考—工具融合这些高附加值能力带上来，适合需要复杂推理和工具协同的研究场景。现在的策略是先把主版本推到全部平台，再把 Speciale 通过临时 API 放给社区试用，观察更多真实世界的数据反馈。

技术团队把目标摆得很直：提升开源模型在智能体评测和推理基准上的竞争力，缩小与闭源模型的差距。训练手段上结合了大规模的行为数据合成和强化学习，工程上采用稀疏注意力来控制资源消耗，产品上则以逐步开放的方式让研究者参与进来。公开的信息里，关键数字是覆盖 1800 环境和 8.5 万条复杂指令的强化训练，以及之前实验版验证 DSA 没出大问题这些点，都是他们当前主张进步的证据。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

没有了

软银官宣！清仓英伟达套现58亿美元，转投OpenAI……

10天前