DeepSeek 推出新一代模型 V3.2,同时发布了带长思考增强的 V3.2-Speciale,官网、手机 App 和开放 API 都已经更新到这个版本。

V3.2 在公开的推理基准上表现被官方说成达到了 GPT-5 水平,和 Gemini-3.0-Pro 的距离很近。Speciale 把数学推理能力拉上来了,融合了以前的 DeepSeek-Math-V2,在国际竞赛里的成绩很抢眼:IMO、CMO、ICPC、IOI 等项目拿了金牌,ICPC 的成绩官方称达到了人类选手第二名的水准。顺带一提,Speciale 现在以临时 API 的方式开放给社区做研究和评测,大家能先跑跑看。
它这次强调的一个点是把“思考过程”跟“工具调用”合并起来,模型在推理过程中能去调用外部工具。这背后用的训练方法比较特殊:官方通过大规模的 Agent 数据合成,把模型放在 1800 多种环境下、用超过 8.5 万条复杂指令做强化学习,目标是提高泛化能力。按说这是为了解决模型在多场景、多任务下的适应问题,让它碰到没见过的场景也能稳住。
还有个技术细节挺重要:他们在注意力机制上用了 DSA(稀疏注意力)的变体。两个月前的实验版 V3.2-Exp 就已经对外放过,用户反馈说在实际场景里并没有看到明显的性能下降。也就是说,这套稀疏机制在节约计算资源的同时,还能保持推理质量。把计算开销压缩,看来是刻意为之——官方还提到相较于 Kimi-K2-Thinking,新版本的输出长度明显更短,目标就是降低计算成本和延迟。
训练数据和训练方式上可以展开讲讲。官方没有只靠单一数据集,而是合成大量 Agent 行为数据,覆盖不同环境和任务。强化学习阶段,模型反复在这些复杂指令上被训着优化表现。简单点说,就是让模型在更接近现实使用场景的条件下反复练习。这个路径倾向于解决“一下子见到新任务就乱”的问题。官方也把这当成缩小与闭源大模型差距的主要策略之一。
再说说竞赛成绩的来龙去脉。把数学模块整合进 V3.2-Speciale,是在 DeepSeek-Math-V2 的基础上做的工程化合并。这个模块在定理证明、竞赛题解方面已经过专门训练,所以在 IMO、CMO 这类纯数学竞赛里能拿到金牌并不完全出乎意料。ICPC、IOI 这种偏编程与算法的比赛也有好结果,官方强调 ICPC 的成绩能逼近人类第二名,这背后更多依赖的是模型在复杂搜索和算法推理上的能力提升。
关于模型在智能体评测里的地位,官方表示 V3.2 在公开的智能体基准上是目前开源模型里表现最好的一个,这也是他们想强调的点:尽管闭源模型还占优势,但差距在变小。这个结论基于他们在多个评测任务上的比较,尤其是多环境、多任务的泛化能力测试上,V3.2 的表现被认为是有进步的。
用户层面能感受到的变化包括响应风格和调用工具的流畅度。工具调用不是单纯把 API 串起来,系统能在“思考链”里决定什么时候用工具、用哪个工具,再把结果整合到回答里。工程上这意味着模型不仅要会推理,还要能管理外部接口、处理中间状态和错误。对于社区研究者来说,临时 API 的开放提供了宝贵的试验场,可以验证这些跨工具协作的实际效果。
说说可能的限制和风险点。官方报告里没把所有细节都披露,诸如训练数据的具体构成、某些基准的完整细节还不透明。稀疏注意力虽然节省资源,但不同任务下的稳定性还得更多实测来证明。竞赛成绩光鲜,背后是专门模块化训练和调参的结果,直接把这些能力等同于通用智能还为时尚早。就个人看法,这些成绩确实不小,但用场景和边界需要更清楚的说明。
有一点好玩:两个月前的实验版算是先行器,社区反馈被用来调整现在的发布版。用户那轮反馈主要围绕性能稳定性和输出风格,官方据此在 Speciale 里做了针对性优化。这种先放实验版再根据真实使用数据迭代的做法,不算新鲜但很务实。
版本之间的定位也挺清楚。V3.2 是主干,强调推理能力和节省计算;V3.2-Speciale 更像是实验室的提升版,把数学证明能力、思考—工具融合这些高附加值能力带上来,适合需要复杂推理和工具协同的研究场景。现在的策略是先把主版本推到全部平台,再把 Speciale 通过临时 API 放给社区试用,观察更多真实世界的数据反馈。
技术团队把目标摆得很直:提升开源模型在智能体评测和推理基准上的竞争力,缩小与闭源模型的差距。训练手段上结合了大规模的行为数据合成和强化学习,工程上采用稀疏注意力来控制资源消耗,产品上则以逐步开放的方式让研究者参与进来。公开的信息里,关键数字是覆盖 1800 环境和 8.5 万条复杂指令的强化训练,以及之前实验版验证 DSA 没出大问题这些点,都是他们当前主张进步的证据。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237