DeepSeek V3.2双箭齐发：推理比肩GPT-5，思考与工具调用首次融合-脚本导航

> 自媒体 > （AI）人工智能 > DeepSeek V3.2双箭齐发：推理比肩GPT-5，思考与工具调用首次融合

DeepSeek V3.2双箭齐发：推理比肩GPT-5，思考与工具调用首次融合

来源：头号观察员

2025-12-02 10:00:45

管理

四枚国际奥赛金牌在同一份技术报告上闪光，背后是中国团队成功将深度思考与工具调用首次合二为一的突破。

DeepSeek V3.2模型在国际大学生程序设计竞赛全球总决赛（ICPC）模拟测试中达到了人类选手第二名的水平。这一成绩在官方技术报告中与另外三项顶级赛事——国际数学奥林匹克（IMO）、中国数学奥林匹克（CMO）和国际信息学奥林匹克（IOI）的金牌成就并列。

除了纯粹的推理能力，V3.2标准版首次将思考过程直接融入工具调用环节，创造了开源模型的里程碑。

网易有道词典刚刚宣布“deepseek”以867万次年度搜索量当选2025年度词汇，搜索曲线呈现出明显的爆发式特征。

01 性能突破

DeepSeek-V3.2在多个维度的评测中展示出令人瞩目的实力。公开的推理类基准测试结果显示，V3.2已经达到GPT-5的水平，仅略低于谷歌的Gemini-3.0-Pro。

与国内另一款思考模型Kimi-K2-Thinking相比，DeepSeek-V3.2在保持同等推理能力的同时，输出长度大幅降低，显著减少了计算开销和用户等待时间。

V3.2-Speciale版本作为长思考增强版，专门面向极限推理场景。该模型结合了DeepSeek-Math-V2的定理证明能力，在四大国际顶级竞赛模拟测试中均获得金牌。

值得一提的是，V3.2-Speciale在ICPC与IOI的模拟测试中，成绩分别达到了人类选手第二名与第十名的水平。

02 核心技术

与过往版本在思考模式下无法调用工具的局限不同，DeepSeek-V3.2成为该系列中首个将思考融入工具使用的模型。

这一创新突破意味着模型能够在深度推理的同时，实时调用外部工具获取信息或执行操作，显著提升了复杂问题解决的准确性和效率。

为了实现这一能力，DeepSeek团队开发了一套大规模Agent训练数据合成方法。他们构建了超过1800个环境、包含85000多条复杂指令的强化学习任务数据集。

这些任务具有“难解答，易验证”的特点，有效提高了模型在真实场景中的泛化能力。官方特别强调，V3.2并没有针对测试集的工具进行特殊训练，这表明其强大性能并非通过“刷榜”获得。

03 应用方案

为了方便用户根据自己的需求选择合适的版本，以下是两个模型的主要特点对比：

DeepSeek-V3.2 (标准版)

核心定位: 日常使用的平衡型模型推理能力: 达到GPT-5水平工具调用: 支持思考与非思考双模式输出效率: 相比同类模型，输出长度显著缩短获取方式: 网页端、App、API均已更新

DeepSeek-V3.2-Speciale (增强版)

核心定位: 极致推理，探索能力边界推理能力: 媲美Gemini-3.0-Pro，获四项国际奥赛金牌工具调用: 仅供研究，不支持工具调用输出效率: 处理复杂任务时消耗Tokens显著更多获取方式: 临时API服务（截至12月15日）

目前，官方网页端、App和API已经全面更新为V3.2标准版。对于开发者而言，可以通过指定特定的base_url来访问V3.2-Speciale的API服务，该服务将开放至北京时间12月15日23:59。

04 开源价值

两款模型均已在Hugging Face和ModelScope平台开源。这次发布的技术细节透明化，使得全球研究者和开发者能够直接访问这些先进的模型架构和训练方法。

开源策略在人工智能领域正逐渐显示出其独特的竞争优势。传统上，闭源商业模型在性能上往往领先于开源模型，但DeepSeek V3.2系列的出现正在改变这一格局。

这次发布的开源模型在智能体评测中达到了当前开源模型的最高水平，大幅缩小了开源模型与闭源模型在复杂任务处理能力上的差距。

据独立测试显示，V3.2在30个编程案例上的平均输出为5922个token，平均耗时为195.4秒。这些实测数据为开发者提供了实际应用中的性能参考。

05 未来展望

DeepSeek的技术路线图显示出对基础架构创新的持续投入。官方表示，两个月前发布的实验性DeepSeek-V3.2-Exp经过用户实测，未发现在任何特定场景中显著差于前代V3.1-Terminus。

这验证了DSA稀疏注意力机制的有效性，为未来的模型架构演进奠定了基础。模型的思考模式已经增加了对Claude Code的支持。

用户可以通过将模型名改为deepseek-reasoner，或在Claude Code CLI中按Tab键开启思考模式进行使用。不过，官方也指出思考模式未充分适配Cline、RooCode等使用非标准工具调用的组件，建议用户在使用此类组件时继续使用非思考模式。

计算效率与成本平衡仍是需要解决的关键问题。虽然V3.2在输出效率上相比同类思考模型有所提升，但Speciale版本在处理高度复杂任务时消耗的Tokens仍然显著更多，成本更高。

当被问及为何在Speciale版本中放弃工具调用功能时，技术报告暗示这是一种战略性的专注——将全部计算资源分配给纯粹的推理过程，使模型在IMO、ICPC等需要深度思考的挑战中，能够达到人类顶尖选手的水平。

这种“单项极致”与“综合平衡”的双版本策略，正反映出中国AI团队对技术路径的深思熟虑。

从开源社区到国际竞赛模拟，从日常对话到复杂问题求解，这次发布不仅仅是两个模型的升级，更是对AI能力边界的一次系统性探索。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

没有了

软银官宣！清仓英伟达套现58亿美元，转投OpenAI……

10天前