> 自媒体 > (AI)人工智能 > DeepSeek V3.2 正式版发布,V4 还没来,但已经是开源模型里 Agent 能力最强了
DeepSeek V3.2 正式版发布,V4 还没来,但已经是开源模型里 Agent 能力最强了
来源:FounderPark
2025-12-02 10:08:55
39
管理

9 月底,DeepSeek 推出了实验性模型 DeepSeek-V3.2-Exp,在 V3.1-Terminus 的基础上,引入了 DeepSeek Sparse Attention(DSA)技术,大幅提升了长文本处理的效率。

DeepSeek-V3.2-Speciale 作为开源模型,在 IMO 2025、CMO 2025 等主流推理基准测试上的性能表现媲美 Gemini-3.0-Pro。

有意思的是,Deepseek 在前几天刚刚发布了一个数学模型 DeepSeek-Math-V2,正是基于 DeepSeek-V3.2-Exp-Base 开发。这个数学模型实现了 IMO 金牌级的水平。

同时,这次 V3.2 正式版发布最值得一提的是,把思考过程融入到了工具调用中,模型能够同时支持思考模式和非思考模式的工具调用。在各类智能体工具调用评测集上,DeepSeek-V3.2 达到了目前开源模型的最高水平。DeepSeek 官方称,模型未针对测试集进行特殊训练,在真实场景中显示出了较强的泛化能力。

目前,正式版 DeepSeek-V3.2 已在网页端、App 和 API 上线。Speciale 版本以临时 API 形式开放。API 支持 DeepSeek-V3.2 思考模式下的工具调用能力。

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf

V4 还是没来

去年 12 月 25 日发布的 DeepSeek V3,今年 1 月 20 日发布的 DeepSeek R1,R1 也正式引爆了这一年的 DeepSeek 和国内开源模型的热潮,Kimi、MiniMax 等也相继开源,并且取得了不错的成绩。

不过梳理了 DeepSeek2025 年的发布可以发现,今年一直在走小版本迭代和功能累加的路线。核心增强的点是:

MoE 本身架构的一些改进,包括强化、DSA 等。

Agent 工具使用能力的强化,从 V3.1 开始对工具使用能力的强化,到 3.2 增加思考模式下的工具使用能力,而且有了更泛化的工具使用能力。

思考/非思考模型的统一,V3.1 就统一了 R1 和 V3,成为了一个混合推理模型,这也是当下闭源模型的大势所趋,Gemini、Claude 和 GPT-5 都是这样。

DeepSeek 2025 年的发布梳理

和 V3.1-Exp 版本类似,这次也发布了一个测试版本:DeepSeek-V3.2-Speciale,DeepSeek-V3.2 的长思考增强版,同时结合了 DeepSeek-Math-V2 的定理证明能力,试图将开源模型的能力推到极致的版本,也许在这个测试之后,可能 V3.3(如果有的话)也会持续在这个版本上迭代。

从年终就开始谣传的 DeepSeek V4 或者 R2 即将发布,到现在,我们也没看到 DeepSeek 基模的大版本发布。如果 Agent 的工具能力继续在 V3 版本进行增强,对于明年要发布的大版本(应该会在明年吧),感觉可以期待的东西似乎更多了,比如多模态?更长的上下文?更厉害的 Agent 能力?

很期待 DeepSeek 下一个版本,我们能见到 V4。

02 正式版 DeepSeek-V3.2:推理能力达到 GPT-5 水平

DeepSeek-V3.2 的目标是平衡推理能力与输出长度,适合日常使用,例如问答场景和通用 Agent 任务场景。

在公开的推理类 Benchmark 测试中,DeepSeek-V3.2 达到了 GPT-5 的水平,仅略低于 Gemini-3.0-Pro;相比 Kimi-K2-Thinking,V3.2 的输出长度大幅降低,显著减少了计算开销与用户等待时间。

DeepSeek-V3.2-Speciale 的目标则是将开源模型的推理能力推向极致。它是 V3.2 的长思考增强版,并结合了 DeepSeek-Math-V2 的定理证明能力。

Speciale 版本模型在主流推理基准上的表现与 Gemini-3.0-Pro 不相上下。同时,在多项顶级学术竞赛中达到金牌水平,包括 IMO 2025(国际数学奥林匹克)、ICPC 2025(国际大学生程序设计竞赛)等,其中 ICPC 和 IOI 的成绩分别达到了人类选手第二名和第十名的水平。

但 Speciale 版本 是针对高度复杂任务优化,消耗的 Token 更多、且成本更高,目前仅供研究使用,不支持工具调用,未针对日常对话优化。

DeepSeek-V3.2 与其他模型在各类智能体工具调用评测集上的得分

在各类智能体工具调用评测集上,DeepSeek-V3.2 达到了当前开源模型的最高水平,大幅缩小了与闭源模型之间的差距。但模型并未针对测试集进行特殊训练,在真实场景中具有较强的泛化性。

示例:通过 LobeChat 使用 DeepSeek-V3.2 的深度思考 工具调用能力得到更加详细准确的回复

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
三菱退出中国?官方回应:将与现有伙伴继续合作
6月23日,有媒体报道称,三菱汽车将逐步取消包括欧洲、中国在内的市场业..
2026款三菱帕杰罗曝光,第二代超选四驱+2.4T/2.0T双动力..
硬派越野圈的“老将”居然换小排量了?2026款三菱帕杰罗刚露出消息,就把..
恩智浦计划退出5G功率放大器业务;三星或将退出SATA SSD市场;三菱化学出售..
五分钟了解产业大事每日头条芯闻 恩智浦计划退出5G功率放大器业务我国首..
实拍三菱全新欧蓝德!搭1.5T四缸,内饰配大屏,不比奇骏香?..
在重庆车展上,全新一代三菱欧蓝德终于在国内亮相了,相比其国外的发布时..
试驾广汽三菱奕歌:小巧灵动
■ 阅车试驾车型:广汽三菱奕歌长/宽/高(mm):4405/1805/1685轴距(mm..
新车 | 四驱越野MPV/配侧滑门/2.2T柴油机,新款三菱Delica D:5亮相..
文:懂车帝原创 高帅鹏[懂车帝原创 产品] 日前,2025东京车展开幕,新款..
三菱集团的传奇发家史
“三菱”两个字,在日本就像一把瑞士军刀:银行、飞机、汽车、火箭、寿司..
2026款三菱Montero曝光,S-AWC四驱+差速锁全配,普拉多见了..
当 “普拉多见了都得慌” 的话题在越野圈炸锅,2026 款三菱 Montero 的曝..
日韩巨擘数据,三星2.1万亿三菱21万亿,中国第一谁?..
图片来源于网络2025年,让人火大的资本较量又来一波。韩国三星手里握着2...
关于作者
经典好看视频..(普通会员)
文章
1614
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索