> 自媒体 > (AI)人工智能 > DeepSeekV3.2正式版发布:推理媲美GPT
DeepSeekV3.2正式版发布:推理媲美GPT
来源:清爽饭团sKUNw8
2025-12-02 09:52:52
164
管理

DeepSeek 推出新一代模型 V3.2,同时发布了带长思考增强的 V3.2-Speciale,官网、手机 App 和开放 API 都已经更新到这个版本。

V3.2 在公开的推理基准上表现被官方说成达到了 GPT-5 水平,和 Gemini-3.0-Pro 的距离很近。Speciale 把数学推理能力拉上来了,融合了以前的 DeepSeek-Math-V2,在国际竞赛里的成绩很抢眼:IMO、CMO、ICPC、IOI 等项目拿了金牌,ICPC 的成绩官方称达到了人类选手第二名的水准。顺带一提,Speciale 现在以临时 API 的方式开放给社区做研究和评测,大家能先跑跑看。

它这次强调的一个点是把“思考过程”跟“工具调用”合并起来,模型在推理过程中能去调用外部工具。这背后用的训练方法比较特殊:官方通过大规模的 Agent 数据合成,把模型放在 1800 多种环境下、用超过 8.5 万条复杂指令做强化学习,目标是提高泛化能力。按说这是为了解决模型在多场景、多任务下的适应问题,让它碰到没见过的场景也能稳住。

还有个技术细节挺重要:他们在注意力机制上用了 DSA(稀疏注意力)的变体。两个月前的实验版 V3.2-Exp 就已经对外放过,用户反馈说在实际场景里并没有看到明显的性能下降。也就是说,这套稀疏机制在节约计算资源的同时,还能保持推理质量。把计算开销压缩,看来是刻意为之——官方还提到相较于 Kimi-K2-Thinking,新版本的输出长度明显更短,目标就是降低计算成本和延迟。

训练数据和训练方式上可以展开讲讲。官方没有只靠单一数据集,而是合成大量 Agent 行为数据,覆盖不同环境和任务。强化学习阶段,模型反复在这些复杂指令上被训着优化表现。简单点说,就是让模型在更接近现实使用场景的条件下反复练习。这个路径倾向于解决“一下子见到新任务就乱”的问题。官方也把这当成缩小与闭源大模型差距的主要策略之一。

再说说竞赛成绩的来龙去脉。把数学模块整合进 V3.2-Speciale,是在 DeepSeek-Math-V2 的基础上做的工程化合并。这个模块在定理证明、竞赛题解方面已经过专门训练,所以在 IMO、CMO 这类纯数学竞赛里能拿到金牌并不完全出乎意料。ICPC、IOI 这种偏编程与算法的比赛也有好结果,官方强调 ICPC 的成绩能逼近人类第二名,这背后更多依赖的是模型在复杂搜索和算法推理上的能力提升。

关于模型在智能体评测里的地位,官方表示 V3.2 在公开的智能体基准上是目前开源模型里表现最好的一个,这也是他们想强调的点:尽管闭源模型还占优势,但差距在变小。这个结论基于他们在多个评测任务上的比较,尤其是多环境、多任务的泛化能力测试上,V3.2 的表现被认为是有进步的。

用户层面能感受到的变化包括响应风格和调用工具的流畅度。工具调用不是单纯把 API 串起来,系统能在“思考链”里决定什么时候用工具、用哪个工具,再把结果整合到回答里。工程上这意味着模型不仅要会推理,还要能管理外部接口、处理中间状态和错误。对于社区研究者来说,临时 API 的开放提供了宝贵的试验场,可以验证这些跨工具协作的实际效果。

说说可能的限制和风险点。官方报告里没把所有细节都披露,诸如训练数据的具体构成、某些基准的完整细节还不透明。稀疏注意力虽然节省资源,但不同任务下的稳定性还得更多实测来证明。竞赛成绩光鲜,背后是专门模块化训练和调参的结果,直接把这些能力等同于通用智能还为时尚早。就个人看法,这些成绩确实不小,但用场景和边界需要更清楚的说明。

有一点好玩:两个月前的实验版算是先行器,社区反馈被用来调整现在的发布版。用户那轮反馈主要围绕性能稳定性和输出风格,官方据此在 Speciale 里做了针对性优化。这种先放实验版再根据真实使用数据迭代的做法,不算新鲜但很务实。

版本之间的定位也挺清楚。V3.2 是主干,强调推理能力和节省计算;V3.2-Speciale 更像是实验室的提升版,把数学证明能力、思考—工具融合这些高附加值能力带上来,适合需要复杂推理和工具协同的研究场景。现在的策略是先把主版本推到全部平台,再把 Speciale 通过临时 API 放给社区试用,观察更多真实世界的数据反馈。

技术团队把目标摆得很直:提升开源模型在智能体评测和推理基准上的竞争力,缩小与闭源模型的差距。训练手段上结合了大规模的行为数据合成和强化学习,工程上采用稀疏注意力来控制资源消耗,产品上则以逐步开放的方式让研究者参与进来。公开的信息里,关键数字是覆盖 1800 环境和 8.5 万条复杂指令的强化训练,以及之前实验版验证 DSA 没出大问题这些点,都是他们当前主张进步的证据。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
三菱退出中国?官方回应:将与现有伙伴继续合作
6月23日,有媒体报道称,三菱汽车将逐步取消包括欧洲、中国在内的市场业..
2026款三菱帕杰罗曝光,第二代超选四驱+2.4T/2.0T双动力..
硬派越野圈的“老将”居然换小排量了?2026款三菱帕杰罗刚露出消息,就把..
恩智浦计划退出5G功率放大器业务;三星或将退出SATA SSD市场;三菱化学出售..
五分钟了解产业大事每日头条芯闻 恩智浦计划退出5G功率放大器业务我国首..
实拍三菱全新欧蓝德!搭1.5T四缸,内饰配大屏,不比奇骏香?..
在重庆车展上,全新一代三菱欧蓝德终于在国内亮相了,相比其国外的发布时..
试驾广汽三菱奕歌:小巧灵动
■ 阅车试驾车型:广汽三菱奕歌长/宽/高(mm):4405/1805/1685轴距(mm..
新车 | 四驱越野MPV/配侧滑门/2.2T柴油机,新款三菱Delica D:5亮相..
文:懂车帝原创 高帅鹏[懂车帝原创 产品] 日前,2025东京车展开幕,新款..
三菱集团的传奇发家史
“三菱”两个字,在日本就像一把瑞士军刀:银行、飞机、汽车、火箭、寿司..
2026款三菱Montero曝光,S-AWC四驱+差速锁全配,普拉多见了..
当 “普拉多见了都得慌” 的话题在越野圈炸锅,2026 款三菱 Montero 的曝..
日韩巨擘数据,三星2.1万亿三菱21万亿,中国第一谁?..
图片来源于网络2025年,让人火大的资本较量又来一波。韩国三星手里握着2...
关于作者
轻随风之舞..(普通会员)
文章
1696
关注
0
粉丝
1
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索