家人们,谁懂啊!就在昨天,国产大模型 DeepSeek 突然放出了 V3.1 版本,一堆自媒体立马嗨了,狂吹“128K 超长上下文终于来了”!但说实话,如果你真信了这个,那就被带偏了——这次的升级,重点根本不在 128K!

真正的大招,是 DeepSeek 悄悄把“推理模型 R1”给融合进 V3.1 了!

什么意思?简单来说,以前你用 DeepSeek,普通聊天是一个模型(V3),开“深度思考”模式是另一个模型(R1)。但现在,两个合二为一了,连身份认知都变了——你问它是谁,它一口咬定自己就是 V3,根本不提 R1。
而且,这次放出的还是新 base model(基座模型),不是小修小补。换句话说,V3.1 大概率是重新训练过的,不是简单优化。

但有一说一,效果咋样?实测下来,进步有,但不大!甚至老毛病还回来了——比如偶尔胡言乱语、中英文混杂输出。如果这只是技术测试,那可以理解;但如果这就是未来主力模型,而传说中的 R2 甚至 V4 迟迟不来,那真的有点遗憾……
目前看,DeepSeek 应该是学了 OpenAI 和阿里云的思路,想搞“融合推理”,把对话和推理能力塞进一个模型。好处很明显——省资源,不用同时跑两套模型;但风险也有,万一融合不好,可能两边都不顶尖。
另外,关于 128K 上下文,其实早就支持了!只是之前官方没放开,现在才拿出来说。所以别被忽悠,这根本不是重点!

现在模型已经开源(虽然还没详细文档),配置文件中新增了推理标记(、)和搜索标记(、),工具调用流程也优化了。看来 DeepSeek 想在 Agent(智能体)能力上发力,后续可能还有大招。
最后提一嘴,如果你试过新模型,可能会发现它特别爱写完整网页代码(甚至带动态效果),而不是老实回答问题……这脑回路,也是没谁了!
总之,DeepSeek V3.1 算是一次稳健的升级,但别期待过头。真正的王炸,可能还得等 V4 或 R2。蹲一波后续吧!
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237