这是苍何的第 423 篇原创!
大家好,我是苍何。
就在今天下午,DeepSeek 官方宣布 DeepSeek-V3.1 正式发布。

SWE-bench 是一个专门考察 AI 像真人程序员一样,去修复 GitHub 上真实软件项目里 Bug 的能力测评,Terminal Bench 是一个专门考察 AI 在命令行里,独立完成各种复杂系统操作和软件管理任务的能力测评。
V3.1 在非思考模式下的输出长度得到了有效控制,相比于 DeepSeek-V3-0324 ,能够在输出长度明显减少的情况下保持相同的模型性能。

下面,看看 DeepSeek V3.1 在 Claude Code 中的表现吧。
实测用 CC 来验证下 DeepSeek 的编程和 Agent 能力,看看实测效果如何吧。
case 1:前端审美能力
提示词:我想开发一个记账 APP,现在需要输出原型图,请通过以下方式帮我完成 APP 所有原型图片的设计。1. 思考用户需要记账 APP 实现哪些功能2. 作为产品经理规划这些界面3. 作为设计师思考这些原型界面的设计4. 使用 HTML 在一个界面上生成所有的原型界面,可以使用 FontAwesome 等开源图标库,让原型显得更精美和接近真实我希望这些界面是需要能直接拿去进行开发的5. 每一个模块之间用 Grid 方式排版,根据屏幕宽度自适应,每行 2~3 个
可以看到,在 Claude Code 中 DeepSeek-V3.1 开始根据 task 来进行 code。

这个经典的 case,还是能很好的体现模型自身的编程能力的,我们看下DeepSeek-V3.1 的效果:

这个效果,很棒了,几乎和 Claude 4 出来的效果差不多了。
case 3:六边形弹力小球
提示词: 做一个六边形弹力小球,模拟真实小球在六边形的弹射,可以控制旋转速度等,写在一个html里面

下面只需要进入自己的目录,终端中输入:claude,就好了。

从模型适配,到大规模训练,再到推理的稳定性和性价比,还有无数的坑要填,无数的仗要打。
但无论如何,DeepSeek这次摊牌,让我们看到了一个清晰的可能性。
那就是通过软硬件的深度协同,我们有机会打造一个独立自主、正向循环的AI生态。
这条路很难,很难,但总要有人开始走。
让我们给 DeepSeek 一点时间,也给即将到来的下一代国产芯,亿点点期待。
这盘大棋,越来越有意思了。
好啦,以上全文 2349 字,15 张图,如果这篇文章对你有用,可否点个关注,给我个三连击:点赞、转发和再看。若可以再给我加个⭐️。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237