DeepSeek V3.1 #deepseekv3.1 #人工智能底层逻辑 #中美科技战#
今天是8月24日,距离上次跟大家分享DeepSeek的降价已经一个月了。在这一个月时间里,国内发生了几件跟大模型相关的大事,我来给大家做一个汇总。
首先,最重磅的消息是,就在昨天,DeepSeek发布了他们的最新版本DeepSeek-V3.1。作为国内目前最先进的大模型之一,DeepSeek每一次更新都代表着国产大模型的天花板水平。而这次DeepSeek-V3.1发布,更是标志着我们国产大模型之间的竞争进入了下半场——智能体驱动。
相比之前的强调通用能力,现在DeepSeek更加关注智能体的能力。具体来说,DeepSeek-V3.1主要做了3方面的升级:
第一点,采用了“混合推理架构”。简单来讲,就是在底层大模型上增加了一层类似操作系统一样的控制层。这样做的好处是可以让DeepSeek在思考和非思考两种不同的模式之间无缝切换。比如在需要完成文字校对、视频剪辑这类简单的重复工作时,DeepSeek就会直接调用对应的软件快速帮你完成;但如果遇到需要解决数学问题或者医学难题的时候,DeepSeek就会启用链式推理,调动所有的知识为你解答问题。这样的设计既保证了DeepSeek的智能化程度,又大幅提升了日常使用的效率。
第二点,API上下文窗口扩展到了128K。上下文长度可以说是国内各大模型这半年竞争的一个重点,毕竟我们跟国外顶级的人工智能在上下文长度上差了有10倍之多。但是这次DeepSeek直接将上下文窗口提升到128K,相当于之前只能讨论一个电影的情节,而现在可以用来分析整部电影了。虽然这个数字跟谷歌Gemma的1M还有差距,但对于DeepSeek而言,更重要的是如何使用好更短的上下文窗口。
不过为了扩大的计算量,DeepSeek的API从9月6日开始也迎来了涨价:输入缓存命中的费用从0.3元提高到了0.5元/百万tokens,输入缓存未命中从2元提高到了4元/百万tokens,输出从10元提高到了12元/百万tokens,同时取消了夜间优惠。在我看来,这其实是一个非常积极的信号,说明DeepSeek终于从之前的单纯的价格竞争转变成了价值竞争。
最后一个点也是最重要的一个点,就是DeepSeek在Agent能力上的重大突破。如果你还记不住什么是Agent的话,可以参考下我的课程《人人可玩的AI智能体》。简单总结一下,Agent就是给人工智能赋予身体,让他们能够像人一样使用各种工具去解决问题。比如让一个人工智能学会编程,那么他就可以成为我们的程序员同事,帮助我们开发一些简单的软件程序;如果让一个人工智能学会使用搜索引擎,那么他就可以成为我们的助理,为我们搜集整理信息。
这些能力看似简单,但是如果开放出来,配合上下期节目要讲的自动化工具,那就能发挥出事半功倍的效果。所以未来AI 自动化一定会成为咱们中国每一个公司和每一个人的标配。
其实不光是DeepSeek,在过去的这一个月时间里面,我们的国产大模型的竞争可谓是异常激烈。先是月之暗面在7月份发布了号称当时世界上最强的中文智能体Kimi K2,拥有超过1万亿参数,在SWE Bench等智能体测试中创造了开源领域的SOTA成绩。它可以帮我们一键就完成旅行计划的定制,并且直接预订机票酒店等等一系列的工作。再比如智谱发布的AIGLM-4.5,同样也将目标瞄向了各种专业的智能体。
这也意味着,接下来国内大模型的竞争将会进入到下半场,那就是智能体的应用落地。毕竟大模型再强,强到连棋局都能自己下赢了,我们也架不住也不能总养着一批无用的“棋手”吧?所以我们现在的国产大模型都需要找到各自特长,脚踏实地的去干具体的业务,让人工智能真正进入到企业的生产流程,进入到每个人的生活当中。
我相信,随着国产大模型的智能体能力越来越强大,未来的社会分工会进一步细化,而且这种细化一定是基于人工智能无法替代的基础能力。也只有这样,才能保证我们人类工作的安全性。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237