
最近,海外开发者发现一个“诡异现象”:明明用英文向 DeepSeek 提问,模型在中间的推理步骤里却会自动切换到中文,再把结果翻译回英文输出。
DeepSeek 为什么坚持用中文来“想问题”?
DeepSeek 的中文思考,其实已经牵出了中文大模型的结构性优势、中美 AI 技术路线的分叉,以及未来 AI 竞争的地缘政治维度。

从工程角度看,大模型内部并不存在真正意义上的“语言”,只有 token 序列。谁用更少的 token 表达同样的含义,谁就更省钱、更高效。
中文优势马上凸显出来,在表达相同信息时,中文往往需要更少的字符和 token,中文在语义压缩上的效率明显高于英文。
选一个更省 token 的中间表示来推理,是再自然不过的选择。
DeepSeek 的训练与对齐,大部分是以中文互联网与中文专家数据为主,包括数学、代码、金融等高难度任务。
在这些领域,中文世界里高质量的知识样本反而更集中。模型“习惯”用中文组织思路,既是数据分布的结果,也是成本效率的结果。
DeepSeek 的“中文思考”,与其说是一种文化情怀,不如说是算力约束下的理性选择。
在算力被美国出口管制掐得很紧的前提下,谁更省 token,谁就更可能用更少的 GPU 做出更强的模型。
所以说,DeepSeek 选择中文,是从实用主义的角度出发,中文好用,省钱,当然用中文。
我们知道,大模型本来就是从英文里诞生出来的,Google 公司的著名论文“attention is all you need”,以及 Transfromer 架构,无一例外都是在英文之上的。
和大部分以英文为母语的模型不同,DeepSeek 是从一开始就把中文当成“第一语言”来设计的。
DeepSeek 团队在技术报告与公开访谈中强调,他们在训练中大量使用中文专业语料,并特别优化了中文的 token 切分策略。
这让它在财经、公文、政策、哲社、人文社科等典型“中文场景”中,表现出明显的理解与生成优势。
很多人使用 ChatGPT 时候,发现浓浓的歪果仁味道,就是这个道理。
以 DeepSeek 为代表的国产大模型,在中文情感计算、社会语境理解上,天然更贴近本土用户——不是用西方心理学模型去“翻译”中文情感,而是在中文叙事、关系网络中直接建模。
DeepSeek 不是一个“会中文的 GPT”,而是一个在中文世界里出生长大的 AI 平台。 这也是它在中文大模型领域最难被复制的护城河。
今年年初,DeepSeek 的出现被不少观察者称为 AI 领域的“Sputnik 时刻”。
它之所以引发震动,不是因为性能略高几个百分点,而是因为它用远低于硅谷的成本,做到了同一梯队的能力。
在大模型领域,一边是以 OpenAI、Google 为代表的英文“豪横派”,他们花大价钱垄断英伟达最高端 GPU,选择闭源 高价订阅的行业模式。
另一边是以 DeepSeek 为代表的中文“效率派”,在有限算力下,做到架构创新,通过完全开源 极低 API 单价,去撬动全球开发者和中小企业。
DeepSeek 坚持中文思考,本质上是在用中文话语体系去塑造 AI 的底层世界观;而美国模型则更多承袭了西方自由主义与个人主义传统的语料和设定。两种不同“AI 世界观”的碰撞,将成为未来几十年全球思想生态中无法忽视的力量。
DeepSeek 的诞生,以一己之力,改变了中文LLM 处于弱势的地位,在下一轮 AI 竞赛中,中文不只是一个“界面语言”,而是参与塑造智能时代底层逻辑的语言之一。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237