就在几个小时前,OpenAI发布了一篇重磅的最新研究,构建了一个实验性的大语言模型,并且提出稀疏训练 剪枝 桥接的新方法,让原本黑箱的LLM内部机制可视化了。
大家都知道,如今GPT、Claude等LLM越来越强大,写文章、生成代码、做推理,样样不在话下。但是,模型内部是如何“思考”的?这一直是一个黑箱问题。
打个比方,传统神经网络的工作方式就像一堆纠缠在一起的电线:每个神经元与成千上万个神经元相连,信号在其中不断流动、叠加。这些连接虽然能让模型学习复杂模式,但也形成了人类难以解读的、高度密集的连接网络。

解释 Transformer 的一个主要难点在于:其激活与权重并不直接可理解。例如,神经元会以难以预测的方式激活,这些激活模式往往并不对应于人类可理解的概念。
而OpenAI的最新研究,通过对语言模型进行极度稀疏权重训练,“解开”了模型内部的机制。他们构建了一个权重稀疏的 Transformer模型,比 GPT-5、Claude 或 Gemini等主流模型要小得多。论文第一作者Leo Gao表示,它的性能大致相当于2018年的GPT-1。
相对于常规模型来说,更透明的模型有助于揭示语言模型为何会出现幻觉、行为不可预测,或在关键情况下做出不可靠的判断。
二、电路可解释性:AI任务的“微观机制”为了验证稀疏训练的效果,研究者设计了一些简单任务,让模型完成特定操作,例如:
Python引号闭合任务:输入 "hello,模型要输出匹配的引号 "hello";
列表嵌套深度计数:输入 [ [ ] ],模型需要正确预测列表结束的符号;
三、能力与可解释性的权衡稀疏训练还有一个亮点:可调控性。
增加稀疏度:权重越少,电路越小,模型越可解释,但能力略有下降。扩大模型规模:在保持稀疏度的情况下,增加神经元数量,可以同时提升能力和可解释性。研究者将这个关系绘制成“帕累托前沿”,显示能力与可解释性的权衡。在总参数量固定的情况下,提高模型稀疏度(即减小权重的L0 范数)会在能力和可解释性之间产生权衡:能力下降,但可解释性提升。

“桥接”就是一系列线性映射,用于在稀疏模型和稠密模型的表示之间转换——从而确保通过稀疏层与稠密层混合的所有路径在预训练任务上仍能保持良好性能。
五、未来将训练出一个完全可解释的 GPT-3在论文最后,研究者提到,稀疏训练非常有前景,但仍有不少挑战:
效率低:稀疏模型训练和推理开销是同等能力稠密模型的100–1000倍;多语义特征:一些神经元仍同时参与多个任务,完全单语义化还需要改进;规模挑战:解释复杂任务或更大模型时,电路会非常庞大,需要自动化可解释性方法辅助。论文第一作者Leo Gao也表示:
“我们还没有完全解决可解释性问题,仍有很大的改进空间,许多电路仍然比较复杂。但我们仍然能学到很多——例如,在检查闭合嵌套列表的电路时,我们发现了一种对模型的对抗攻击,这是我们原本不会想到的。”

Image
对于未来的研究方向,研究团队表示,他们对扩展这一技术感到非常兴奋。
“虽然不太可能将其扩展到最前沿的规模,但一个令人激动的目标是训练出一个完全可解释的 GPT-3。这样的‘模型生物体’将教会我们关于 AI 工作原理的重要经验,这些经验可能会迁移到最前沿的模型上。”
可以预见,可解释性将是未来大模型发展的关键方向。在不远的将来,我们有望真正理解“AI是怎么思考的”,而不是仅仅看它的输出。
参考链接:
https://openai.com/index/understanding-neural-networks-through-sparse-circuits/
https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237