> 自媒体 > (AI)人工智能 > GPT-4:一个巨大的马尔科夫链
GPT-4:一个巨大的马尔科夫链
来源:新缸中之脑
2025-09-03 09:59:43
150
管理

“所有模型都是错的,但有些是马尔可夫链。”—— Swarnendu Bhattacharya

GPT-4 可能是有史以来最令人印象深刻的统计模型。但如果我告诉你它实际上并不“智能”呢?它只是一个强化版的马尔可夫链。

这并非批评。这实际上是它成功的关键。

在所有关于“涌现智能”、“零样本推理”和“综合思维”的讨论背后,隐藏着一个基本事实:

像 GPT-4 这样的语言模型,其核心只是估算:P(下一个标记 | 最后一个标记)

这是 K 阶马尔可夫链的教科书式定义。

拥有 50,000 个标记的词汇表和 32,000 个标记的上下文窗口,我们处理的是一个天文数字般的——但在概念上却很熟悉的——状态空间。

Transformer 是一个出色的近似引擎。它在这个难以理解的庞大空间中学习转移概率。它的名字叫“自注意力”。具体数学是什么?它就是大规模的条件概率。

1、从转换核到 Transformer

让我们从视觉和代码的角度来分解一下。

1.1 马尔可夫链入门

一个简单的马尔可夫链转移矩阵:

import numpy as npstates = ["A", "B", "C"]transition_matrix = np.array([ [0.1, 0.6, 0.3], # P(next | A) [0.4, 0.4, 0.2], # P(next | B) [0.3, 0.3, 0.4], # P(next | C)])

现在将其扩展到 50,000 个状态,并以最后 K = 32,000 个词条作为条件。

我们不仅仅是构建一个转移矩阵——我们还针对每个提示构建它的动态近似值。

在您附加的 GIF 中,词汇表 V = {0,1} 和 3 个词条的上下文窗口产生了 ²³ = 8 种可能的状态。随着上下文窗口的增加,这个空间会呈指数级增长——Transformer 必须通过学习转移概率的函数近似来克服同样的现象。

1.2 Transformer 的实际作用

Transformer 近似于这个转移核:

P(x_{t 1} | x_t, x_{t-1}, …, x_{t-K}) ≈ f_θ(x_{t-K:t})

其中 f_θ 由自注意力模块和前馈网络参数化。

每个注意力头会选择性地对过去的 token 进行加权,以近似这个高维核的局部结构。

因此,我们不是存储一个巨大的转移表,而是学习一个根据上下文估计转移的函数。

这也解释了上下文学习 (ICL) 的强大之处:它不是魔法,而是结构化的核估计。

3、Zekri 等人 (2025):使理论严谨

Zekri 等人将我们许多大型语言模型(LLM)工作者长期以来的直觉理解:Transformer 的行为可以通过随机过程的视角来理解。

他们将 token 序列建模为由未知过渡核 κ 生成的非独立同分布随机过程 ,并表明基于 Transformer 的模型在有限样本条件下能够近似该 κ。

正式定义(摘自论文):

设 = (x₁, x₂, …, x_T) 为来自某个过程 P 的随机序列。设 f 为在 ₁:n 上训练并在 _{n 1:T} 上求值的预测器。

Zekri 等人引入取决于以下因素的泛化边界:

• 的混合时间 τ • 预测器类 ℱ 的 VC 维度

关键定理:泛化误差会随着 token 数量的增加而衰减,同时也会随着链混合速度的增加而衰减。

这非常重要。它告诉我们:

• 混合缓慢的序列(例如高度结构化的领域)更难进行泛化。• ICL 的性能可以根据源过程的随机性进行预测。

Zekri 等人进一步表明,涌现的泛化行为(在小样本学习或任务切换中表现为突然跳跃)与底层核的可学习性的相变密切相关。

3.1 从数学上讲,“涌现”是什么?

LLM 中的涌现行为(推理、翻译或算术能力的突然提升)常常让实践者感到困惑。但从统计学角度来看,这可以理解为泛化误差的相变。

假设你的模型通过拟合非独立同分布序列来近似条件分布 P(y|x)。存在一个阈值机制:

• 参数数量 (N) • 训练标记数量 (T) • 序列混合时间 (τ)

超过该阈值,近似误差会急剧下降。这类似于双下降现象,只不过是在序列空间中。

因此,涌现并不神秘。它意味着:

涌现 ⟺ 泛化边界在非独立同分布过程中的急剧转变

它是规模与结构匹配的统计特征。

人工智能工程师的实用要点:

LLM 是具有学习过渡近似器的马尔可夫模型。这种观点在实际系统中非常有用:

3.2 提示工程 = 初始状态调节

每个提示都是一个新的马尔可夫链初始化。你正在间接地影响内核。

def initialize_chain(prompt_tokens, model): """ Initialize the Markov chain with a specific prompt """ # The prompt sets the initial state distribution initial_state = model.encode(prompt_tokens) # This influences all subsequent transitions return initial_state3.3 微调 = 转换核校正

您正在调整估计器 f_θ,以更好地模拟 κ 的某些区域。

def fine_tune_kernel(base_model, domain_data): """ Adjust transition probabilities for specific domain """ # Modify the learned approximation f_θ # to better capture domain-specific transitions for batch in domain_data: loss = compute_transition_loss(base_model, batch) update_parameters(base_model, loss) return base_model3.4 检索增强生成 = 状态注入

在上下文中插入新的 token 会改变链的走向。你正在篡改轨迹。

def inject_context(current_state, retrieved_info): """ Modify chain trajectory with external information """ # Insert retrieved tokens into the sequence modified_context = concatenate([current_state, retrieved_info]) # This changes the transition probabilities going forward return modified_context3.5 泛化能力 = 核平滑度 混合时间

当转换核平滑且底层序列快速混合时,模型具有良好的泛化能力。

3.6 为何这能揭开“涌现”的神秘面纱

本文揭开了LLM中“涌现”行为的神秘面纱:

上下文学习并非少样本元学习。它是对近期轨迹进行在线核拟合。思路链提示之所以有效,是因为它能将思路链推入可解释的中间状态。当核即使在非支持的情况下也能很好地近似时,零样本泛化能力就会出现。

简而言之,LLM不进行“推理”。他们转换得非常熟练。

4、结语:回归数学

我们不需要神秘主义来欣赏大模型 (LLM)。我们需要数学。

将 Transformer 理解为条件 token 转换的大规模估计器——基于结构化、非独立同分布的过程——可以让我们获得可解释性和控制力。

GPT-4 之所以智能,并非因为它超越了概率。

它之所以智能,是因为它实现了大规模概率。

原文链接:GPT-4 只是一个巨大的马尔可夫链 - 汇智网

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
三菱退出中国?官方回应:将与现有伙伴继续合作
6月23日,有媒体报道称,三菱汽车将逐步取消包括欧洲、中国在内的市场业..
2026款三菱帕杰罗曝光,第二代超选四驱+2.4T/2.0T双动力..
硬派越野圈的“老将”居然换小排量了?2026款三菱帕杰罗刚露出消息,就把..
恩智浦计划退出5G功率放大器业务;三星或将退出SATA SSD市场;三菱化学出售..
五分钟了解产业大事每日头条芯闻 恩智浦计划退出5G功率放大器业务我国首..
实拍三菱全新欧蓝德!搭1.5T四缸,内饰配大屏,不比奇骏香?..
在重庆车展上,全新一代三菱欧蓝德终于在国内亮相了,相比其国外的发布时..
试驾广汽三菱奕歌:小巧灵动
■ 阅车试驾车型:广汽三菱奕歌长/宽/高(mm):4405/1805/1685轴距(mm..
新车 | 四驱越野MPV/配侧滑门/2.2T柴油机,新款三菱Delica D:5亮相..
文:懂车帝原创 高帅鹏[懂车帝原创 产品] 日前,2025东京车展开幕,新款..
三菱集团的传奇发家史
“三菱”两个字,在日本就像一把瑞士军刀:银行、飞机、汽车、火箭、寿司..
2026款三菱Montero曝光,S-AWC四驱+差速锁全配,普拉多见了..
当 “普拉多见了都得慌” 的话题在越野圈炸锅,2026 款三菱 Montero 的曝..
日韩巨擘数据,三星2.1万亿三菱21万亿,中国第一谁?..
图片来源于网络2025年,让人火大的资本较量又来一波。韩国三星手里握着2...
关于作者
我是歌王(普通会员)
文章
1712
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索