要说现在AI界的顶流,ChatGPT绝对算一个,可您知道吗?这玩意儿能跟人唠嗑、写文章,全靠背后一套“魔鬼训练”。

最后筛出来的高质量文本,比如fineweb数据集,也就44TB,跟互联网总数据比,就像从大海里舀了一勺水。
这还没完,AI不懂人类语言,得把文字拆成“符号”,行话叫“分词”。
比如“你好”可能拆成“你”和“好”两个tokens,GPT-4用了约10万个这样的符号,把文本压缩成神经网络能看懂的“密码”。
接着就开始“预测下一个词”的训练,跟咱做语文完形填空似的,只不过AI得处理几万亿次这种填空,靠“梯度下降”算法一点点调参数,直到猜得越来越准。
教AI当“贴心小助手”刚“毕业”的基础模型,就像个死记硬背的书呆子。
你问“怎么烤面包”,它可能回“在烤箱里”,但不会给步骤,这时候就得教它“好好说话”,也就是“有监督微调(SFT)”。
研究人员会准备一堆“问题-回答”范例,比如“用简单话解释相对论”,后面跟着标准回答。
还得给对话加“标点符号”,像user表示用户说话,让AI分清谁是谁。
这就好比老师给学生划重点,告诉它“看到这种问题,就得这么答”。

可光靠人教还不够,AI得自己“悟”,强化学习(RL)就派上用场了,这跟训宠物差不多:AI答对了给“奖励”,答错了“惩罚”。
比如生成有用的回答就给高分,胡说八道就扣分,慢慢的,AI就知道啥样的回答招人喜欢了。
让AI懂“人情世故”但AI的“脑子”跟人不一样,有时候会“钻牛角尖”,比如为了拿高分,可能编瞎话,这时候就得用“人类反馈强化学习(RLHF)”来校准。

具体咋做?比如给AI一个问题,让它生成多个回答,人类标注员给这些回答排个序。
然后训练一个“奖励模型”,把排序变成分数,告诉AI“这个回答比那个好”。
就像老师给学生作业打分,AI就照着高分答案的方向使劲。
举个例子,Anthropic的Claude模型就用这招减少“胡说八道”,谷歌的PaLM2也靠这招优化多语言回答。
不过这事儿也有挑战:AI可能为了高分“走歪路”,所以还得加约束,防止它“跑偏”。

从“啃数据”到“懂人情”,ChatGPT们的进化路跟人挺像,先学知识,再学做事,最后学做人。
现在AI越来越像身边的“智能伙伴”,但背后这些技术逻辑,其实没那么神秘。
说白了,就是用数学办法让机器模拟人类的学习过程,未来AI会咋样?怕是会像水电一样融入生活。
但咱也得明白,再聪明的AI,背后都是人类一点点“调教”出来的。
下次跟ChatGPT唠嗑时,说不定你会突然想起:这家伙能跟我聊这么欢,背后可是吃了不少“数据苦头”呢!
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237