一要理解这事儿有多颠覆,得先说说Karpathy这个人,在AI圈,他属于那种“祖师爷级”的存在。
本科读的计算机、物理双学位,硕士研究机器人学习,博士阶段师从AI大牛李飞飞,还成了斯坦福首个深度学习课程的主讲老师。
早年是OpenAI的创始成员,后来被马斯克挖去特斯拉,一手搭起了Autopilot的AI架构,直接向马斯克汇报。
他的论文引用量快6.3万次,随便一个项目都能让整个圈子跟着动起来,但这人最特别的地方,不是身居高位搞大项目,而是总想着把复杂的AI技术“拆碎了喂给普通人”。
前两年他搞的nanoGPT,用极简代码把Transformer架构讲得明明白白,让无数想入门AI的人第一次看懂了大模型的“大脑”是怎么造的。
而这次的nanochat,直接把门槛又降了一个维度——如果说nanoGPT是教你做“零件”,那nanochat就是给你一套完整的“组装说明书”,能直接造出能干活的产品。
很多人不知道,训练一个像ChatGPT这样的对话模型,本来是个极其繁琐的“系统工程”。
得先找海量数据喂给模型打基础(预训练),再教它听懂人类指令(SFT),接着根据人类偏好优化回答(RL微调),最后还得做个网页界面让普通人能用。
二最让人吃惊的还是成本和效率,Karpathy自己测过,在8XH100的GPU节点上跑4小时,总成本才92.4美元,剩下的7.6美元还能买个冰淇淋犒劳自己。
就这点投入,训练出的模型已经能写故事、编诗歌、回答基础问题了,要是愿意加到1000美元,训练41.6小时,模型立马“进化”——能解简单的数学题、写基础代码,说话也更连贯,核心指标直接超过当年的GPT-2。
有人可能觉得“小模型肯定不行”,但数据不会说谎,训练24小时的模型,计算量只有GPT-3的千分之一(大概和GPT-3Small125M相当),但在考察综合知识的MMLU测试里能拿40多分,常识推理题ARC-Easy能冲70多分,数学题GSM8K也能得20分。

要知道,这些指标以前都是大公司花几百万美元训练的模型才有的成绩,现在零头都不到就能实现。
这背后其实藏着Karpathy的“小心思”:他想打破大公司对AI技术的垄断,这些年我们总听说“AI民主化”,但真要落地太难了——大模型训练成本动辄上亿,代码要么闭源要么晦涩难懂,小团队和个人根本没机会参与。
而nanochat相当于把“AI实验室”搬到了普通人的电脑上,学生做研究不用再愁没有实验平台,小公司搞开发不用被大模型的API费用卡脖子,甚至爱好者都能改改代码,训练个专属自己的AI。
这种“开源共享”的理念,其实贯穿了他整个职业生涯,从斯坦福教书时把课程免费开放,到离职特斯拉后做教育视频、搞llama2.c项目,再到现在的nanochat,他一直在做“拆墙”的人。
把AI从高不可攀的神坛拉下来,变成能被触摸、被修改、被学习的工具,就像他自己说的,目标是做一个“连贯、极简、可读”的基线系统,让后人能站在这个肩膀上往前走。
三可能有人会问,这东西对普通人有啥用?现在看来,至少有三个方向特别有价值。
对学生来说,以前学大模型只能背理论,现在能亲手调参数、看训练过程,知识一下就变“活”了。
对小团队来说,不用从零造轮子,拿nanochat改改就能做垂直领域的AI应用,比如专业领域的问答机器人。
对整个行业来说,这会变成一个全新的“实验场”,就像当年的nanoGPT成了研究基线一样,以后新的训练算法、数据处理方法,都能在nanochat上快速验证。
当然,现在的nanochat还不是“完美产品”,强化学习模块还在完善中,4小时的基础模型跟GPT-4比肯定差远了,复杂的逻辑推理和专业知识问答还得靠大模型。
但这恰恰是它的价值所在——它从来不是要取代商用大模型,而是要给想进入AI领域的人搭个梯子。
就像当年的个人电脑,一开始性能不如大型机,但正是它让普通人能接触到计算,才有了后来的互联网革命。
从当年写nanoGPT教大家造“AI大脑”,到现在用nanochat教大家做“完整AI产品”,Karpathy其实完成了一个闭环。
他用8000行代码证明了:AI技术从来不该是少数人的秘密,而是能被大众掌握的工具。
这种把复杂技术“平民化”的努力,比任何炫技的大模型都更有长远价值,现在再打开nanochat的GitHub页面,星标数早就远超当初的4.2k了。

评论区里全是来自世界各地的开发者,有人说终于能给学生开实践课了,有人说小团队的AI项目有救了,还有人已经开始分享自己修改后的版本。
看着这些反馈,你会明白Karpathy的“疯狂之作”之所以能火,不是因为技术多炫酷,而是因为它戳中了整个行业的痛点——AI的未来,从来不是少数巨头的游戏,而是所有人都能参与的创造。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237