> 自媒体 > (AI)人工智能 > Karpathy开源nanochat!100元4小时,复刻ChatGPT全流程
Karpathy开源nanochat!100元4小时,复刻ChatGPT全流程
来源:笔杆先生
2025-10-17 10:09:04
143
管理

要理解这事儿有多颠覆,得先说说Karpathy这个人,在AI圈,他属于那种“祖师爷级”的存在。

本科读的计算机、物理双学位,硕士研究机器人学习,博士阶段师从AI大牛李飞飞,还成了斯坦福首个深度学习课程的主讲老师。

早年是OpenAI的创始成员,后来被马斯克挖去特斯拉,一手搭起了Autopilot的AI架构,直接向马斯克汇报。

他的论文引用量快6.3万次,随便一个项目都能让整个圈子跟着动起来,但这人最特别的地方,不是身居高位搞大项目,而是总想着把复杂的AI技术“拆碎了喂给普通人”。

前两年他搞的nanoGPT,用极简代码把Transformer架构讲得明明白白,让无数想入门AI的人第一次看懂了大模型的“大脑”是怎么造的。

而这次的nanochat,直接把门槛又降了一个维度——如果说nanoGPT是教你做“零件”,那nanochat就是给你一套完整的“组装说明书”,能直接造出能干活的产品。

很多人不知道,训练一个像ChatGPT这样的对话模型,本来是个极其繁琐的“系统工程”。

得先找海量数据喂给模型打基础(预训练),再教它听懂人类指令(SFT),接着根据人类偏好优化回答(RL微调),最后还得做个网页界面让普通人能用。

最让人吃惊的还是成本和效率,Karpathy自己测过,在8XH100的GPU节点上跑4小时,总成本才92.4美元,剩下的7.6美元还能买个冰淇淋犒劳自己。

就这点投入,训练出的模型已经能写故事、编诗歌、回答基础问题了,要是愿意加到1000美元,训练41.6小时,模型立马“进化”——能解简单的数学题、写基础代码,说话也更连贯,核心指标直接超过当年的GPT-2。

有人可能觉得“小模型肯定不行”,但数据不会说谎,训练24小时的模型,计算量只有GPT-3的千分之一(大概和GPT-3Small125M相当),但在考察综合知识的MMLU测试里能拿40多分,常识推理题ARC-Easy能冲70多分,数学题GSM8K也能得20分。

要知道,这些指标以前都是大公司花几百万美元训练的模型才有的成绩,现在零头都不到就能实现。

这背后其实藏着Karpathy的“小心思”:他想打破大公司对AI技术的垄断,这些年我们总听说“AI民主化”,但真要落地太难了——大模型训练成本动辄上亿,代码要么闭源要么晦涩难懂,小团队和个人根本没机会参与。

而nanochat相当于把“AI实验室”搬到了普通人的电脑上,学生做研究不用再愁没有实验平台,小公司搞开发不用被大模型的API费用卡脖子,甚至爱好者都能改改代码,训练个专属自己的AI。

这种“开源共享”的理念,其实贯穿了他整个职业生涯,从斯坦福教书时把课程免费开放,到离职特斯拉后做教育视频、搞llama2.c项目,再到现在的nanochat,他一直在做“拆墙”的人。

把AI从高不可攀的神坛拉下来,变成能被触摸、被修改、被学习的工具,就像他自己说的,目标是做一个“连贯、极简、可读”的基线系统,让后人能站在这个肩膀上往前走。

可能有人会问,这东西对普通人有啥用?现在看来,至少有三个方向特别有价值。

对学生来说,以前学大模型只能背理论,现在能亲手调参数、看训练过程,知识一下就变“活”了。

对小团队来说,不用从零造轮子,拿nanochat改改就能做垂直领域的AI应用,比如专业领域的问答机器人。

对整个行业来说,这会变成一个全新的“实验场”,就像当年的nanoGPT成了研究基线一样,以后新的训练算法、数据处理方法,都能在nanochat上快速验证。

当然,现在的nanochat还不是“完美产品”,强化学习模块还在完善中,4小时的基础模型跟GPT-4比肯定差远了,复杂的逻辑推理和专业知识问答还得靠大模型。

但这恰恰是它的价值所在——它从来不是要取代商用大模型,而是要给想进入AI领域的人搭个梯子。

就像当年的个人电脑,一开始性能不如大型机,但正是它让普通人能接触到计算,才有了后来的互联网革命。

从当年写nanoGPT教大家造“AI大脑”,到现在用nanochat教大家做“完整AI产品”,Karpathy其实完成了一个闭环。

他用8000行代码证明了:AI技术从来不该是少数人的秘密,而是能被大众掌握的工具。

这种把复杂技术“平民化”的努力,比任何炫技的大模型都更有长远价值,现在再打开nanochat的GitHub页面,星标数早就远超当初的4.2k了。

评论区里全是来自世界各地的开发者,有人说终于能给学生开实践课了,有人说小团队的AI项目有救了,还有人已经开始分享自己修改后的版本。

看着这些反馈,你会明白Karpathy的“疯狂之作”之所以能火,不是因为技术多炫酷,而是因为它戳中了整个行业的痛点——AI的未来,从来不是少数巨头的游戏,而是所有人都能参与的创造。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
三菱退出中国?官方回应:将与现有伙伴继续合作
6月23日,有媒体报道称,三菱汽车将逐步取消包括欧洲、中国在内的市场业..
2026款三菱帕杰罗曝光,第二代超选四驱+2.4T/2.0T双动力..
硬派越野圈的“老将”居然换小排量了?2026款三菱帕杰罗刚露出消息,就把..
恩智浦计划退出5G功率放大器业务;三星或将退出SATA SSD市场;三菱化学出售..
五分钟了解产业大事每日头条芯闻 恩智浦计划退出5G功率放大器业务我国首..
实拍三菱全新欧蓝德!搭1.5T四缸,内饰配大屏,不比奇骏香?..
在重庆车展上,全新一代三菱欧蓝德终于在国内亮相了,相比其国外的发布时..
试驾广汽三菱奕歌:小巧灵动
■ 阅车试驾车型:广汽三菱奕歌长/宽/高(mm):4405/1805/1685轴距(mm..
新车 | 四驱越野MPV/配侧滑门/2.2T柴油机,新款三菱Delica D:5亮相..
文:懂车帝原创 高帅鹏[懂车帝原创 产品] 日前,2025东京车展开幕,新款..
三菱集团的传奇发家史
“三菱”两个字,在日本就像一把瑞士军刀:银行、飞机、汽车、火箭、寿司..
2026款三菱Montero曝光,S-AWC四驱+差速锁全配,普拉多见了..
当 “普拉多见了都得慌” 的话题在越野圈炸锅,2026 款三菱 Montero 的曝..
日韩巨擘数据,三星2.1万亿三菱21万亿,中国第一谁?..
图片来源于网络2025年,让人火大的资本较量又来一波。韩国三星手里握着2...
关于作者
搞印刷的黄先..(普通会员)
文章
1685
关注
0
粉丝
1
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索