天涯论坛_华人最大的社区论坛_新天涯社区

查看: 15|回复: 0

8000行手写代码!nanochat,从0造ChatGPT级模子的极简工具

[复制链接]

2万

主题

0

回帖

6万

积分

论坛元老

Rank: 8Rank: 8

积分
65118
发表于 2025-10-18 01:17 | 显示全部楼层 |阅读模式
特斯拉前AI总监、OpenAI开创成员Karpathy比来扔了个“技术炸弹”,他刚开源的项目nanochat,在GitHub上没几天就飙到14.5kStar提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
这工具跟他之前搞的nanoGPT完全纷歧样,nanoGPT只算个“半制品”,只能做模子预练习,而nanochat是套全流程工具,从练习模子到跟模子聊天,一个文件就搞定,依靠项少得不幸提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

全部项目就8000行代码,大部分是Python(用了PyTorch),就加了点Rust写分词器提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
之前看LLM工具总感觉“得懂一堆技术才能玩”,但nanochat这极简设想,反而让我感觉“普通人似乎也能试试训自己的模子了”提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
100美圆4小时:训出能聊天的“迷你ChatGPT”Karpathy自己都说,nanochat是“100美圆能买到的最好ChatGPT”提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

这话不是吹的,你只要租台云GPU办事器,跑个剧本,最快4小时就能拿到一个能对话的模子提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
这模子能干嘛?写小故事、编首小诗,回答点简单题目都没题目提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
如果多训会儿,比如12小时,性能就能跨越GPT-2提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
我特地去看了他给的测试数据,如果把本钱提到1000美圆,训上40多个小时,模子还能解简单数学题、写点代码,甚至答几道挑选题,比如在MMLU(天下常识题)能拿40多分,ARC-Easy(科学常识题)能拿70多分,虽然跟GPT-3、GPT-4比差远了,但这个本钱能做到这步,已经很离谱了提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

更方便的是,nanochat把“训模子”的全流程都包了提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
从用Rust写的分词器(帮模子认词),到在FineWeb数据集上做预练习(给模子喂根本数据),再到用SmolTalk数据集做中期练习(教模子了解对话),最初还有指令微调(SFT)和强化进修(RL),一套下来不用自己找此外工具拼提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
训完以后还能自动天生Markdown报告,用“游戏化”的方式把模子成就列出来,不用自己再去算目标提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
原本想感觉“全流程”必定很复杂,后来发现不是提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

Karpathy把代码写得出格清楚,甚至能间接分支开辟(fork),比如你想试试改改模子架构,间接在原代码上改就行,不用重新搭框架提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
对门生大概刚入门LLM的人来说,这省了太多事,之前得花好几天学怎样整合分歧工具,现在对着一个文件就能上手提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
8000行代码全手写:AIAgent帮手?反而添乱最成心机的一点是,这8000行代码几近是Karpathy手写的,就用了个Tab键自动补全提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

他说之前试过用Claude大概Codex的Agent帮手写,成果“结果出格差,反而添乱”提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
为啥会这样?他感觉是自己这项目标代码气概和功用,跟Agent练习数据里的常规代码差太远提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
比如模子架构这块,nanochat参考了Llama,但做了简化,还加了改良版nanoGPT的设想提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
具体来说,用了浓密Transformer(没搞稀疏那套复杂的),扭转位置编码(让模子记着词的顺序),还有QK归一化(让模子留意力更准)提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

这些设想不是随意堆的,都是为了“让模子在低本钱装备上也能跑”,比如多查询留意力(MQA)能削减计较劲,KV缓存能省显存,就算是单卡GPU也能跑通推理提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
优化器用的是Muon+AdamW组合,Karpathy说还有个待办项,想经过优化进修率把Muon去掉,但今朝没来得及弄提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
这类“先把框架搭完整,再渐渐优化细节”的思绪,实在挺合适开源项目标,社区里的人能顺着他的框架继续改,不用重新起头提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
网友对这项目标反应也很实在提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

有人说“这是超棒的进修材料,非论是学Rust底层实现,还是Python深度进修都有用”;还有科研职员说“之前想改良LLM,得花几周搭情况,现在周末就能试自己的想法”;甚至有人恶作剧“跑完这个项目,简历上就能加‘机械进修工程师’头衔了”提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
固然也有理性的声音,比若有人说“这模子性能不如贸易模子,没法商用”提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
但Karpathy原本就没把方针定在“造最强模子”上,他想做的是一套“强基准”工具链,甚至还筹算当做LLM101n课程的焦点项目提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

就像之前的nanoGPT鞭策了LLM预练习平民化一样,nanochat能够会让更多人能完整体验LLM开辟流程,究竟不是一切人都需要GPT-4级此外模子,很多时辰一个能处理简单题目标专属模子就够了提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
现在nanochat还不是终极版,没做周全调优,也有很多能优化的点提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
但它最有代价的地方,是把LLM开辟的门坎拉到了普通人能碰的范围提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
之前训模子是大厂的事,得花几百万上万万,现在花100美圆、4小时就能试,这类“降维冲击”似的工具,说不定会让LLM范畴冒出更多新想法提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

总的来说,nanochat不是要倾覆谁,而是给想入门LLM的人搭了个梯子提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
今后如果社区能接着优化,比如加上量化、散布式练习,它能够会酿成LLM入门的“标配工具”提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
对我们这些看热烈的人来说,也多了个机遇看看“训模子究竟是怎样回事”,不用再只听大厂讲概念了提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|天涯论坛_华人最大的社区论坛_新天涯社区  

GMT+8, 2025-11-7 12:58 , Processed in 3.794559 second(s), 27 queries .

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表