[db:作者] 发表于 2025-10-18 01:17

数小时7.1kStar!nanochat开源,LLM门槛大降

前OpenAI联合创始人Karpathy最近又搞出个大动静,开源了个叫nanochat的项目。
这东西最离谱的地方在于,只要花100美元、等4小时,你就能训出一个属于自己的“迷你ChatGPT”,能聊天、写诗,还能答点简单问题。
要是多花点时间,比如训12小时,性能甚至能超过GPT-2。

项目刚发布没几小时,GitHub上就攒了7.1kStar,一堆AI开发者跑去试手。
说实话,以前看LLM训练总觉得是“大厂专属”,得有几百万预算、一堆工程师才行,但nanochat这波操作,反而让我觉得“普通人也能凑凑热闹了”。
100美元+4小时,这可能是最“亲民”的LLM训练工具nanochat本质是个LLM全栈工具,从模型训练到最后跟模型聊天,所有流程都塞在一个代码库里,还几乎没什么依赖。

整个项目就8000行代码,主要用Python写的(基于PyTorch),就加了点Rust代码做分词器。
为啥用Rust写分词器?Karpathy自己说,之前用Python版的分词器太慢,用HuggingFace的又太臃肿,藏了一堆复杂逻辑,索性自己写了个Rust版本,训练的时候用这个,推理的时候再换OpenAI的tiktoken保证速度,两边效果还一样。
最吸引人的还是成本,你不用买昂贵的GPU,租个云端GPU就行,比如LambdaGPUCloud,每小时大概24美元。

算下来,4小时训练也就花100美元左右。
Karpathy自己都调侃,这是“100美元能构建的最强ChatGPT”。
而且这项目还跟教育挂钩,Karpathy说要把它当成旗下EurekaLabs的LLM101n课程收官项目。
想想看,以前学生学LLM,顶多是跑别人的模型demo,现在能跟着教程从零训一个自己的模型,这种“亲手做出来”的感觉,可比光听课有意思多了。

有点像当年他搞nanoGPT推动预训练平民化那意思,这次是要把全流程都给“普及”了。
不过别指望这100美元的模型能有多厉害。
Karpathy自己也说,聊起来就像在跟幼儿园小朋友对话,复杂数学题、深度推理肯定不行,但胜在“能跑通全流程”,你能亲眼看到模型怎么从一堆数据里学知识,怎么从“只会补全文字”变成“能跟你聊天”,这点对新手来说太重要了。
四步上手,从搭环境到聊天,小白也能跟着走讲完亮点,咱得说说具体怎么操作,毕竟光知道好没用,得能上手才行。

Karpathy在GitHub上写了超详细的教程,基本上跟着步骤走,就算是刚入门的开发者也能搞定。
第一步是搭环境。
先克隆项目,用uv工具建个虚拟环境,再装Rust编译分词器。
这里得提一嘴,编译分词器的时候可能会有点小麻烦,但教程里写得很清楚,跟着输命令就行,不用自己瞎琢磨。

第二步是准备数据。
预训练用的是FineWeb-EDU数据集,Karpathy已经把它打包成了1822个小分片,每个分片压缩后才100MB左右。
训练一个20层的模型,其实只用240个分片就够了,下载起来也不费劲。
第三步就是分阶段训练。

最花时间的是预训练,大概要3小时,用8张GPU训一个20层的Transformer,差不多5.6亿参数。
这一步主要是让模型“学基础知识”,比如地理常识、简单化学公式。
训完后看评估,CORE指标能到0.22,比GPT-2Large还稍好点。
不过也有搞笑的地方,模型能答出“地球绕太阳转”,但问它“天空是什么颜色”,反而会犹豫,搞不清答案。

预训练之后是中期训练,才花8分钟,用SmolTalk的对话数据微调,让模型学会怎么跟人聊天,比如识别“用户说什么、助手怎么回”。
再之后是监督微调,7分钟就好,用优质数据再优化下,比如让模型更懂礼貌,或者更精准地回答问题。
最后一步就是聊天了,你可以在终端里跟模型聊,也能启动个网页界面,跟用ChatGPT似的。
Karpathy还放了个网页界面的截图,看起来很简洁,输入问题就能等回复,虽然回复可能有点“幼稚”,但成就感是真的足。

哦对了,还有个可选的强化学习步骤,大概1.5小时,主要用来优化数学题回答。
不过目前默认是注释掉的,Karpathy说还没完全调优,等后续社区完善。
现在GitHub上已经有不少开发者试过了,有人说“流程特别丝滑,3小时真能训出能聊天的模型”,也有人吐槽“Rust分词器编译对新手不太友好,得查半天教程”。

但总体来说,大家都觉得这项目很实用,不是说能靠它搞出什么商业产品,而是能让更多人搞懂LLM训练到底是怎么回事。
它不是“颠覆者”,却是“破局者”nanochat算不上什么颠覆性突破,性能比不过GPT-3、GPT-4,甚至连一些开源大模型都不如。
但它的价值不在于“强”,而在于“低门槛”。

以前想了解LLM训练,要么看一堆理论论文,要么对着大厂的黑箱API发呆,普通人根本没机会亲自动手。
但nanochat把复杂的流程拆成了“傻瓜式步骤”,成本压到了普通人能接受的范围,甚至还能当成教学工具。
Karpathy自己也说,这项目还远没完成,还有很多地方要调优。
但现在把它开源出来,就是想让更多人参与进来,一起完善。

就像当年的nanoGPT,从一个简单的预训练工具,慢慢变成了很多研究的基础框架。
未来这东西可能会成为AI入门的“标配”,学生用它学LLM原理,小开发者用它做实验,甚至有人用它做趣味项目,比如训个只聊科幻小说的模型。
毕竟,不是所有人都需要最顶尖的模型,但所有人都需要一个“能亲手摸到”的学习工具。

总的来说,nanochat这波操作,更像是给LLM领域开了个“小门”,让以前挤不进来的人,现在能踮踮脚就够着。
至于后续能发展成什么样,就得看社区怎么发力了。
但至少现在,它已经让很多人意识到,LLM训练,没那么遥不可及。
页: [1]
查看完整版本: 数小时7.1kStar!nanochat开源,LLM门槛大降