很少有人像 [Andrej Karpathy] 那样彻底了解 LLM(大型语言模型),幸运的是,他在有用的开源项目中表达了这一点。他的最新作品是纳米聊天,他将其称为创建“100 美元能买到的最好的 ChatGPT”的一种方式。
到底是什么?纳米聊天在一个最小且可破解的软件项目中 – 封装在一个单一的极速跑脚本 – 用于从头开始创建简单的 ChatGPT 克隆,包括 Web 界面。该代码库由大约 8,000 行干净、可读的代码组成,具有最小的依赖性,使得流程的每个部分都可以被篡改。

100 美元是创建模型的繁重计算工作的成本,该工作在单个 NVIDIA 8XH100 GPU 节点上大约需要 4 小时。结果是一个包含 19 亿个参数的微模型,使用来自开放数据集的约 380 亿个令牌进行训练。正如 [Andrej] 中所述,该模型是他在 X 上的公告,一个“ChatGPT 小克隆,你可以与之交谈,它可以写故事/诗歌,回答简单的问题。”A整个过程的演练使其尽可能容易上手。
毫不奇怪,仅仅 100 美元并不能为现代商业产品创造一个有意义的竞争对手。然而,通过扩大流程可以实现重大改进。1,000 美元版本(详细信息在这里) 更加连贯和有能力;能够解决简单的数学或编码问题并参加多项选择题测试。
[Andrej Karpathy] 的工作非常适合修改和实验,我们确信这个工具也不例外。他过去的工作包括一种培训方法仅使用纯 C 代码的 GPT-2 LLM,几年前我们看到了他基于角色的作品循环神经网络(错误)用于生成巴洛克音乐通过巧妙地将 MIDI 事件表示为文本。