Nanochat 让您构建自己的可破解的法学硕士

2025-10-20 11:00:00 英文原文

很少有人像 [Andrej Karpathy] 那样彻底了解 LLM(大型语言模型),幸运的是,他在有用的开源项目中表达了这一点。他的最新作品是纳米聊天,他将其称为创建“100 美元能买到的最好的 ChatGPT”的一种方式。

到底是什么?纳米聊天在一个最小且可破解的软件项目中 – 封装在一个单一的极速跑脚本 – 用于从头开始创建简单的 ChatGPT 克隆,包括 Web 界面。该代码库由大约 8,000 行干净、可读的代码组成,具有最小的依赖性,使得流程的每个部分都可以被篡改。

用于创建简单 ChatGPT 克隆的可访问的端到端代码库使流程的每个部分都可破解。

100 美元是创建模型的繁重计算工作的成本,该工作在单个 NVIDIA 8XH100 GPU 节点上大约需要 4 小时。结果是一个包含 19 亿个参数的微模型,使用来自开放数据集的约 380 亿个令牌进行训练。正如 [Andrej] 中所述,该模型是他在 X 上的公告,一个“ChatGPT 小克隆,你可以与之交谈,它可以写故事/诗歌,回答简单的问题。”A整个过程的演练使其尽可能容易上手。

毫不奇怪,仅仅 100 美元并不能为现代商业产品创造一个有意义的竞争对手。然而,通过扩大流程可以实现重大改进。1,000 美元版本(详细信息在这里) 更加连贯和有能力;能够解决简单的数学或编码问题并参加多项选择题测试。

[Andrej Karpathy] 的工作非常适合修改和实验,我们确信这个工具也不例外。他过去的工作包括一种培训方法仅使用纯 C 代码的 GPT-2 LLM,几年前我们看到了他基于角色的作品循环神经网络(错误)用于生成巴洛克音乐通过巧妙地将 MIDI 事件表示为文本。

关于《Nanochat 让您构建自己的可破解的法学硕士》的评论


暂无评论

发表评论

摘要

Andrej Karpathy 发布了 nanochat,这是一个最小且可破解的软件项目,用于使用单个脚本从头开始创建 ChatGPT 克隆,花费约 100 美元的计算资源。该项目涉及一个 8,000 行代码库,在 380 亿个开放数据上训练 19 亿个参数模型,能够执行回答问题和撰写故事等简单任务。虽然初始版本与商业产品相比没有竞争力,但扩展至 1,000 美元可以产生更连贯、功能更强大的模型。卡帕蒂的工作鼓励修改和实验。

相关新闻

相关讨论