Nanochat 让您构建自己的可破解的法学硕士

很少有人像 [Andrej Karpathy] 那样彻底了解 LLM（大型语言模型），幸运的是，他在有用的开源项目中表达了这一点。他的最新作品是纳米聊天，他将其称为创建“100 美元能买到的最好的 ChatGPT”的一种方式。

到底是什么？纳米聊天在一个最小且可破解的软件项目中 – 封装在一个单一的极速跑脚本 – 用于从头开始创建简单的 ChatGPT 克隆，包括 Web 界面。该代码库由大约 8,000 行干净、可读的代码组成，具有最小的依赖性，使得流程的每个部分都可以被篡改。

用于创建简单 ChatGPT 克隆的可访问的端到端代码库使流程的每个部分都可破解。

100 美元是创建模型的繁重计算工作的成本，该工作在单个 NVIDIA 8XH100 GPU 节点上大约需要 4 小时。结果是一个包含 19 亿个参数的微模型，使用来自开放数据集的约 380 亿个令牌进行训练。正如 [Andrej] 中所述，该模型是他在 X 上的公告，一个“ChatGPT 小克隆，你可以与之交谈，它可以写故事/诗歌，回答简单的问题。”A整个过程的演练使其尽可能容易上手。

毫不奇怪，仅仅 100 美元并不能为现代商业产品创造一个有意义的竞争对手。然而，通过扩大流程可以实现重大改进。1,000 美元版本（详细信息在这里) 更加连贯和有能力；能够解决简单的数学或编码问题并参加多项选择题测试。

[Andrej Karpathy] 的工作非常适合修改和实验，我们确信这个工具也不例外。他过去的工作包括一种培训方法仅使用纯 C 代码的 GPT-2 LLM，几年前我们看到了他基于角色的作品循环神经网络（错误）用于生成巴洛克音乐通过巧妙地将 MIDI 事件表示为文本。

Nanochat 让您构建自己的可破解的法学硕士

关于《Nanochat 让您构建自己的可破解的法学硕士》的评论

发表评论

摘要

相关新闻

相关讨论