AI2说，其新的AI模型击败了DeepSeek最好的|TechCrunch

作者：Kyle Wiggers

搬过去，深seek。在镇上有一个新的AI冠军，他们是美国人。

周四，位于西雅图的非营利性AI研究所AI2发布了一种模型，声称表现优于表现DeepSeek V3，中国人工智能公司DeepSeek的领先系统之一。

AI2的模型称为Tulu3-405b，也击败了OpenaiGPT-4O根据AI2的内部测试，在某些AI基准上。此外，与GPT-4O（甚至DeepSeek V3）不同，Tulu3-405b是开源，这意味着从头开始复制它所需的所有组件都是免费的，并且允许获得许可。

AI2的发言人告诉TechCrunch，该实验室认为Tulu3-405b强调了美国领导全球最佳生成AI模型全球发展的潜力。

发言人说：``这个里程碑是开放AI的未来的关键时刻，增强了美国作为竞争性，开源模型领导者的地位。”通过此次发布，AI2正在引入一种强大的，美国开发的替代方案，用于DeepSeek模型 - 标记不仅在AI开发中的关键时刻，而且还展示了美国可以以竞争性，开放性，开放性，开放性，开放性的领导来源AI独立于技术巨头。

Tulu3-405b是一个相当大的模型。根据AI2，包含4050亿个参数，需要256个GPU与训练并行运行。参数大致对应于模型解决问题的技能，并且具有更多参数的模型通常比具有较少参数的模型更好。

Ai2 Tulu3-405B — AI2在流行的基准测试上测试了Tulu3-405b。**图片来源：**AI2

根据AI2的说法，用Tulu3-405b获得竞争性能的关键之一是一种称为强化学习的技术，并具有可验证的奖励。通过可验证的奖励或RLVR的强化学习训练模型，以可验证的结果，例如数学问题解决和以下说明。

AI2声称，在基准POPQA上，来自Wikipedia的14,000个专业知识问题，Tulu3-405B不仅击败了DeepSeek V3和GPT-4O，而且还击败Meta S Llama 3.1 405b模型。Tulu3-405b在GSM8K上的所有模型中也具有最高的性能，这是一项包含学校级数学单词问题的测试。

Tulu3-405b是可用于测试通过AI2的Chatbot Web应用程序，训练模型的代码在Github和AI开发平台拥抱面孔。在炙手可热的同时，在下一个基准旗舰AI型号出现之前。

凯尔·威格斯（Kyle Wiggers）是TechCrunch的高级记者，对人工智能特别感兴趣。他的写作出现在VentureBeat和数字趋势中，以及一系列小工具博客，包括Android警察，Android Authority，Droid-Life和XDA-Developers。他与他的伴侣，钢琴教育家一起住在布鲁克林，并在钢琴中牵涉。偶尔 - 如果大部分未成功。

OC

AI2说，其新的AI模型击败了DeepSeek最好的|TechCrunch

关于《AI2说，其新的AI模型击败了DeepSeek最好的|TechCrunch》的评论

发表评论

摘要

相关新闻

相关讨论