作者:Kyle Wiggers
搬过去,深seek。在镇上有一个新的AI冠军,他们是美国人。
周四,位于西雅图的非营利性AI研究所AI2发布了一种模型,声称表现优于表现DeepSeek V3,中国人工智能公司DeepSeek的领先系统之一。
AI2的模型称为Tulu3-405b,也击败了OpenaiGPT-4O根据AI2的内部测试,在某些AI基准上。此外,与GPT-4O(甚至DeepSeek V3)不同,Tulu3-405b是开源,这意味着从头开始复制它所需的所有组件都是免费的,并且允许获得许可。
AI2的发言人告诉TechCrunch,该实验室认为Tulu3-405b强调了美国领导全球最佳生成AI模型全球发展的潜力。
发言人说:``这个里程碑是开放AI的未来的关键时刻,增强了美国作为竞争性,开源模型领导者的地位。”通过此次发布,AI2正在引入一种强大的,美国开发的替代方案,用于DeepSeek模型 - 标记不仅在AI开发中的关键时刻,而且还展示了美国可以以竞争性,开放性,开放性,开放性,开放性的领导来源AI独立于技术巨头。
Tulu3-405b是一个相当大的模型。根据AI2,包含4050亿个参数,需要256个GPU与训练并行运行。参数大致对应于模型解决问题的技能,并且具有更多参数的模型通常比具有较少参数的模型更好。
根据AI2的说法,用Tulu3-405b获得竞争性能的关键之一是一种称为强化学习的技术,并具有可验证的奖励。通过可验证的奖励或RLVR的强化学习训练模型,以可验证的结果,例如数学问题解决和以下说明。
AI2声称,在基准POPQA上,来自Wikipedia的14,000个专业知识问题,Tulu3-405B不仅击败了DeepSeek V3和GPT-4O,而且还击败Meta S Llama 3.1 405b模型。Tulu3-405b在GSM8K上的所有模型中也具有最高的性能,这是一项包含学校级数学单词问题的测试。
Tulu3-405b是可用于测试通过AI2的Chatbot Web应用程序,训练模型的代码在Github和AI开发平台拥抱面孔。在炙手可热的同时,在下一个基准旗舰AI型号出现之前。
凯尔·威格斯(Kyle Wiggers)是TechCrunch的高级记者,对人工智能特别感兴趣。他的写作出现在VentureBeat和数字趋势中,以及一系列小工具博客,包括Android警察,Android Authority,Droid-Life和XDA-Developers。他与他的伴侣,钢琴教育家一起住在布鲁克林,并在钢琴中牵涉。偶尔 - 如果大部分未成功。