Arcee 的全新开源 Trinity-Large-Thinking 是罕见的、强大的美国制造的人工智能模型,企业可以下载和定制
自 ChatGPT 于 2022 年底首次亮相以来,开源 AI 模型的接力棒多年来一直在多家公司之间传递,从 Meta 及其 Llama 家族到 Qwen 和 z.ai 等中国实验室。但最近,中国公司开始转向专有模型,尽管 Cursor 和 Nvidia 等一些美国实验室发布了自己的中国模型变体,这给未来谁将开创这一技术分支留下了疑问。
一个答案:阿尔西,位于旧金山的实验室,本周发布了AI Trinity-Large-Thinking– 在毫不妥协的开放式 Apache 2.0 许可证下发布的包含 3990 亿个参数的纯文本推理模型,允许从独立开发人员到大型企业的任何人进行完全的可定制性和商业用途。
此次发布不仅仅代表了人工智能代码共享社区的一组新权重抱脸;这是一项战略赌注,即“美国公开权重”可以为 2025 年日益封闭或受限的边境模型提供主权替代方案。
此举恰逢企业对关键基础设施依赖中国架构越来越不满,从而产生了对 Arcee 打算填补的国内冠军的需求。
正如 Hugging Face 的联合创始人兼首席执行官 Clément Delangue 在 X 上的直接消息中告诉 VentureBeat 的那样:“美国的力量一直是初创公司,所以也许他们是我们应该指望在开源人工智能领域处于领先地位的公司。Arcee 表明这是可能的!”
30人前沿实验室的起源
要了解 Trinity 版本的重要性,我们必须了解构建它的实验室。Arcee AI 总部位于旧金山,是一个只有 30 人的精简团队。
虽然 OpenAI 和 Google 等竞争对手拥有数千名工程师和数十亿美元的计算预算,但 Arcee 通过首席技术官卢卡斯·阿特金斯 (Lucas Atkins) 所说的“通过约束进行工程”来定义自己。
该公司在 2024 年获得由 Emergence Capital 领投的 2400 万美元 A 轮融资后首次引起轰动,使其总资本达到近 5000 万美元。2026 年初,该团队冒了巨大的风险:他们投入 2000 万美元(几乎是总资金的一半)为 Trinity Large 进行一次为期 33 天的训练。
Arcee 使用由 2048 个 NVIDIA B300 Blackwell GPU 组成的集群,其速度是上一代 Hopper 的两倍,她将公司的未来押注于开发人员需要一个他们可以真正拥有的前沿模型的信念。
这种“支持公司”的赌注是资本效率的大师级课程,证明一个小而专注的团队可以在没有无限储备的情况下建立完整的管道并稳定培训。
通过极端的建筑约束进行工程
Trinity-Large-Thinking 因其注意力机制的极度稀疏而值得注意。虽然该模型总共包含 4000 亿个参数,但其专家混合架构意味着对于任何给定代币来说,只有 1.56%(即 130 亿个参数)处于活动状态。
这使得模型能够掌握大型系统的深入知识,同时保持小得多的系统的推理速度和运行效率,其性能比相同硬件上的同类系统快大约 2 到 3 倍。训练这样的稀疏模型带来了巨大的稳定性挑战。
为了防止少数专家成为“赢家”,而其他专家仍然未经训练“自重”,Arcee 开发了 SMEBU,即软钳位动量专家偏差更新。
这种机制确保专家是专业的,并且在通用网络语料库中均匀分配。该架构还采用了混合方法,以 3:1 的比例交替局部和全局滑动窗口注意力层,以保持长上下文场景中的性能。
数据课程和综合推理
Arcee 与初创公司 DatologyAI 的合作提供了超过 10 万亿个精选代币的课程。然而,全面模型的训练语料库已扩展到 20 万亿个令牌,在精心策划的网络数据和高质量合成数据之间平均分配。
与典型的基于模仿的合成数据(较小的模型只是学习模仿较大的模型)不同,DatologyAI 利用技术综合重写原始网络文本(例如维基百科文章或博客)来压缩信息。
这个过程帮助模型学会对概念和信息进行推理,而不仅仅是记住确切的标记字符串。
为了确保合规性,我们投入了大量精力排除许可不明确的受版权保护的书籍和材料,吸引了对主流法学硕士相关知识产权风险保持警惕的企业客户。
这种数据优先的方法使模型能够干净地扩展,同时显着提高数学和多步骤代理工具使用等复杂任务的性能。
从爱吵闹的聊天机器人到推理代理的转变
此正式版本的定义特征是从标准“指导”模型到“推理”模型的转变。
通过在生成响应之前实施“思考”阶段(类似于早期 Trinity-Mini 中发现的内部循环),Arcee 解决了对其 1 月份“预览”版本的主要批评。
预览版模型的早期用户指出,它有时会在复杂环境中难以处理多步骤指令,并且对于代理任务可能“令人印象深刻”。
“思考”更新有效地弥补了这一差距,使 Arcee 所说的“长视野代理”能够保持多轮工具调用的一致性,而不会变得“马虎”。
这种推理过程可以在约束下实现更好的上下文连贯性和更清晰的指令遵循。这对 Maestro Reasoning 有直接影响,Maestro Reasoning 是 Trinity 的 32B 参数衍生产品,已在以审计为重点的行业中使用,以提供透明的“想法到答案”跟踪。
我们的目标是超越“爱吵闹”或低效的聊天机器人,转向可靠、廉价、高质量的代理,并在长期运行的循环中保持稳定。
地缘政治和美国公开举重的案例
Arcee 的 Apache 2.0 承诺的重要性因主要竞争对手从开放重量领域的撤退而被放大。
整个 2025 年,阿里巴巴的 Qwen 和 z.ai(又名筑派)等中国研究实验室将引领高效教育部架构的步伐。
然而,随着我们进入 2026 年,这些实验室已开始转向专有企业平台和专业订阅,这标志着远离纯粹的社区增长。
这些曾经多产的团队的碎片化,例如阿里巴巴 Qwen 实验室关键技术负责人的离开,在开放重量市场的高端留下了空白。在美国,该运动也面临着自己的危机。
2025 年 4 月,Llama 4 面临质量问题和基准操纵的报道,受到褒贬不一的评价后,Meta 的 Llama 部门明显从前沿领域撤退。
对于依赖 Llama 3 时代统治地位的开发者来说,由于当前 400B+ 开放模型的缺乏,迫切需要一个替代方案,而 Arcee 已经崛起来填补这个问题。
基准以及 Arcee 的 Trinity-Large-Thinking 如何与其他美国前沿开源 AI 模型产品相比较
Trinity-Large-Thinking 在特定代理评估上的表现使其成为一个合法的前沿竞争者。开捏凳,评估自主代理任务模型能力的关键指标,Trinity 获得了 91.9 分,仅落后于专有市场领导者 Claude Opus 4.6 (93.3)。

Arcee Trinity-Large-Thinking 基准比较图。图片来源:阿尔西
这种竞争力在 IFBench 中得到了体现,Trinity 的得分为 52.3,与 Opus 4.6 的 53.1 分几乎处于同一水平,这表明推理优先的“思考”更新已成功解决了模型早期预览阶段面临的指令遵循障碍。
该模型更广泛的技术推理能力也使其处于当前开源市场的高端。它在 AIME25 上的得分为 96.3,与高端 Kimi-K2.5 相当和超过了 GLM-5 (93.3) 和 MiniMax-M2.7 (80.0) 等其他主要竞争对手。
虽然像 SWE-bench Verified 这样的高端编码基准测试仍然显示出领先于顶级闭源模型的优势(Trinity 得分为 63.2,而 Opus 4.6 得分为 75.6),但每个代币成本的巨大差异使 Trinity 成为希望在生产规模部署这些功能的企业更可行的主权基础设施层。
当谈到其他美国开源前沿模型产品时,OpenAI 的 gpt-oss 拥有 1200 亿个参数,但还有 Google 的 Gemma(Gemma 4 本周刚刚发布)和IBM 的 Granite 系列尽管基准较低,但也值得一提。Nvidia 的 Nemotron 系列也很引人注目,但经过了微调和后期训练奎文变种。
基准测试 | Arcee Trinity-大号 | gpt-oss-120B(高) | IBM花岗岩4.0 | 谷歌杰玛 4 |
GPQA-D | 76.3% | 80.1% | 74.8% | 84.3% |
Tau2-航空公司 | 88.0% | 65.8%* | 68.3% | 76.9% |
捏凳 | 91.9% | 69.0% (IFBench) | 89.1% | 93.3% |
AIME25 | 96.3% | 97.9% | 88.5% | 89.2% |
MMLU-专业版 | 83.4% | 90.0%(MMLU) | 81.2% | 85.2% |
那么企业该如何选择呢?
Arcee Trinity-大思维是构建自主代理的组织的首选;其稀疏的 400B 架构擅长通过多步逻辑、复杂的数学和长期工具使用进行“思考”。通过仅激活其一小部分参数,它为需要在经济高效的开源框架内提供 GPT-4o 级规划功能的开发人员提供了高速推理引擎。
相反,gpt-oss-120B对于需要高推理性能但优先考虑较低运营成本和部署灵活性的企业来说,这是最佳的中间立场。
由于它每次前向传递仅激活 5.1B 个参数,因此它特别适合必须在有限硬件(例如单个 H100 GPU)上运行的竞争性代码生成和高级数学建模等技术工作负载。
其可配置的推理工作(提供“低”、“中”和“高”模式)使其最适合必须在不同任务之间动态平衡延迟和准确性的生产环境。
对于更广泛的高通量应用,谷歌杰玛 4和IBM花岗岩4.0作为主要骨干力量。Gemma 4 为一般知识和科学准确性提供了最高的“情报密度”,使其成为研发和高速聊天界面的最通用选择。
与此同时,IBM花岗岩4.0专为“全天”企业工作负载而设计,利用混合架构消除大量文档处理的上下文瓶颈。对于关注法律合规性和硬件效率的企业来说,Granite 仍然是大规模 RAG 和文档分析的最可靠基础。
所有权作为受监管行业的一个特征
在这种环境下,Arcee 选择 Apache 2.0 许可证是一种有意的差异化行为。与一些竞争对手使用的限制性社区许可证不同,Apache 2.0 允许企业真正拥有自己的情报堆栈,而没有通用聊天模型的“黑匣子”偏见。
卢卡斯·阿特金斯 (Lucas Atkins) 在发布公告中指出:“开发人员和企业需要可以检查、训练后、托管、提炼和拥有的模型。”
这种所有权对于训练小型模型的“惨痛教训”至关重要:您通常需要首先训练大型前沿模型,以生成构建高效学生模型所需的高质量合成数据和逻辑。
此外,Arcee 还发布了 Trinity-Large-TrueBase,一个原始的 10 万亿代币检查点。在应用指令调整和强化学习之前,TrueBase 提供了一种罕见的、“未受破坏的”基础智能视角。对于金融和国防等严格监管行业的研究人员来说,TrueBase 允许从头开始进行真实的审计和自定义调整。
社区裁决和蒸馏的未来
开发者社区的反应基本上是积极的,反映出对更开放的权重、美国制造的 mdoels 的渴望。
在 X 上,研究人员强调了这种破坏,并指出这种尺寸的模型“极其便宜”的价格对于代理社区来说将是一个福音。
在开放的AI模型推理网站上开放路由器,Trinity-Large-Preview 确立了自己作为美国使用量第一的开放模型的地位,在 2026 年 3 月 1 日等高峰日提供了超过 806 亿个代币。
与成本相比,Trinity-Large-Thinking 与 Claude Opus 4.6 在 PinchBench 上的接近程度(分别为 91.9 和 93.3)尤其引人注目。按照每百万输出代币 0.90 美元的价格,Trinity 比 Opus 4.6 便宜约 96%,后者每百万输出代币的成本为 25 美元。
Arcee 的策略现在集中于将这些训练前和训练后课程重新纳入堆栈。Trinity Large 的大部分工作现在将流入 Mini 和 Nano 模型中,通过前沿推理的提炼来刷新该公司的紧凑型产品线。
随着全球实验室转向专有锁定,Arcee 将 Trinity 定位为主权基础设施层,开发人员最终可以控制和适应长期代理工作流程。