英语轻松读发新版了,欢迎下载、更新

分解Grok 3:可以重新定义行业的AI模型

2025-02-20 00:03:00 英文原文

作者:Ben Dickson

A representation of Elon Musk with a robot

用机器人代表埃隆·马斯克(Elon Musk)

图片来源:通过意识形态图

加入我们的每日和每周的新闻通讯,获取有关行业领先的AI覆盖范围的最新更新和独家内容。了解更多


自推出以来不到两年,Xai已经发货了可能是迄今为止最先进的AI模型。Grok 3匹配或击败所有关键基准和用户评估的最先进的模型聊天机器人竞技场,甚至还没有完成培训。 

由于团队尚未发布论文或技术报告,因此我们仍然没有很多有关Grok 3的细节。但是,从Xai在演示文稿中分享的内容,并且基于AI专家的不同实验,我们可以猜测Grok 3在未来几个月内如何影响AI行业。

更快的启动

随着AI实验室之间的竞争增加(只需查看发布DeepSeek-R1),我们可以预期模型释放周期会变短。XAI创始人埃隆·马斯克(Elon Musk)在Grok 3演讲中说,用户几乎每天都会注意到改进,因为我们会不断改进该模型。

'Deepseek和Grok的竞争压力融入了国内外的政治环境中,这将使已建立的领先实验室更快地船舶。内森·兰伯特,机器学习科学家艾伦AI研究所。•竞争的增加和监管减少使我们的用户可能会在时间表上更快地获得强大的AI。”

一方面,这对用户来说可能是一件好事,因为他们不断访问最新,最出色的车型,而不是等待长达一个月的推出。另一方面,它可能会对那些期望模型一致行为的开发人员产生不稳定的效果。以前的研究和用户的经验证据表明,各种模型的各种版本可以对同一提示有不同的反应。 

企业应制定自定义评估并定期运行它们,以确保新的更新不会破坏其应用程序。

扩展法

DeepSeek-R1的最新发布破坏了大公司为创建大型计算集群所做的巨额支出。但是,Xai的突然上升是技术公司在AI加速器中制造的大量投资的证明。Grok 3在创纪录的时间内受到训练,这要归功于XaiCollosus超集团在孟菲斯。

兰伯特写道:``我们没有具体的细节,但是要进行扩展数据点仍然有助于绩效(但也许不付出代价)。”兰伯特写道。Xai的方法和消息传递是尽快在线获得最大的集群。Occam的剃刀解释直到我们有更多细节是有帮助的,但是大多数Grok的性能都可能来自除幼稚缩放以外的其他技术。”

其他分析师已经指出,Xai扩展其计算机群集的能力一直是Grok 3成功的关键。但是,马斯克提到了不仅仅是在工作中扩展。我们必须等待纸张获取全部详细信息。

开源文化

向开放采购大型语言模型(LLM)越来越多的转变。Xai已经开源了1。因此,当Grok 3完全释放时,Grok 2将被开源。(山姆·奥特曼(Sam Altman)也是娱乐开放一些Openai型号的想法。)

Xai还将避免显示Grok 3推理的完整经营链(COT)令牌,以防止竞争对手复制它。相反,它将显示模型推理跟踪的详细概述(如Openai已经完成了O3米尼)。完整的婴儿床只有一旦Xai开源Grok 3就可以使用,这可能是在Grok 4发布之后出现的。

做自己的氛围检查

尽管结果令人印象深刻,但对Grok 3的反应还是混合的。前Openai和Tesla AI科学家Andrej Karpathy将其推理功能与O1-Pro一起放置在最先进的地方,但也指出,它落后于其他最先进的模型,例如创建构图可扩展的向量图形或导航道德问题。

其他用户指出了Grok 3的编码能力中的缺陷与其他型号相比,尽管还有很多grok 3的实例令人印象深刻的编码壮举

根据我在领先模型方面的经验,我建议您进行自己的氛围检查和研究。我从来没有根据一次性提示来判断模型。进行一组测试,以反映您在组织中完成的任务类型(请参阅这里很少)。有了正确的方法,您有可能从这些高级模型中获得最大收益。

每日有关VB每日业务用例的见解

如果您想给老板留下深刻的印象,VB Daily可以为您提供服务。我们为您提供有关公司在制定AI的工作,从监管转变到实际部署的公司,因此您可以分享最大投资回报率的见解。

阅读我们的隐私政策

感谢您的订阅。查看更多VB时事通讯在这里

发生错误。

关于《分解Grok 3:可以重新定义行业的AI模型》的评论


暂无评论

发表评论

摘要

Xai的Grok 3在公司成立后不到两年推出,据称是当今可用的最先进的AI型号之一,匹配或超过领先的基准测试和聊天机器人评估。尽管由于未决的技术报告,细节很少,但专家预测,Grok 3将加速模型释放周期,并强调缩放计算资源以进行AI进步的重要性。XAI计划在竞争对手那里扣除其模型的先前版本,同时扣留竞争对手的完整链条。与其他领先模型相比,对Grok 3的反应已混合在一起,其中一些指出了某些任务的滞后。建议用户根据相关的组织需求进行自己的评估。