埃隆·马斯克 (Elon Musk) 的 Grok 在人工智能可靠性研究中创下了最低的幻觉率记录

2025-12-24 13:41:15 英文原文

作者:Simon Alvarez

Grok 的幻觉率为 8%,客户评级为 4.5,一致性为 3.5,停机时间为 0.07%,总体风险评分仅为 6。

英国政府,CC BY 2.0,来自维基共享资源

赌场游戏聚合商 Relum 于 2025 年 12 月进行的一项研究表明,埃隆·马斯克 (Elon Musk) 的 Grok 是工作场所使用的最可靠的人工智能聊天机器人之一,在测试的 10 个主要模型中,其幻觉率最低,仅为 8%。 

相比之下,市场领导者 ChatGPT 的幻觉率最高,达到 35%,仅次于 Google 的 Gemini,后者的幻觉率高达 38%。

尽管人工智能模型的市场知名度较低,但调查结果凸显了 Grok 的事实实力。

Grok 的幻觉指标最高

研究对聊天机器人的幻觉率、客户评级、响应一致性和停机率进行了评估。然后,聊天机器人被分配了从 0 到 99 的可靠性风险评分,分数越高表明问题越大。

Grok 达到了 8%幻觉率、4.5 的客户评级、3.5 的一致性和 0.07% 的停机时间,总体风险评分仅为 6。DeepSeek 紧随其后,幻觉率为 14%,停机时间为零,风险评分为 4。ChatGPT 的高幻觉和停机率使其风险评分最高,为 99,其次是 Claude 和 Meta AI,可靠性风险评分分别为 75 和 70。分别。 

为什么低幻觉很重要

雷鲁姆首席产品官 Razvan-Lucian Haiduc 分享了他对该研究结果的看法。– 大约 65% 的美国公司现在在日常工作中使用人工智能聊天机器人,近 45% 的员工承认他们曾使用这些工具共享敏感的公司信息。这些数字很好地表明了聊天机器人在日常工作中的重要性。 

– 对人工智能工具的依赖可能会进一步增加,因此公司应根据聊天机器人的可靠性和适合其特定业务需求的程度来选择聊天机器人。每个人都使用的聊天机器人不一定最适合您的行业或为您的任务提供准确的答案。”

在某种程度上,该研究揭示了人工智能聊天机器人的受欢迎程度和性能之间的显着差距,Grok 的低幻觉率使其成为精度关键型应用程序的有力选择。尽管事实上 Grok 的用户使用率并不高,至少与 ChatGPT 等更主流的人工智能应用程序相比是这样。 

西蒙是一位经验丰富的汽车记者,对电动汽车和清洁能源充满热情。他对埃隆·马斯克设想的世界着迷,希望有一天能够到达火星(至少作为游客)。如需故事或提示,甚至只是简单的打个招呼,请向他的电子邮件发送消息,simon@teslarati.com或者他在 X 上的手柄,@ResidentSponge

埃隆·马斯克

这一里程碑凸显了 Starlink 的加速增长,目前每天新增用户超过 20,000 名。

已发表

1 分钟前

2025 年 12 月 24 日

图片来源:星链/X

SpaceX 的 Starlink 卫星互联网服务继续在全球快速扩张,活跃客户数在突破 800 万大关几周后就突破了 900 万。 

这一里程碑凸显了 Starlink 的加速增长,目前每天新增用户超过 20,000 名。

900 万客户

SpaceX 在 X 上的一篇帖子中表示,Starlink 目前为 155 个国家、地区和市场的超过 900 万活跃用户提供服务。该公司在 11 月初的客户数量达到 800 万,这意味着在不到 7 周的时间内增加了大约 100 万订户,即平均每天新增用户约 21,275 名。 

“Starlink 正在将 155 个国家、地区和许多其他市场的超过 900 万活跃客户与高速互联网连接起来,”Starlink 在其官方 X 帐户上的一篇文章中写道。SpaceX 总裁格温·肖特韦尔 (Gwynne Shotwell) 也表示庆祝里程碑“非常感谢我们所有的客户,并祝贺 Starlink 团队推出了如此令人难以置信的产品,”她写道。 

这一增长率同时反映了需求增加服务欠缺地区的宽带和 Starlink 不断扩大的卫星星座,该星座目前包括 9,000 多颗低地球轨道卫星,旨在在全球范围内提供高速、低延迟的互联网。

星链的势头

星链的势头一直在增强。SpaceX 报告称,2024 年 12 月 Starlink 客户数量为 460 万,随后到 2025 年 8 月达到 700 万,11 月达到 800 万。独立数据还表明 Starlink 使用量正在急剧上升,Cloudflare 报告称,正如一份报告中指出的那样,Starlink 用户的全球网络流量在 2025 年增加了一倍多内幕报告。

Starlink 的发展势头与 SpaceX 更广泛的财务前景越来越紧密地联系在一起。埃隆·马斯克曾表示,卫星网络是“迄今为止”该公司最大的收入驱动因素,有报道称 SpaceX 可能会最早在明年进行首次公开​​募股,估值高达 1.5 万亿美元。马斯克过去还曾暗示,星链未来可能会进行自己的首次公开募股。 埃隆·马斯克

如果马斯克的时间表被证明是准确的,FSD 将能够从明年开始在中东地区饱和,从阿联酋开始。 

已发表

2 天前

2025 年 12 月 22 日

特斯拉首席执行官埃隆·马斯克 (Elon Musk) 周一表示,全自动驾驶(受监督)最早可能于 2026 年 1 月在阿拉伯联合酋长国 (UAE) 推出。 

如果马斯克的时间表被证明是准确的,FSD 将能够从明年开始在中东地区饱和,从阿联酋开始。 

马斯克的估计

在一个

在 X 上发帖阿联酋政治分析师艾哈迈德·谢里夫·阿米里 (Ahmed Sharif Al Amiri) 询问马斯克 FSD 何时抵达该国,并引用了首席执行官之前鼓励用户亲自尝试 FSD 的帖子。马斯克直接回应了分析师的询问。 

“希望是下个月,”马斯克写道。此次交流引起了广泛关注,众多 X 用户分享了他们对将 FSD 引入新国家的想法的兴奋之情。毕竟,在迪拜和阿布扎比等交通繁忙的城市,FSD(监督)可能会允许在驾驶员监督下进行高速公路驾驶、城市导航和停车。

马斯克对 FSD 抵达阿联酋的评论是在他访问中东国家后发布的。周末,网上分享了马斯克与阿联酋国​​防部长、副总理和迪拜王储谢赫·哈姆丹·本·穆罕默德殿下会面的图片。马斯克还在 X 上发布了一条关于该国的支持信息,并发布了“阿联酋太棒了!”。

FSD识别

FSD得到了国外媒体的大力支持。FSD(受监督)获得德国专家的高度评价最大的汽车杂志,汽车画报,在柏林充满挑战的城市环境中进行的测试中。此次演示凸显了该系统能够处理密集的交通、建筑工地、人行横道和狭窄的街道,并做出平稳、自信的决策。

记者罗宾·霍尼格 (Robin Hornig) 对 FSD 卓越的洞察力和孜孜不倦的关注感到尤为震惊,他表示:“特斯拉 FSD Supervised 看到的比我多。”它不会分心,也不会感到疲倦。我喜欢认为自己是一名优秀的驾驶员,但我无法与该系统的全方位视野相匹配。当两者一起工作时,效果会达到最佳:我的经验和特斯拉的持续关注。当系统误读路线时,只需要一次干预,展示其成熟度,同时依赖于纯视觉传感器和无线学习。

埃隆·马斯克

一致的决定批评之前的全面废除是“不适当和不公平的”,认为这让马斯克在特斯拉六年的变革性领导中得不到补偿。

已发表

5天前

2025 年 12 月 19 日

盖奇·斯基德莫尔 (Gage Skidmore),CC BY-SA 4.0,来自 Wikimedia Commons

特拉华州最高法院推翻了下级法院的裁决,恢复了埃隆·马斯克 2018 年的薪酬方案,最初价值 560 亿美元,但由于特斯拉股价飙升,目前价值约 1390 亿美元。 

一致的决定批评之前的全面废除是“不适当和不公平的”,认为这让马斯克在特斯拉六年的变革性领导中得不到补偿。马斯克快点庆祝X 的结果表示他感到“被证明是正确的”。他还向 TSLA 股东表示感谢。

特拉华州最高法院做出决定

在周五一份长达 49 页的裁决中,特拉华州最高法院推翻了总理凯瑟琳·麦考密克 (Kathaleen McCormick) 2024 年的决定,该决定因涉嫌董事会冲突和股东披露不充分而导致 2018 年一揽子计划无效。高等法院承认对责任有不同的看法,但同意撤销是过度的,并表示这“让马斯克在六年的时间和努力中得不到补偿。”

2018 年的计划在达到激进的里程碑时授予马斯克约 3.04 亿股股票的期权,所有这些都是提前实现的。股东最初于 2018 年以压倒性多数批准了该法案,并在特拉华州下级法院驳回后于 2024 年再次批准。针对马斯克 2018 年薪酬方案的诉讼由原告理查德·托内塔 (Richard Tornetta) 提起,在薪酬计划获得批准时,他仅持有 9 股。

来之不易的胜利

如a中所述路透社报告称,特斯拉的胜利避免了因按当前价格取代该奖项而可能造成的 260 亿美元收益损失。目前在德克萨斯州注册成立的特斯拉曾通过临时计划进行对冲,其中包括 2025 年 11 月股东批准的一项计划,该计划可能价值 8780 亿美元,与 Robotaxi 和 Optimus 目标以及其他极其激进的运营里程碑相关。

围绕埃隆·马斯克 (Elon Musk) 2018 年薪酬方案的传奇最终损害了特拉华州的企业吸引力,促使 Dropbox、Roblox、Trade Desk 和 Coinbase 等许多知名公司跟随特斯拉撤离该州。更火上浇油的是,Tornetta 的法律团队在下级法院 2024 年做出裁决后,要求费用要求价值超过 51 亿美元的 TSLA 股票,相当于每小时超过 20 万美元。

特拉华州最高法院埃隆·马斯克 2018 年薪资套餐通过西蒙·阿尔瓦雷斯

关于《埃隆·马斯克 (Elon Musk) 的 Grok 在人工智能可靠性研究中创下了最低的幻觉率记录》的评论


暂无评论

发表评论

摘要

Relum 于 2025 年 12 月进行的一项研究发现,埃隆·马斯克 (Elon Musk) 的 Grok AI 聊天机器人是测试的 10 个主要模型中最适合在工作场所使用的可靠机器人,其幻觉率为 8%,可靠性风险评分仅为 6。相比之下,ChatGPT 的幻觉率为 35%,最高风险评分为 99。该研究强调了 Grok 的事实准确性,尽管市场知名度较低。此外,SpaceX 还宣布 Starlink 的活跃客户数量已超过 900 万,遍布 155 个国家,自 11 月以来每天新增超过 20,000 名新用户。这一增长归因于宽带需求的增长和卫星星座的扩大。埃隆·马斯克还在 X 上表示,全自动驾驶(FSD)最早可能于 2026 年 1 月在阿联酋推出,这标志着其国际扩张迈出了重要一步。埃隆·马斯克