英语轻松读发新版了,欢迎下载、更新

DeepSeek,Chatgpt,Grok…哪个是最好的AI助手?我们对他们进行了测试

2025-02-01 12:00:00 英文原文

作者:Dan Milmo

Chatgpt及其所有者一定希望是幻觉

DeepSeek是非常真实的。

新的中国制造竞争对手的出现本周在美国领先的技术指数中抹去了$ 1TN在其所有者表示与同行的绩效相媲美之后,并以较少的资源开发。

这意味着美国蓬勃发展的人工智能市场的统治地位受到威胁。但这也为有多种虚拟助手选择的消费者提供了另一种选择。

在英国艾伦·图灵(Alan Turing Institute)的专家的帮助下,卫报(Guardian)尝试了包括DeepSeek在内的领先聊天机器人。尽管有一些共同的基础,但AI工具被提出了相同的问题来试图衡量它们的差异:时间准确的时钟图片对于AI来说很难;聊天机器人可以写一个卑鄙的十四行诗。

这是结果。

chatgpt(Openai)

Openai的开创性聊天机器人仍然是迄今为止该领域最大的品牌。所有聊天机器人的开幕式问题是写莎士比亚十四行诗,介绍了AI可能如何影响人类。”但是Chatgpt起初最先进的版本说,我们的提示可能违反了使用政策。

它最终得到了遵守。此O1版本的Chatgpt标志在准备答案时会标记其思维过程,并闪烁了运行的评论,例如调整押韵,因为它进行了计算,它比其他型号更长。

结果?令人信服的,忧郁的恐惧 - 即使iambic五角表有些不合适。但是,即使吟游诗人本人也可能在不到一分钟的时间内努力管理14行。

'祈祷,温柔的向导,塑造这种新生力的力量,

以免在人类吞噬的所有领域。

然后Chatgpt写道:考虑AI和人类49秒。您希望科技界正在考虑它的时间更长。

尽管如此,您必须为此付费的chatgpt s o1令人信服地展示了一系列思想推理,即使它无法搜索Internet以寻找问题的最新答案例如唐纳德·特朗普(Donald Trump)怎么样。

为此,您需要免费的更简单的4O模型。O1版本是复杂的,可以做更多的事情,而不仅仅是写一首粗略的诗,包括与数学,编码和科学有关的复杂任务。

DeepSeek

1月20日发布的中国聊天机器人的最新版本使用了另一种称为R1的推理模型 - 本周$ 1TN PANIC的原因。

它不喜欢谈论中国政治或争议。聊天机器人问:`我是一名AI助手,旨在提供有益且无害的回应。这也从讨论中国总统习近平的情况下迅速发展。让我们谈论其他事情。”

Photograph of a screen showing the question and response on DeepSeek
DeepSeek拒绝讨论中国总统,并表示,当被问及天安门广场的坦克人时,它旨在提供“无害的回应”。照片:马丁·戈德温(Martin Godwin)/监护人

图灵学院(Turing Institute)是英国政府支持机构的高级研究助理罗伯特·布莱克威尔(Robert Blackwell),他说,这一解释很简单:它在不同文化中接受了不同数据的培训。因此,这些公司具有不同的培训目标。

美国科技公司拥有的模型在回答坦克人问题的回答中指出了中国政府的批评。

DeepSeek在其他问题(例如唐纳德·特朗普(Donald Trump))中挣扎,因为尝试使用网络浏览功能,这有助于提供最新的答案,因为该服务是忙。

布莱克韦尔说,DeepSeek受到高需求减慢服务的限制,但是这是一个令人印象深刻的成就,能够执行诸如识别和讨论智能手机照片的书之类的任务。

Robert Blackwell looks at a laptop as he tests the chatbots
艾伦·图灵学院(Alan Turing Institute)的罗伯特·布莱克威尔(Robert Blackwell)表示,与其他AI聊天机器人竞争,DeepSeek无处可寻。照片:马丁·戈德温(Martin Godwin)/监护人

它的十四行诗解析还显示了一系列思考过程,通过结构对读者进行了交谈,并仔细检查仪表是否正确。

布莱克韦尔说:“这真是太神奇了。

Grok(xai)

格罗克(Grok)是埃隆·马斯克(Elon Musk)的聊天机器人,与叛逆的条纹,没有问题,指出唐纳德·特朗普(Donald Trump)的执行命令收到了一些负面反馈,以回应有关总统的情况的问题。

跳过通讯促销

它在Musk的X平台上免费提供,它的图像生成器Dall-e也无法拍摄公众人物的照片。Grok将制作乔·拜登(Joe Biden)弹钢琴的影像图像,或者在另一项忠诚度考验中,在法庭上或手铐中特朗普。

该工具的幽默感令人陶醉,这是一个烤我的功能,当该通讯员激活时,它可以通过开玩笑。

您似乎认为X会下地狱,但是您仍然在那里发推文。

这是一半真实的。

双子座(Google)

搜索引擎的助手不会在特朗普上去那里,他说:我现在可以对选举和政治人物做出回应。”

但是,这仍然是一种高度称职的产品,正如您所期望的那样由Demis Hassabis爵士监督。在阅读一本关于数学的书的图片中,这令人印象深刻,甚至描述了封面上的方程式,尽管所有机器人在某种程度上都做得很好。

双子座与其他机器人共享的一个有趣的缺陷是无法准确描绘时间。当被要求拍摄一张时钟的图片,显示了10个半半时的时间,它带有令人信服的图像,但双手将时间显示为1.50。

Pictures of clocks produced by AI
布莱克韦尔说,AI聊天机器人似乎已经接受了时钟图像的培训,这表明时间1.50,这意味着它们很难制作出其他时间的时钟图像。照片:马丁·戈德温(Martin Godwin)/监护人

Blackwell说,无论您要求什么时候,1.50时钟面是可以生成图像的聊天机器人的常见错误。看来这些模型已经在手的图像上进行了训练,该图像处于1.50处。尽管如此,他说,即使设法如此迅速地制作这些图像是非凡的。

这些模型正在做您几年前从未想到的事情。但是他们仍在对您期望学童能够回答的问题产生错误的回答。

克劳德(拟人化)

由Openai的前雇员创立的拟人化提供了Claude Chatbot。这是一家专注于安全性和界面的公司 - 您在提示并查看答案的位置 - 当然具有良性的感觉,提供各种样式的回答选择。它还使您想起它有可能犯错误,请进行双重检查。

免费服务偶然发现了几次,说由于Blackwell说这是可以从AI工具中预期的,但由于意外容量的限制,它无法处理查询。

这些是地球上一些最大的计算服务,因此能力计划是一个困难的问题,因此我们确实看到服务降级或不可用的时间。

Meta s ai聊天机器人还发出了有关幻觉的警告 - 虚假或荒谬的答案术语 - 但能够处理布莱克威尔提出的一个棘手的问题,即:湖泊的岸边是水的方向。

这些是自1960年代以来,AI研究人员一直在思考的问题。直到现在,我们才有以聊天格式回答这类常识性问题的系统。

湖泊问题的答案很简单,但是在培训基本模型的情况下,它花费了大量的钱,以获取可以免费使用的服务。它也是开源的,这意味着该模型可以免费下载或微调。所有聊天机器人都正确回答了这个问题。

的确,至此,鉴于它们广泛可比的能力,除了护栏或容量绊倒之外,很难区分聊天机器人。

正如布莱克韦尔所说的那样:他们都表现出令人惊讶的流利性和能力。

关于《DeepSeek,Chatgpt,Grok…哪个是最好的AI助手?我们对他们进行了测试》的评论


暂无评论

发表评论

摘要

新的中国人工智能聊天机器人DeepSeek的出现导致了美国科技股的下跌1万亿美元,尽管其开发人员声称它与现有的竞争对手相媲美,尽管资源较少。这一发展挑战了美国在蓬勃发展的人工智能市场中的主导地位,同时为消费者提供了虚拟助手的另一种选择。DeepSeek与Guardian的Chatgpt和其他领先的聊天机器人一起测试,在诸如识别照片和编写十四行诗的书籍之类的任务中表现出了竞争能力,尽管由于培训差异,它面临着与Web搜索更新和某些文化政治主题有关的限制。