英语轻松读发新版了,欢迎下载、更新

阿里巴巴的AI Model Qwen3:一个容易幻觉的聪明的孩子 - 亚洲时报

2025-05-02 22:06:28 英文原文

作者:Jeff Pao

阿里巴巴集团的新发行的大语言模型QWEN3比以前的模型和一些美国同行显示出更高的数学支持和代码编写能力,将其置于基准图表的顶部。 qwen3

优惠两种混合物(MOE)型号(QWEN3-235B-A22B和QWEN3-32B-A3B)和六个密集模型。” Openai的Chatgpt和Anthropic的Claude也可以使用专门的专家模型来回答有关特定主题的问题。

密集的模型可以通过学习数据中的复杂模式来执行广泛的任务,例如图像分类和自然语言处理。

总部位于杭州的公司阿里巴巴使用36万亿代币来训练Qwen3,使训练QWEN2.5型号的数字翻了一番。DeepSeek是另一家总部位于杭州的公司,使用了14.8万亿个令牌来训练其R1型号。使用的令牌数量越高,AI模型的知识越越多。

同时,QWEN3的部署阈值低于DeepSeek V3,这意味着用户可以以较低的运营成本和减少的能源消耗来部署它。

QWEN3-235B-A22B具有2350亿个参数,但仅需要220亿个参数。DeepSeek R1具有6710亿个参数,需要激活370亿。较少的参数意味着较低的操作成本。

DeepSeek于1月20日推出了R1车型后,美国的股票市场暴跌。AI股票投资者对DeepSeek R1的高性能和低培训成本感到震惊。

媒体报告DeepSeek将在5月推出其R2模型。一些AI粉丝期望DeepSeek R2的推理能力比R1具有更大的推理能力以及赶上Openai O4-Mini的能力。

荒谬的基准黑客

自阿里巴巴(Alibaba)于4月29日凌晨发布QWEN3以来,AI粉丝已经进行了各种测试以检查其性能。

长扬晚上新闻报告该QWEN3在LiveCodeBench V5上得分为70.7,该V5测试了AI模型编写能力。这击败了DeepSeek R1(64.3),Openai O3-Mini(66.3),Gemini2.5 Pro(70.4)和Grok 3 Beta(70.6)。

在测试AI模型防学能力的Aimeâ24上,Qwen3得分为85.7,比DeepSeek R1(79.8),OpenAi O3-Mini(79.6)和Grok 3 Beta(83.9)更好。但是,它落后于Gemini2.5 Pro,后者得分为92。

报纸记者发现,Qwen3无法处理复杂的推理任务,并且在某些领域缺乏知识,从而导致了幻觉,这是AI模型提供错误信息的典型情况。

我们要求qwen3用中文写一些故事。我们认为,这些故事比以前的AI模型所写的故事更精致,流利,但是它们的流程和场景是不合逻辑的。”AI模型似乎在不思考的情况下将所有内容整合在一起。

就科学推理而言,qwen33得分70%,落后于Gemini 2.5 Pro(84%),OpenAi O3-Mini(83%),Grok 3 Mini(79%)和DeepSeek R1(71%)(71%),根据人工分析,一家独立的AI基准和分析公司。 

在人类的推理和知识方面,QWEN3得分为11.7%,击败了Grok 3 Mini(11.1%),Claude 3.7(10.3%)和DeepSeek R1(9.3%)。但是,它仍然落后于Openai O3-Mini(20%)和Gemini 2.5 Pro(17.1%)。

今年2月,微软首席执行官萨蒂亚·纳德拉(Satya Nadella)表示,关注自称的里程碑,例如实现人工通用情报(AGI),只是一种非敏感基准黑客的一种形式。 

他说,只有在有助于实现国内生产总值10%的年度增长10%的情况下,AI模型才能宣布胜利。 

筹码短缺

尽管中国人工智能公司需要更多的时间来赶上美国球员,但他们面临着新的挑战 - 不足的AI芯片。

在4月初,中国媒体报告据报道,这种野蛮人,阿里巴巴和腾讯从NVIDIA下令以160亿元人民币(22亿美元)的价格从NVIDIA订购了100,000多个芯片。

4月15日,NVIDIA美国政府告知,该公司将需要许可将其H20 AI芯片运送到中国。政府引用了中国公司在超级计算机中使用H20芯片的风险。

信息报告5月2日,NVIDIA告诉其中一些中国最大的客户正在调整其AI芯片的设计,以便他们可以继续将AI芯片运送到中国。新芯片的样本最早将在6月提供。

NVIDIA已经为中国市场定制了AI芯片多次。华盛顿在2022年10月将A100和H100芯片的出口限制为将A800和H800芯片出口到中国。但是,美国政府在2023年10月扩大了其出口管制,以覆盖它们。然后,NVIDIA宣布了H20。

尽管H20的性能仅相当于H100的15%,但中国公司仍在急于购买它,而不是华为的上升910B芯片,由于生产率较低,该芯片的供应量有限。

中国IT专栏作家上升910b的芯片比H20更快,但是H20的带宽是910b的十倍。他说,在AI芯片中具有更高的带宽,就像跑车中更好的变速箱一样,可以取得更稳定的性能。

电子技术的应用,中国科学期刊,中国的人工智能公司可以尝试使用本土芯片,例如坎布里孔技术(Siyuan)590,Hygon Information Technology的DCU系列,Moore Threads MTT S80,Biren Technology S BR104或Huawei即将推出的910C.Ascend 910c。 

阅读:深seek之后:中国的马努斯 - 聚光灯下的热门AI

关于《阿里巴巴的AI Model Qwen3:一个容易幻觉的聪明的孩子 - 亚洲时报》的评论


暂无评论

发表评论

摘要

阿里巴巴集团(Alibaba Group)发布了QWEN3,这是一种大型语言模型,优于以前的版本,在数学证明和代码写作能力方面的一些美国同行。它包括两个型号的混合物(MOE)型号和六个密集的型号,这些模型在36万亿个代币中训练,使其前身的训练数据增加了一倍。与DeepSeek V3相比,QWEN3的部署成本和能源消耗较低。测试表明,QWEN3在LiveCodeBench V5和Aime’24基准测试中表现出色,但在复杂的推理任务中落后于Gemini2.5 Pro。由于美国出口限制,中国人工智能公司面临芯片短缺,导致他们寻求诸如国内芯片或修改的NVIDIA H20 AI芯片之类的替代方案。