作者:Kyle Wiggers
中国科技公司阿里巴巴周一发行Qwen3是该公司声称的AI家族模型,在某些情况下,其表现优于Google和Openai可用的最佳型号。
大多数模型是从AI Dev Platform的开放许可下下载的或很快可下载的拥抱脸和github。它们的大小从6亿到2350亿个参数不等。参数大致对应于模型解决问题的技能,并且具有更多参数的模型通常比具有较少参数的模型更好。
像QWEN这样的中国原始模型系列的兴起增加了对OpenAI等美国实验室的压力,以提供更有能力的AI技术。他们还导致决策者实施旨在限制中国人工智能公司获得能力的限制筹码 必要的训练模型。
介绍Qwen3!
我们发布和开放量Qwen3,这是我们最新的大型语言模型,包括2个MOE型号和6个密集的型号,范围从0.6B到235B不等。我们的旗舰模型QWEN3-235B-A22B,在编码,数学,一般的基准评估中取得了竞争性的结果。pic.twitter.com/jwzkjehwhc
qwen(@alibaba_qwen)2025年4月28日
根据阿里巴巴的说法,QWEN3模型是混合模型,从某种意义上说,它们可以花费时间和理由来通过复杂的问题或快速回答更简单的请求。推理使模型能够有效地进行事实检查,类似于Openai的模型O3,但以更高的延迟为代价。
``我们拥有无缝整合的思维和非思考模式,为用户提供了控制思维预算的灵活性,'博客文章。此设计使用户可以更轻松地配置特定于任务的预算。
其中一些模型还采用了专家(MOE)体系结构的混合,这对于回答查询更有效。Moe将任务分解为子任务,并将其委派给较小的专业模型。
阿里巴巴说,QWEN3模型支持119种语言,并接受了近36万亿代币的数据集的培训。令牌是模型处理的数据的原始数据。100万个令牌相当于约750,000个单词。阿里巴巴说,QWEN3经过教科书,问答对,代码片段,AI生成的数据等组合进行了培训。
阿里巴巴说,这些改进与其他改进相比,与其前身Qwen2相比,这些改进大大提高了Qwen3的能力。QWEN3模型都没有头部和肩膀高于Openai S O3和O4-Mini的最新模型,但它们表现强劲。
在CodeForces是一个用于编程比赛的平台上,最大的QWEN3型号QWEN-3-235B-A22B只是击败了OpenaiO3米尼和Google双子座2.5 Pro。QWEN-3-235B-A22B还最新版本的AIME(一种具有挑战性的数学基准)和BFCL最新的O3-Mini,是评估模型对问题的推理能力的测试。
但是QWEN-3-235B-A22B至少尚未公开可用。
最大的公共QWEN3型号QWEN3-32B仍然具有许多专有和开放的AI模型,包括中国AI Lab DeepSeek的模型R1。QWEN3-32B超过OpenaiO1在几个测试中进行模型,包括编码基准livecodebench。
阿里巴巴说,Qwen3符合工具称呼功能以及按照说明并复制特定数据格式。除了下载模型外,QWEN3还可以从云提供商(包括烟火AI和双曲线)上获得。
AI Cloud Host Baseten的联合创始人兼首席执行官Tuhin Srivastava表示,QWEN3是开放模型的趋势线的另一点,以与OpenAi等封闭的源系统保持同步。
他告诉TechCrunch,美国将在限制筹码向中国的销售限制在中国和从中国购买,但是像Qwen 3这样的模型无疑将在国内使用。
Kyle Wiggers是TechCrunch的AI编辑。他的写作出现在VentureBeat和数字趋势中,以及一系列小工具博客,包括Android警察,Android Authority,Droid-Life和XDA-Developers。他与他的伴侣,音乐治疗师一起住在曼哈顿。