英语轻松读发新版了,欢迎下载、更新

中国便宜的,开放的AI模型DeepSeek刺激了科学家

2025-01-23 16:34:22 英文原文

作者:Gibney, Elizabeth

DeepSeek website seen on an iPhone screen.

去年,中国公司DeepSeek于去年首次亮相了其大语言模型的版本。学分:Koshiro K/Alamy

中文制造的大型语言模型称为DeepSeek-R1与Openai s O1这样的推理模式的负担得起的竞争对手,这是一个令人兴奋的科学家。

这些模型在类似于人类推理的过程中逐步产生响应。这使他们比以前的语言模型更熟练,以解决科学问题,并可能使他们成为在研究中有用。1月20日发布的R1的初步测试表明,其在化学,数学和编码方面的某些任务的执行与O1的相当当研究人员于9月发行时,它震惊了研究人员

AI研究员兼联合创始人猫AI咨询公司Dair.AI在X上写道。

R1出于另一个原因而脱颖而出。DeepSeek是Hangzhou建立该模型的初创公司,已将其发布为“开放权重”,这意味着研究人员可以在算法上进行研究和构建。该模型根据MIT许可发布,可以自由重复使用,但并未被视为完全开源的,因为尚未提供其培训数据。

德国麦克斯·普朗克(Max Planck)在德国埃尔兰根(Erlangen)的马克斯·普朗克(Max Planck)光学科学研究所的人工科学研究所的领导人马里奥·克伦(Mario Krenn)说。相比之下,O1和其他由Openai在加利福尼亚州旧金山建造的模型包括其最新努力O3他说,本质上是黑匣子。

DeepSeek没有发布培训R1的全部成本,但它向用户收取O1运行费用的三分之一。该公司还创建了R1的迷你蒸馏版本,使计算能力有限的研究人员可以使用该模型。Krenn说,一项实验,O1的价格超过300英镑,R1的成本低于10美元。”这是一个巨大的差异,肯定会发挥其未来采用的作用。

挑战模型

R1是一个中文大语模型(LLM)的繁荣。上个月发布了一个名为V3的聊天机器人时,DeepSeek从对冲基金中脱颖而出,尽管它是基于预算,该聊天机器人的表现优于主要竞争对手。专家估计,租用培训该模型所需的硬件的成本约为600万美元,而Meta S Llama 3.1 405B的6000万美元高达6000万美元,该硬件使用了计算资源的11倍。

DeepSeek周围的嗡嗡声的一部分是,尽管美国出口控件限制了中国公司访问专为AI处理的最佳计算机芯片,但它还是成功地制造了R1。华盛顿西雅图的AI研究人员Franã§oisChollet说,从中国出来的事实表明,与您的资源相比,有效的效率比仅计算规模更重要。

DeepSeek的进步表明,美国贝尔维尤(Bellevue)的技术专家Alvin Wang Graylin写道,华盛顿的技术专家Alvin Wang Graylin在台湾的沉浸式技术公司HTC中写道。,在X上。两国需要采取一种协作方法来建立高级AI与当前的无胜武器竞赛方法继续。”

思想链

LLMS培训数十亿个文本样本,将其剪切成名为“代币”的单词部分,并在数据中学习模式。这些关联允许该模型预测句子中后续令牌。但是LLM倾向于发明事实,一个现象称为幻觉并且经常努力通过问题推理。

关于《中国便宜的,开放的AI模型DeepSeek刺激了科学家》的评论


暂无评论

发表评论

摘要

DeepSeek-R1是中国初创企业DeepSeek的开源大型语言模型,它的负担能力和性能与OpenAI在化学,数学和编码等科学任务中的O1相当。研究人员于1月20日根据MIT许可发布,可以研究并以R1的算法为基础,但不使用其培训数据。这种开放性与Openai的模型形成鲜明对比,Openai被认为是黑匣子。DeepSeek向用户收取大约三分之一的O1运行费用,即使对于有限的计算能力的人来说,它也可以使用。R1的开发强调了中国在AI资源管理方面的效率,尽管美国对专为AI处理的计算机芯片进行了出口控制,这表明美国与中国在先进的AI技术方面的差距狭窄。