中国便宜的，开放的AI模型DeepSeek刺激了科学家

作者：Gibney, Elizabeth

DeepSeek website seen on an iPhone screen. — 去年，中国公司DeepSeek于去年首次亮相了其大语言模型的版本。学分：Koshiro K/Alamy

中文制造的大型语言模型称为DeepSeek-R1与Openai s O1这样的推理模式的负担得起的竞争对手，这是一个令人兴奋的科学家。

这些模型在类似于人类推理的过程中逐步产生响应。这使他们比以前的语言模型更熟练，以解决科学问题，并可能使他们成为在研究中有用。1月20日发布的R1的初步测试表明，其在化学，数学和编码方面的某些任务的执行与O1的相当当研究人员于9月发行时，它震惊了研究人员。

AI研究员兼联合创始人猫AI咨询公司Dair.AI在X上写道。

R1出于另一个原因而脱颖而出。DeepSeek是Hangzhou建立该模型的初创公司，已将其发布为“开放权重”，这意味着研究人员可以在算法上进行研究和构建。该模型根据MIT许可发布，可以自由重复使用，但并未被视为完全开源的，因为尚未提供其培训数据。

德国麦克斯·普朗克（Max Planck）在德国埃尔兰根（Erlangen）的马克斯·普朗克（Max Planck）光学科学研究所的人工科学研究所的领导人马里奥·克伦（Mario Krenn）说。相比之下，O1和其他由Openai在加利福尼亚州旧金山建造的模型包括其最新努力O3他说，本质上是黑匣子。

可以停止幻觉 - 但是这些技术可能会限制其伤害

DeepSeek没有发布培训R1的全部成本，但它向用户收取O1运行费用的三分之一。该公司还创建了R1的迷你蒸馏版本，使计算能力有限的研究人员可以使用该模型。Krenn说，一项实验，O1的价格超过300英镑，R1的成本低于10美元。”这是一个巨大的差异，肯定会发挥其未来采用的作用。

挑战模型

R1是一个中文大语模型（LLM）的繁荣。上个月发布了一个名为V3的聊天机器人时，DeepSeek从对冲基金中脱颖而出，尽管它是基于预算，该聊天机器人的表现优于主要竞争对手。专家估计，租用培训该模型所需的硬件的成本约为600万美元，而Meta S Llama 3.1 405B的6000万美元高达6000万美元，该硬件使用了计算资源的11倍。

DeepSeek周围的嗡嗡声的一部分是，尽管美国出口控件限制了中国公司访问专为AI处理的最佳计算机芯片，但它还是成功地制造了R1。华盛顿西雅图的AI研究人员Franã§oisChollet说，从中国出来的事实表明，与您的资源相比，有效的效率比仅计算规模更重要。

DeepSeek的进步表明，美国贝尔维尤（Bellevue）的技术专家Alvin Wang Graylin写道，华盛顿的技术专家Alvin Wang Graylin在台湾的沉浸式技术公司HTC中写道。，在X上。两国需要采取一种协作方法来建立高级AI与当前的无胜武器竞赛方法继续。”

思想链

LLMS培训数十亿个文本样本，将其剪切成名为“代币”的单词部分，并在数据中学习模式。这些关联允许该模型预测句子中后续令牌。但是LLM倾向于发明事实，一个现象称为幻觉并且经常努力通过问题推理。

OC

中国便宜的，开放的AI模型DeepSeek刺激了科学家

挑战模型

思想链

关于《中国便宜的，开放的AI模型DeepSeek刺激了科学家》的评论

发表评论

摘要

相关新闻

相关讨论