
可以停止幻觉 - 但是这些技术可能会限制其伤害
作者:Gibney, Elizabeth
去年,中国公司DeepSeek于去年首次亮相了其大语言模型的版本。学分:Koshiro K/Alamy
中文制造的大型语言模型称为DeepSeek-R1与Openai s O1这样的推理模式的负担得起的竞争对手,这是一个令人兴奋的科学家。
这些模型在类似于人类推理的过程中逐步产生响应。这使他们比以前的语言模型更熟练,以解决科学问题,并可能使他们成为在研究中有用。1月20日发布的R1的初步测试表明,其在化学,数学和编码方面的某些任务的执行与O1的相当当研究人员于9月发行时,它震惊了研究人员。
AI研究员兼联合创始人猫AI咨询公司Dair.AI在X上写道。
R1出于另一个原因而脱颖而出。DeepSeek是Hangzhou建立该模型的初创公司,已将其发布为“开放权重”,这意味着研究人员可以在算法上进行研究和构建。该模型根据MIT许可发布,可以自由重复使用,但并未被视为完全开源的,因为尚未提供其培训数据。
德国麦克斯·普朗克(Max Planck)在德国埃尔兰根(Erlangen)的马克斯·普朗克(Max Planck)光学科学研究所的人工科学研究所的领导人马里奥·克伦(Mario Krenn)说。相比之下,O1和其他由Openai在加利福尼亚州旧金山建造的模型包括其最新努力O3他说,本质上是黑匣子。
可以停止幻觉 - 但是这些技术可能会限制其伤害
DeepSeek没有发布培训R1的全部成本,但它向用户收取O1运行费用的三分之一。该公司还创建了R1的迷你蒸馏版本,使计算能力有限的研究人员可以使用该模型。Krenn说,一项实验,O1的价格超过300英镑,R1的成本低于10美元。”这是一个巨大的差异,肯定会发挥其未来采用的作用。
R1是一个中文大语模型(LLM)的繁荣。上个月发布了一个名为V3的聊天机器人时,DeepSeek从对冲基金中脱颖而出,尽管它是基于预算,该聊天机器人的表现优于主要竞争对手。专家估计,租用培训该模型所需的硬件的成本约为600万美元,而Meta S Llama 3.1 405B的6000万美元高达6000万美元,该硬件使用了计算资源的11倍。
DeepSeek周围的嗡嗡声的一部分是,尽管美国出口控件限制了中国公司访问专为AI处理的最佳计算机芯片,但它还是成功地制造了R1。华盛顿西雅图的AI研究人员Franã§oisChollet说,从中国出来的事实表明,与您的资源相比,有效的效率比仅计算规模更重要。
DeepSeek的进步表明,美国贝尔维尤(Bellevue)的技术专家Alvin Wang Graylin写道,华盛顿的技术专家Alvin Wang Graylin在台湾的沉浸式技术公司HTC中写道。,在X上。两国需要采取一种协作方法来建立高级AI与当前的无胜武器竞赛方法继续。”
LLMS培训数十亿个文本样本,将其剪切成名为“代币”的单词部分,并在数据中学习模式。这些关联允许该模型预测句子中后续令牌。但是LLM倾向于发明事实,一个现象称为幻觉并且经常努力通过问题推理。