英语轻松读发新版了,欢迎下载、更新

DeepSeek在R2模型的预期中揭示了新的AI推理方法

2025-04-05 23:00:19 英文原文

人工智能(AI)启动DeepSeek随着公众在等待公司的下一代模型的发布,提出了一种提高大语言模型(LLM)推理能力(LLM)的推理能力的新方法。根据周五发表的一篇论文,DeepSeek与Tsinghua University的研究人员合作开发了一种技术,该技术结合了所谓的生成奖励建模(GRM)和自我宣传的评论调整。

双重方法旨在使LLM能够为一般查询提供更好,更快的结果。

研究人员写道,由此产生的DeepSeek-Grm模型优于现有方法,并通过强大的公共奖励模型实现了竞争性能。奖励建模是一个指导LLM对人类偏好的过程。

研究人员说,DeepSeek打算将GRM模型开源,但他们没有给出时间表。

该学术论文发表在在线科学论文存储库ARXIV上,这是在猜测该公司V3基金会模型和R1推理模型所吸引的全球关注之后的下一步行动的猜测。

路透社上个月报道说,R1的继任者DeepSeek-R2可能会在本月最快发布,因为该公司急于利用其上升的个人资料。DeepSeek-R1的发布以其具有成本效益的表现与领先的模型相比震撼了全球科技界。

DeepSeek对传闻的R2发行保持沉默。中国媒体上个月报道说,它没有通过官方公共渠道对此事进行评论,但是客户服务帐户在与商业客户的小组聊天中拒绝了该报告。

关于《DeepSeek在R2模型的预期中揭示了新的AI推理方法》的评论


暂无评论

发表评论

摘要

中国AI初创公司DeepSeek推出了一种创新的方法,通过结合生成奖励建模(GRM)和自我启示的批评调整,从而增强了大型语言模型的推理能力,该批评是由Tsinghua大学研究人员开发的。这种方法旨在提高对一般查询的响应速度和质量。初步结果表明,DeepSeek-Grm模型与性能中强大的公共奖励模型相匹配。该公司计划在其V3基金会和R1推理模型的成功之后,很快就会发布其下一代模型,该模型因其具有成本效益的绩效而引起了全球的重要关注。尽管猜测DeepSeek-R2即将推出,但该公司尚未正式对此事发表评论。中国人

相关讨论