人工智能(AI)启动DeepSeek随着公众在等待公司的下一代模型的发布,提出了一种提高大语言模型(LLM)推理能力(LLM)的推理能力的新方法。根据周五发表的一篇论文,DeepSeek与Tsinghua University的研究人员合作开发了一种技术,该技术结合了所谓的生成奖励建模(GRM)和自我宣传的评论调整。
双重方法旨在使LLM能够为一般查询提供更好,更快的结果。
研究人员写道,由此产生的DeepSeek-Grm模型优于现有方法,并通过强大的公共奖励模型实现了竞争性能。奖励建模是一个指导LLM对人类偏好的过程。
研究人员说,DeepSeek打算将GRM模型开源,但他们没有给出时间表。
该学术论文发表在在线科学论文存储库ARXIV上,这是在猜测该公司V3基金会模型和R1推理模型所吸引的全球关注之后的下一步行动的猜测。
路透社上个月报道说,R1的继任者DeepSeek-R2可能会在本月最快发布,因为该公司急于利用其上升的个人资料。DeepSeek-R1的发布以其具有成本效益的表现与领先的模型相比震撼了全球科技界。
DeepSeek对传闻的R2发行保持沉默。中国媒体上个月报道说,它没有通过官方公共渠道对此事进行评论,但是客户服务帐户在与商业客户的小组聊天中拒绝了该报告。