作者:Dashveenjit Kaur
中国AI初创公司DeepSeek解决了一个问题,使AI研究人员沮丧了几年。它在AI奖励模型中的突破可以显着改善AI系统的理由和对问题的回答。
DeepSeek与Tsinghua大学的研究人员合作,创建了一项详细介绍的技术,标题为“通才奖励建模的推理时间扩展它概述了与强大的公共奖励模型相比,新方法如何优于现有方法以及团队如何实现竞争性能。
这项创新的重点是增强AI系统从人类偏好中学习的方式 - 创造更有用和一致的人工智能的重要方面。
AI奖励模型是大型语言模型增强学习的重要组成部分。它们提供反馈信号,有助于指导AI的行为朝着首选结果。用更简单的话来说,奖励模型就像数字教师一样,可以帮助AI了解人类从他们的回应中想要什么。
DeepSeek Paper指出,奖励建模是一个指导LLM对人类偏好的过程。随着AI系统变得越来越复杂,并将其部署在简单的提问任务之外的方案中,奖励建模变得很重要。
DeepSeek的创新解决了获得不同领域中LLM的准确奖励信号的挑战。尽管当前的奖励模型适用于可验证的问题或人造规则,但它们在标准更加多样化和复杂的一般领域中挣扎。
DeepSeek的方法结合了两种方法:
Tsinghua University和DeepSeek-ai的作者之一Zijun Liu解释说,方法的组合允许根据输入查询和响应来生成原理,从而适应奖励生成过程。
该方法对于通过推理期间而不是在培训期间提高计算资源来提高推理时间缩放的潜力特别有价值。
研究人员发现,他们的方法可以通过增加的采样来获得更好的结果,让模型通过更多的计算产生更好的奖励。
DeepSeek的创新是在AI开发中的重要时刻。该论文指出,在大规模的大语言模型培训中,加强学习(RL)已被广泛采用,从而导致了人力价值一致性,长期推理和LLMS的环境适应的显着改善。
奖励建模的新方法可能会有几种影响:
最新的发展增加了DeepSeek在全球AI中的不断增长。这家总部位于杭州的公司由企业家Liang Wenfeng于2023年创立,其V3基金会和R1推理模型引起了轰动。
该公司升级了V3模型(DeepSeek-V3-0324)最近,该公司表示提供了增强的推理能力,优化的前端网络开发和升级的中国写作能力。开源AI,在2月发布五个代码存储库,使开发人员能够审查并为开发做出贡献。
虽然猜测继续涉及DeepSeek-R2的潜在释放(R1的继任者)路透社在可能的发布日期中猜测 - DeepSeek尚未在其官方渠道中发表评论。
根据研究人员的说法,DeepSeek打算将GRM模型开放源,尽管尚未提供特定的时间表。开源将通过允许使用奖励模型进行更广泛的实验来加速该领域的进展。
随着强化学习在AI开发中继续发挥重要作用,像DeepSeek和Tsinghua University的工作一样,奖励建模的进步可能会影响AI系统的能力和行为。
在AI奖励模型上的工作表明,如何以及何时学习的创新可以同样重要,从而增加其规模。通过专注于反馈质量和可扩展性,DeepSeek解决了创建AI的基本挑战之一,该AI可以更好地了解并与人类偏好保持一致。
探索由Techforge提供支持的其他即将举行的企业技术活动和网络研讨会这里。