DeepSeek的AI：人类真正想要的

2025-04-09 07:45:00 英文原文

作者：Dashveenjit Kaur

中国AI初创公司DeepSeek解决了一个问题，使AI研究人员沮丧了几年。它在AI奖励模型中的突破可以显着改善AI系统的理由和对问题的回答。

DeepSeek与Tsinghua大学的研究人员合作，创建了一项详细介绍的技术，标题为“通才奖励建模的推理时间扩展它概述了与强大的公共奖励模型相比，新方法如何优于现有方法以及团队如何实现竞争性能。

这项创新的重点是增强AI系统从人类偏好中学习的方式 - 创造更有用和一致的人工智能的重要方面。

什么是AI奖励模型，为什么重要？

AI奖励模型是大型语言模型增强学习的重要组成部分。它们提供反馈信号，有助于指导AI的行为朝着首选结果。用更简单的话来说，奖励模型就像数字教师一样，可以帮助AI了解人类从他们的回应中想要什么。

DeepSeek Paper指出，奖励建模是一个指导LLM对人类偏好的过程。随着AI系统变得越来越复杂，并将其部署在简单的提问任务之外的方案中，奖励建模变得很重要。

DeepSeek的创新解决了获得不同领域中LLM的准确奖励信号的挑战。尽管当前的奖励模型适用于可验证的问题或人造规则，但它们在标准更加多样化和复杂的一般领域中挣扎。

双重方法：DeepSeek的方法如何工作

DeepSeek的方法结合了两种方法：

生成奖励建模（GRM）：这种方法可以灵活地在不同的输入类型中进行灵活性，并可以在推理时间进行缩放。与以前的标量或半刻度方法不同，GRM通过语言提供了更丰富的奖励表示。
自我宣传的批评调整（SPCT）：一种通过在线加强学习来促进GRM中可扩展奖励产生行为的学习方法，该方法可适应性地生成原理。

Tsinghua University和DeepSeek-ai的作者之一Zijun Liu解释说，方法的组合允许根据输入查询和响应来生成原理，从而适应奖励生成过程。

该方法对于通过推理期间而不是在培训期间提高计算资源来提高推理时间缩放的潜力特别有价值。

研究人员发现，他们的方法可以通过增加的采样来获得更好的结果，让模型通过更多的计算产生更好的奖励。

对AI行业的影响

DeepSeek的创新是在AI开发中的重要时刻。该论文指出，在大规模的大语言模型培训中，加强学习（RL）已被广泛采用，从而导致了人力价值一致性，长期推理和LLMS的环境适应的显着改善。

奖励建模的新方法可能会有几种影响：

更准确的AI反馈：通过创建更好的奖励模型，AI系统可以收到有关其输出的更精确的反馈，从而改善了随着时间的推移响应。
提高适应性：推断期间缩放模型性能的能力意味着AI系统可以适应不同的计算约束和要求。
更广泛的应用：通过改善通用域的奖励建模，系统可以在更广泛的任务中表现更好。
更有效的资源使用：研究表明，使用DeepSeek方法的推理时间缩放可以超过训练时间的模型尺寸缩放，这可能允许较小的模型与具有适当推理时间资源的较大模型相当。

DeepSeek的影响力日益增长

最新的发展增加了DeepSeek在全球AI中的不断增长。这家总部位于杭州的公司由企业家Liang Wenfeng于2023年创立，其V3基金会和R1推理模型引起了轰动。

该公司升级了V3模型（DeepSeek-V3-0324）最近，该公司表示提供了增强的推理能力，优化的前端网络开发和升级的中国写作能力。开源AI，在2月发布五个代码存储库，使开发人员能够审查并为开发做出贡献。

虽然猜测继续涉及DeepSeek-R2的潜在释放（R1的继任者）路透社在可能的发布日期中猜测 - DeepSeek尚未在其官方渠道中发表评论。

AI奖励模型的下一步是什么？

根据研究人员的说法，DeepSeek打算将GRM模型开放源，尽管尚未提供特定的时间表。开源将通过允许使用奖励模型进行更广泛的实验来加速该领域的进展。

随着强化学习在AI开发中继续发挥重要作用，像DeepSeek和Tsinghua University的工作一样，奖励建模的进步可能会影响AI系统的能力和行为。

在AI奖励模型上的工作表明，如何以及何时学习的创新可以同样重要，从而增加其规模。通过专注于反馈质量和可扩展性，DeepSeek解决了创建AI的基本挑战之一，该AI可以更好地了解并与人类偏好保持一致。

参见：DeepSeek的破坏：中国人工智能创新缩小全球技术鸿沟

想从行业领导者那里了解有关AI和大数据的更多信息吗？查看AI和大数据博览会在阿姆斯特丹，加利福尼亚和伦敦举行。综合事件与其他领先活动共同分居，包括智能自动化会议，，，，块，，，，数字转换周，和网络安全和云博览会。

探索由Techforge提供支持的其他即将举行的企业技术活动和网络研讨会这里。

关于《DeepSeek的AI：人类真正想要的》的评论

暂无评论

发表评论

摘要

中国AI初创公司DeepSeek在AI奖励模型中发展了一个突破，从而改善了AI系统从人类偏好中学习的方式。他们与Tsinghua University合作，创建了一种称为“通才奖励建模的推理时间扩展”的技术，可增强各个领域的大语言模型（LLM）的性能。这项创新结合了生成性奖励建模和自我原告的批评调整，以提供更准确的反馈信号和更好地适应不同计算约束。DeepSeek的方法可能会导致更精确的AI响应，提高系统效率以及在各种任务中的更广泛应用。该公司旨在开放源代码，以加速该领域的进步。