加入我们的每日和每周时事通讯,了解有关行业领先人工智能报道的最新更新和独家内容。了解更多
深度搜索,中国量化对冲基金的人工智能分支高飞资本管理公司专注于发布高性能开源技术,推出了 R1-Lite-Preview,这是其最新的以推理为中心的大语言模型 (LLM),目前仅可通过深度搜索聊天,其基于网络的人工智能聊天机器人。
DeepSeek 以其对开源人工智能生态系统的创新贡献而闻名,其新版本旨在为公众带来高级推理能力,同时保持其对可访问和透明人工智能的承诺。
R1-Lite-Preview 尽管目前只能通过聊天应用程序使用,但它所提供的性能接近甚至在某些情况下超过了 OpenAI 所吹嘘的 o1-preview 模型,因此已经引起了人们的注意。
像那样模型发布于2024 年 9 月,DeepSeek-R1-Lite-Preview 展示了“思维链”推理,向用户展示了不同的“思维链”或“思维链”,以响应他们的查询和输入,通过解释正在做什么以及为什么来记录该过程。
虽然某些思路/思路对人类来说可能显得无意义甚至错误,但 DeepSeek-R1-Lite-Preview 总体上看来非常准确,甚至回答了一些曾困扰过其他较旧的问题的“诡计”问题。,但功能强大的 AI 模型,例如 GPT-4o 和 Claude’s Anthropic 系列,包括 – 单词中有多少个字母 R草莓? - 和 - 哪个更大,9.11 还是 9.9? - 请参阅下面我在 DeepSeek Chat 上对这些提示进行测试的屏幕截图:
人工智能推理的新方法
DeepSeek-R1-Lite-Preview 旨在出色地完成需要逻辑推理、数学推理和实时解决问题的任务。
据 DeepSeek 称,该模型在 AIME(美国数学邀请赛)和 MATH 等既定基准上超过了 OpenAI o1 预览版的性能。
其透明的思维过程增强了其推理能力,使用户能够跟随模型逐步解决复杂的挑战。
DeepSeek 还发布了扩展数据,显示当给模型更多时间或“思考令牌”来解决问题时,准确度会稳步提高。性能图表突显了随着思想深度的增加,其在 AIME 等基准测试中获得更高分数的能力。
基准和实际应用
DeepSeek-R1-Lite-Preview 在关键基准测试中的表现具有竞争力。
该公司公布的结果凸显了其处理各种任务的能力,从复杂的数学到基于逻辑的场景,其性能得分可与 GPQA 和 Codeforces 等推理基准中的顶级模型相媲美。
其推理过程的透明度进一步使其与众不同。用户可以实时观察模型的逻辑步骤,增加许多专有人工智能系统所缺乏的责任和信任元素。
然而,DeepSeek 尚未发布用于独立第三方分析或基准测试的完整代码,也尚未通过允许同类独立测试的 API 提供 DeepSeek-R1-Lite-Preview。
此外,该公司尚未发表博客文章或技术论文来解释 DeepSeek-R1-Lite-Preview 是如何训练或构建的,这给其底层起源留下了许多疑问。
可访问性和开源计划
R1-Lite-Preview 现在可通过 DeepSeek Chat 访问:聊天.deepseek.com。该模型的高级“深度思考”模式虽然免费供公众使用,但每天的消息数量上限为 50 条,为用户提供了充分的机会体验其功能。
展望未来,DeepSeek 计划发布 R1 系列模型和相关 API 的开源版本公司在 X 上的帖子。
此举符合该公司支持开源人工智能社区的历史。
它之前的版本,DeepSeek-V2.5,该模型因结合通用语言处理和高级编码功能而受到赞誉,使其成为当时最强大的开源人工智能模型之一。
继承传统
DeepSeek 正在延续其突破开源人工智能界限的传统。早期型号如 DeepSeek-V2.5 和DeepSeek 编码器在语言和编码任务方面展示了令人印象深刻的能力,基准测试使其成为该领域的领导者。
R1-Lite-Preview 的发布增加了一个新的维度,重点关注透明推理和可扩展性。
随着企业和研究人员探索推理密集型人工智能的应用,DeepSeek 对开放性的承诺确保其模型仍然是开发和创新的重要资源。
通过将高性能、透明操作和开源可访问性相结合,DeepSeek 不仅推动了人工智能的发展,而且还重塑了人工智能的共享和使用方式。
R1-Lite-Preview 现已可供公开测试。开源模型和 API 预计将随之而来,进一步巩固 DeepSeek 作为可访问的先进人工智能技术领导者的地位。