加入我们的每日和每周时事通讯,了解有关行业领先人工智能报道的最新更新和独家内容。了解更多
由前 Meta AI 研究人员创立的一家初创公司开发了一种轻量级 AI 模型,可以像评估更大的模型一样有效地评估其他 AI 系统,同时为其决策提供详细解释。
守护神人工智能今天发布滑翔机,一个具有 38 亿参数的开源语言模型,其性能优于 OpenAIGPT-4o-迷你判断人工智能输出的几个关键基准。该模型旨在充当自动评估器,可以评估人工智能系统对数百种不同标准的响应,同时解释其推理。
“我们在 Patronus 所做的一切都专注于为开发人员和任何使用语言模型或开发新 LM 系统的人提供强大且可靠的人工智能评估,”Patronus AI 首席执行官兼联合创始人 Anand Kannappan 在接受 VentureBeat 独家采访时表示。
小而强大:Glider 如何与 GPT-4 的性能相媲美
这一发展标志着人工智能评估技术的重大突破。目前,大多数公司依赖 GPT-4 等大型专有模型来评估其人工智能系统,这一过程可能既昂贵又不透明。Glider 不仅由于其较小的尺寸而更具成本效益,而且还通过要点推理和突出显示的文本范围为其判断提供了详细的解释,准确显示了影响其决策的因素。
“目前我们有许多法学硕士担任评委,但我们不知道哪一位最适合我们的任务,”领导该项目的 Patronus AI 研究工程师 Darshan Deshpande 解释道。– 在本文中,我们展示了几项进步:我们训练了一个可以在设备上运行的模型,仅使用 38 亿个参数,并提供高质量的推理链。 –
实时评估:速度与准确性的结合
新模型表明,较小的语言模型可以匹配或超过较大语言模型在专门任务方面的能力。Glider 的性能可与 17 倍大小的模型相媲美,同时运行延迟仅为一秒。这使得它对于实时应用程序非常实用,在这些应用程序中,公司需要在生成人工智能输出时对其进行评估。
一项关键创新是 Glider 能够同时评估人工智能输出的多个方面。该模型可以一次性评估准确性、安全性、连贯性和语气等因素,而不需要单独的评估。尽管主要接受英语数据的训练,但它还保留了强大的多语言能力。
“当您处理实时环境时,您需要尽可能低的延迟,”Kannappan 解释道。– 该模型通常会在一秒内做出响应,尤其是通过我们的产品使用时。 –
隐私第一:设备端人工智能评估成为现实
对于开发人工智能系统的公司来说,Glider 提供了多种实际优势。它的体积小意味着它可以直接在消费类硬件上运行,解决了将数据发送到外部 API 的隐私问题。其开源性质允许组织将其部署在自己的基础设施上,同时根据自己的特定需求进行定制。
该模型根据 685 个领域的 183 种不同的评估指标进行了训练,从准确性和连贯性等基本因素到创造力和道德考虑等更微妙的方面。这种广泛的培训有助于它推广到许多不同类型的评估任务。
“客户需要设备上的模型,因为他们无法将私人数据发送到 OpenAI 或 Anthropic,”Deshpande 解释道。“我们还想证明小型语言模型可以成为有效的评估器。”
此次发布之际,各公司越来越注重通过强有力的评估和监督来确保负责任的人工智能开发。Glider 为其判断提供详细解释的能力可以帮助组织更好地理解和改进其人工智能系统的行为。
AI评估的未来:更小、更快、更智能
Patronus AI,由机器学习专家创立元人工智能和元现实实验室,将自己定位为AI评估技术的领导者。该公司提供了一个用于大型语言模型的自动化测试和安全性的平台,Glider 是使复杂的人工智能评估更容易获得的最新进展。
该公司计划今天在 arxiv.org 上发布有关 Glider 的详细技术研究,展示其在各种基准测试中的性能。早期测试表明,它在多个标准指标上取得了最先进的结果,同时提供了比现有解决方案更透明的解释。
“我们正处于前几局,”坎纳潘说。“随着时间的推移,我们预计会有更多的开发商和公司突破这些领域的界限。”
Glider 的发展表明,人工智能系统的未来可能不一定需要更大的模型,而是针对特定任务进行优化的更专业、更高效的模型。它在匹配更大模型性能方面的成功,同时提供更好的可解释性,可能会影响公司未来进行人工智能评估和开发的方式。
使用 VB Daily 每日洞察业务用例
如果您想给老板留下深刻印象,VB Daily 可以满足您的要求。我们为您提供有关公司在生成人工智能方面所做的事情的内幕消息,从监管转变到实际部署,以便您可以分享见解以实现最大投资回报率。
阅读我们的隐私政策
感谢您的订阅。查看更多VB 时事通讯在这里。
发生错误。