变形单词帮助通过独特的模型解决企业中RLHF的一致性问题和代理智能问题

2024-10-07 17:09:10 英文原文

作者:Bryson Masse

PC in colorful psychedelic room

来源:VentureBeat 使用 Midjourney 制作

订阅我们的每日和每周通讯,获取最新更新和独家行业领先的人工智能报道内容。了解更多


一个最近在X上的交流( formerly Twitter)沃顿商学院教授Ethan Mollick与Andrej Karpathy(特斯拉前人工智能总监和OpenAI联合创始人)之间的对话触及了一些既令人着迷又具有基础性的话题:当今许多顶级的生成式AI包括来自OpenAI、Anthropic和Google等的模型在语气上表现出惊人的相似性,这引发了这样一个问题:为什么大型语言模型(LLM)不仅在技术熟练度上趋于一致,在个性上也是如此?

后续评论指出,推动输出趋同趋势的一个共同特征是基于人类训练师提供的评价来微调AI模型的技术:带有人类反馈的强化学习(RLHF)。

基于这一关于RLHF在输出相似性方面作用的讨论,Inflection AI的最近的公告关于Inflection 3.0以及商业API的使用,可能为解决这些挑战提供了一个有希望的方向。它引入了一种新颖的强化学习与人类反馈相结合(RLHF)的方法,旨在使生成模型不仅保持一致性,而且具有独特的同理心。

进入企业领域后,创建者们开始注意到Pi模型集合更细腻地利用RLHF,从有意改进微调模型到建立一个专有平台,该平台结合员工反馈以根据组织文化定制生成式AI的输出。这一策略旨在使变形AI的模型是真正的文化盟友,而不仅仅是通用聊天机器人,为企业的AI系统提供更加人性化和一致的服务,使其脱颖而出。

Inflection AI希望您的工作聊天机器人能够关心您

在此背景下,Pi模型的创造者Inflection AI正在开辟一条不同的道路。随着最近的发布,企业版变形功能Inflection AI旨在使其企业客户将情绪智能——被称为“情商(EQ)”——作为核心功能。

该公司表示,其独特的RLHF(人类反馈强化学习)方法使其与众不同。该公司没有依赖匿名数据标注,而是从26,000名中小学教师和大学教授那里收集了反馈,并通过一个专有的反馈平台来辅助微调过程。此外,该平台还允许企业客户利用员工的反馈运行增强学习。这使得可以根据客户的公司特有的声音和风格对模型进行后续调整。

Inflection AI的方法承诺企业将“拥有”自己的智能,这意味着在自有系统上安全管理的、使用专有数据进行微调的本地模型。这是一个显著不同于许多企业熟悉的以云为中心的AI模型的做法——这种设置被认为会增强安全性,并促进AI输出与人们在工作中使用方式之间的更紧密契合。

什么是RLHF以及它不是什么

基于人类反馈的强化学习(RLHF)已成为生成式人工智能开发的核心部分,主要是因为它允许公司塑造更乐于助人、更具连贯性且较少出现危险错误的回答。OpenAI的RLHF使用方法对于使像ChatGPT这样的工具对用户具有吸引力和一般可信度至关重要。RLHF(人类反馈的强化学习)有助于将模型行为与人类期望相协调,使其更具吸引力并减少不希望出现的结果。

然而,RLHF(人类反馈强化学习)并非没有缺点。RLHF很快就被提出是模型输出趋同的一个促成因素,这可能导致独特特性的丧失,并使模型越来越相似。表面上看,这种对齐提供了一致性,但同时也带来了差异化方面的挑战。

此前,Karpathy本人指出了其中的一些限制性问题RLHF内在的特性。他将其比作一种氛围检查的游戏,并强调它不会像AlphaGo等竞争性游戏那样提供“实际奖励”。相反,RLHF优化的是情感共鸣,这种共鸣是主观的,可能无法准确适用于实践或复杂任务。

从情商到逆商

为了缓解一些RLHF(人工反馈的强化学习)的局限性,Inflection AI采取了一种更为精细的训练策略。不仅实施了改进后的RLHF,还朝着具有代理能力的人工智能迈进,并将其简写为AQ(行动商数)。正如White所描述的在最近的一次采访中Inflection AI的企业目标是使模型不仅能够理解和共情,还能代表用户采取有意义的行动——从发送跟进邮件到协助实时解决问题。

虽然Inflection AI的方法确实具有创新性,但也有一些潜在的不足需要考虑。它用于推理的8K令牌上下文窗口比许多高端模型使用的要小,并且他们最新模型的性能尚未进行基准测试。尽管有着雄心勃勃的计划,但Inflection AI的模型在实际应用中可能无法达到预期的性能水平。

然而,从情商(EQ)到行动商数(AQ)的转变可能标志着生成式人工智能开发的一个关键进化阶段,特别是对于那些希望利用自动化来处理认知和运营任务的企业客户而言。这不仅仅是与客户或员工进行同理心交流的问题;Inflection AI 希望 Inflection 3.0 还能够执行将同理心转化为行动的任务。通过与 UiPath 等自动化平台的合作提供这种“代理人工智能”,进一步巩固了他们在日益拥挤的市场中脱颖而出的战略。

navigate a post-Süleyman world

Inflection AI在过去一年内经历了重大的内部变化。首席执行官Mustafa Suleyman离开加入微软的“收购聘用”以及团队中大量成员的离职,引发了对公司未来方向的质疑。然而,任命White为首席执行官并由一支焕发活力的管理团队制定了新的发展方向。

这次“重新创立”围绕企业使用情感人工智能展开,旨在提供个性化和深度嵌入的AI体验,而不仅仅是通用的聊天机器人解决方案。

Inflection AI的独特方法在Pi中正逐渐超越企业领域,在用户群体中尤其如此。像Reddit这样的平台Pi社区成员一直积极分享他们的经历,讲述了关于Pi的体贴和富有同理心的回应的正面故事和讨论。

这种基层的流行度表明,Inflection AI 可能发现了重要的东西。通过侧重于情感智能和同理心,Inflection 不仅在创造能够提供帮助的人工智能,还在创造与人们产生共鸣的人工智能,无论是企业环境还是作为个人助手。这种程度的用户参与表明,他们对情商的关注可能是他们在其他大型语言模型可能趋于雷同的环境中脱颖而出的关键。

Inflection AI的下一步是什么

展望未来,Inflection AI 在后训练功能上的重点,如检索增强生成(RAG)和代理工作流程,旨在使其技术保持在企业需求的前沿。Inflection AI 表示,最终目标是迎来一个后 GUI 时代,在这个时代里,AI 不仅仅是响应命令,而是主动协助实现各种业务系统之间的无缝集成。

目前尚不清楚Inflection AI的新颖方法是否能显著提高输出相似性。然而,如果怀特及其团队的创新想法取得成果,EQ可能成为衡量贵公司生成技术有效性的一个关键指标。

VB每日快讯

关注最新动态!每天将最新新闻发送到您的邮箱。

通过订阅,您同意VentureBeat的服务条款。

感谢订阅。了解更多精彩内容请继续查看VB通讯这里.

发生错误。

关于《变形单词帮助通过独特的模型解决企业中RLHF的一致性问题和代理智能问题》
暂无评论

摘要

2024年10月7日 10:09 上午 信用:VentureBeat 制作,使用 Midjourney 加入我们的每日和每周通讯,获取行业领先的人工智能报道的最新更新和独家内容。随着进入企业领域,Pi模型系列的创造者以更细腻的方式利用RLHF(人类反馈强化学习),从有意改进微调模型的努力到一个专有的平台,该平台结合员工反馈来定制生成式AI输出,使其符合组织文化。该公司没有依赖匿名数据标签,而是通过一个专有的反馈平台从26,000名学校教师和大学教授那里收集了反馈,以帮助在细化过程中进行调整。这是一个明显背离许多企业熟悉的基于云的AI模型的做法——Inflection相信这种做法将增强安全性,并促进生成式AI输出与人们在工作中使用方式之间的更好对齐。尽管Inflection AI的方法无疑具有创新性,但也存在一些潜在的问题需要考虑。