加入我们的每日和每周时事通讯,了解有关行业领先人工智能报道的最新更新和独家内容。了解更多
元– Facebook、Instagram、WhatsApp、Threads 等公司的母公司 – 运营着世界上最大的推荐系统之一。
在最近发布的两篇论文中,其研究人员揭示了如何使用生成模型来更好地理解和响应用户意图。
通过将推荐视为一个生成问题,您可以用比传统方法内容更丰富、更高效的新方法来解决它。这种方法对于任何需要检索文档、产品或其他类型对象的应用程序都有重要用途。
密集检索与生成检索
标准创建方法推荐系统是计算、存储和检索文档的密集表示。例如,要向用户推荐商品,应用程序必须训练一个可以计算的模型嵌入满足用户对大量项目的请求和嵌入。
在推理时,推荐系统尝试通过查找嵌入与用户相似的一个或多个项目来理解用户的意图。随着项目数量的增加,这种方法需要增加存储量和计算能力,因为每个项目嵌入都必须被存储,并且每个推荐操作都需要将用户嵌入与整个项目存储进行比较。
生成检索是一种较新的方法,它试图理解用户意图并提出建议,而不是通过搜索数据库,而是通过简单地预测它所了解的有关用户交互的一系列事物中的下一个项目。
其工作原理如下:
进行生成检索的关键是计算“语义 ID”(SID),其中包含每个项目的上下文信息。生成检索系统,例如老虎工作分两个阶段进行。首先,训练编码器模型,根据每个项目的描述和属性为每个项目创建唯一的嵌入值。这些嵌入值成为 SID 并与项目一起存储。
在第二阶段,一个变压器型号被训练来预测输入序列中的下一个 SID。输入 SID 列表表示用户与过去项目的交互,模型的预测是要推荐的项目的 SID。生成检索减少了跨单个项目嵌入存储和搜索的需要。因此,随着项目列表的增长,其推理和存储成本保持不变。它还增强了捕获数据中更深层语义关系的能力,并提供了生成模型的其他好处,例如修改温度以调整推荐的多样性。
高级生成检索
尽管生成检索的存储和推理成本较低,但它仍存在一些局限性。例如,它往往会过度拟合在训练期间看到的项目,这意味着它无法处理模型训练后添加到目录中的项目。在推荐系统中,这通常被称为“冷启动问题,— 涉及新的且没有交互历史记录的用户和项目。
为了解决这些缺点,Meta 开发了一种混合推荐系统,称为狮虎,它将生成检索的计算和存储效率与密集检索的鲁棒嵌入质量和排序功能结合起来。
在训练期间,LIGER 使用相似性得分和下一个标记目标来改进模型的推荐。在推理过程中,LIGER 根据生成机制选择多个候选项,并用一些冷启动项对其进行补充,然后根据生成的候选项的嵌入对这些项进行排名。
研究人员指出,“密集检索方法和生成检索方法的融合对于推进推荐系统具有巨大的潜力”,并且随着模型的发展,它们将在现实世界的应用中变得越来越实用,从而实现更加个性化和响应性更强的推荐系统。用户体验。 –
在另一篇论文中,研究人员介绍了一种新颖的多模态生成检索方法,名为多模式偏好识别器(Mender),一种可以使生成模型从用户与不同项目的交互中获取隐式偏好的技术。Mender 建立在基于 SID 的生成检索方法之上,并添加了一些可以根据用户偏好丰富推荐的组件。
Mender 使用大型语言模型 (LLM) 将用户交互转换为特定偏好。例如,如果用户在评论中赞扬或抱怨了特定项目,模型会将其总结为对该产品类别的偏好。
主推荐模型经过训练,在预测输入序列中的下一个语义 ID 时,以用户交互序列和用户偏好为条件。这使得推荐模型能够概括和执行上下文学习,并能够适应用户偏好,而无需对其进行明确的训练。
研究人员写道:“我们的贡献为新型生成检索模型铺平了道路,该模型解锁了利用有机数据通过文本用户偏好来引导推荐的能力。”
对企业应用程序的影响
生成检索系统提供的效率可以对企业应用程序产生重要影响。这些进步转化为直接的实际效益,包括降低基础设施成本和更快的推理速度。无论目录大小如何,该技术都能够保持恒定的存储和推理成本,这使得它对于成长型企业特别有价值。
这些好处遍及各个行业,从电子商务到企业搜索。生成检索仍处于早期阶段,我们可以预期随着它的成熟,应用程序和框架将会出现。
使用 VB Daily 每日了解业务用例
如果您想给老板留下深刻印象,VB Daily 可以满足您的要求。我们为您提供有关公司在生成人工智能方面所做的事情的内幕消息,从监管转变到实际部署,以便您可以分享见解以实现最大投资回报率。
阅读我们的隐私政策
感谢您的订阅。查看更多VB 时事通讯在这里。
发生错误。