作者:University of Massachusetts Amherst
未来的互联网搜索引擎将由人工智能提供支持。人们已经可以从一系列人工智能驱动或人工智能增强的搜索引擎中进行选择,尽管它们的可靠性通常仍然有很多不足之处。然而,马萨诸塞大学阿默斯特分校的计算机科学家团队最近发表并发布了一种新的系统来评估人工智能生成的搜索的可靠性。
该方法被称为“eRAG”,是一种让人工智能和搜索引擎相互对话,然后评估人工智能使用的搜索引擎质量的方法。该作品作为第 47 届国际 ACM SIGIR 信息检索研究与发展会议论文集。
“我们一直使用的所有搜索引擎都是为人类设计的,”麻省大学阿默斯特分校曼宁信息与计算机科学学院的研究生、该论文的主要作者 Alireza Salemi 说。
“当用户是人类时,它们工作得很好,但未来主要用户的搜索引擎将是人工智能大型语言模型(LLM)之一,例如 ChatGPT。这意味着我们需要完全重新设计搜索引擎的方式我的研究探索了法学硕士和搜索引擎如何相互学习。”
萨莱米和该研究的资深作者、麻省大学阿默斯特分校信息和计算机科学副教授哈米德·扎马尼面临的基本问题是,人类和法学硕士有非常不同的信息需求和消费行为。
例如,如果您不太记得刚刚出版的那本新书的书名和作者,您可以输入一系列常规搜索词,例如“那本著名的环境扭曲的新间谍小说是什么?”作者”,然后缩小结果范围,或者当您记住更多信息时再进行一次搜索(作者是小说《火焰喷射器》的女性作者),直到找到正确的结果(雷切尔·库什纳的《创造湖》)在遵循上述过程后,Google 将其作为第三次点击返回)。
但这就是人类的工作方式,而不是法学硕士。他们接受特定的、庞大的数据集的训练,而任何不在该数据集中的东西——比如刚刚上架的新书——对于法学硕士来说实际上是不可见的。
此外,它们对于模糊请求并不是特别可靠,因为 LLM 需要能够向引擎询问更多信息;但要做到这一点,它需要知道要询问的正确附加信息。
计算机科学家设计了一种方法来帮助法学硕士评估和选择他们需要的信息,称为“检索增强生成”或 RAG。RAG 是一种利用搜索引擎生成的结果列表来增强法学硕士的方法。但当然,问题是,如何评估检索结果对法学硕士的有用程度?
到目前为止,研究人员已经提出了三种主要方法来做到这一点:第一个是将相关性判断的准确性众包给一群人。然而,这是一种非常昂贵的方法,而且人类可能没有法学硕士那样的相关感。
人们还可以让法学硕士生成相关性判断,这要便宜得多,但准确性会受到影响,除非能够使用最强大的法学硕士模型之一。第三种方法是黄金标准,是评估检索增强法学硕士的端到端性能。
但即使是第三种方法也有其缺点。“这非常昂贵,”萨莱米说,“而且存在一些涉及透明度的问题。我们不知道法学硕士是如何得出结果的;我们只知道它要么得出结果,要么没有得出结果。”此外,目前有几十个法学硕士,每个人都以不同的方式工作,返回不同的答案。
相反,Salemi 和 Zamani 开发了 eRAG,它与黄金标准方法类似,但更具成本效益,速度提高了三倍,使用的 GPU 功率减少了 50 倍,并且几乎同样可靠。
“为人工智能代理开发有效的搜索引擎的第一步是准确评估它们,”扎马尼说。“eRAG 为人工智能代理使用的搜索引擎提供了可靠、相对高效且有效的评估方法。”
简而言之,eRAG 的工作原理如下:人类用户使用 LLM 支持的 AI 代理来完成任务。AI 代理将向搜索引擎提交查询,搜索引擎将针对 LLM 消耗返回离散数量的结果(例如 50 个)。
eRAG 通过 LLM 运行 50 个文档中的每一个,以找出 LLM 发现哪个特定文档对于生成正确的输出有用。然后汇总这些文档级分数,以评估人工智能代理的搜索引擎质量。
虽然目前还没有搜索引擎可以与所有已开发的主要法学硕士一起使用,准确性,成本效益eRAG 的轻松实施是朝着我们所有搜索引擎都在人工智能上运行的那一天迈出的重要一步。
这项研究被计算机协会信息检索研究与发展国际会议(SIGIR 2024)授予最佳短论文奖。包含 eRAG 代码的公共 python 包可在以下位置获取:https://github.com/alirezasalemi7/eRAG。更多信息:
Alireza Salemi 等人,评估检索增强生成中的检索质量,第 47 届国际 ACM SIGIR 信息检索研究与开发会议论文集(2024)。数字编号:10.1145/3626772.3657957引文:
团队推出一种经济有效的方法来重新设计人工智能搜索引擎(2024 年,11 月 1 日)检索日期:2024 年 11 月 1 日来自 https://techxplore.com/news/2024-11-team- effective-method-redesign-ai.html
本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外,不得未经书面许可,不得复制部分内容。所提供的内容仅供参考。