曾经被问过一个您只知道部分答案的问题吗?为了提供更明智的答复,您最好的做法是给对此主题有更多了解的朋友打电话。
这种协作过程还可以帮助大型语言模型 (LLM) 提高其准确性。尽管如此,教会大语言模型们认识到何时应该与另一个模型合作寻找答案仍然很困难。麻省理工学院计算机科学和人工智能实验室 (CSAIL) 的研究人员设想了一种更有机的方法,而不是使用复杂的公式或大量标记数据来阐明模型应该在哪里协同工作。
他们的新算法,称为 Co-LLM,可以将通用基础 LLM 与更专业的模型配对,并帮助它们协同工作。当前者制定答案时,Co-LLM 会审查其响应中的每个单词(或标记),以查看在哪里可以从专家模型中调用更准确的答案。这个过程可以让我们对医疗提示、数学和推理问题等问题得到更准确的答复。由于每次迭代不需要专家模型,这也会导致更有效的响应生成。
为了确定基础模型何时需要专家模型的帮助,该框架使用机器学习来训练开关变量,或可以指示两个大语言模型回答中每个单词的能力的工具。交换机就像一个项目经理,寻找需要聘请专家的领域。例如,如果你要求Co-LLM列举一些已灭绝的熊种的例子,两个模型将一起起草答案。通用 LLM 开始整理答复,并在可以从专家模型中插入更好标记的部分介入开关变量,例如添加熊物种灭绝的年份。
灵活性与事实性的结合
想象一下问通用大语言模型,用于命名特定处方药的成分。它可能会错误地回答,需要专门模型的专业知识。
为了展示 Co-LLM 的灵活性,研究人员使用 BioASQ 医疗集等数据将基础 LLM 与不同领域的专家 LLM 结合起来,例如 Meditron 模型,该模型是对未标记的医疗数据进行预训练。这使得该算法能够帮助回答生物医学专家通常会收到的询问,例如命名导致特定疾病的机制。
例如,如果您仅要求一个简单的大语言模型来命名特定处方药的成分,它就会可能会回复错误。凭借专门研究生物医学数据的模型的附加专业知识,您将获得更准确的答案。Co-LLM 还提醒用户在哪里仔细检查答案。
Co-LLM 性能提升的另一个例子:当负责解决像 a3 a2if a=5 这样的数学问题时,通用模型错误地计算了答案是 125。当 Co-LLM 训练模型与名为 Llemma 的大型数学 LLM 进行更多合作时,他们共同确定正确的解决方案是 3,125。
Co-LLM 比微调的简单 LLM 给出了更准确的答复和未调整的独立工作的专业模型。Co-LLM 可以指导两个经过不同训练的模型一起工作,而其他有效的 LLM 协作方法(例如代理调优)需要对其所有组件模型进行类似的训练。此外,该基线要求同时使用每个模型来生成答案,而 MIT 算法只是针对特定令牌激活其专家模型,从而实现更高效的生成。
何时询问专家
麻省理工学院研究人员的算法强调,更紧密地模仿人类团队合作可以提高多大语言模型协作的准确性。为了进一步提高其事实准确性,团队可能会借鉴人类的自我纠正:他们正在考虑一种更强大的延迟方法,当专家模型没有给出正确的响应时,可以回溯。此升级将使 Co-LLM 能够进行路线修正,以便算法仍然可以给出令人满意的答复。
团队还希望在新信息出现时更新专家模型(仅通过训练基本模型)可用,并尽可能保持最新的答案。这将使Co-LLM能够将最新的信息与强大的推理能力结合起来。最终,该模型可以帮助处理企业文档,使用它所拥有的最新信息来相应地更新它们。Co-LLM 还可以训练小型私有模型,与更强大的 LLM 配合使用,以改进必须保留在服务器内的文档。
Co-LLM 提供了一种有趣的方法,用于学习在两个模型之间进行选择,以提高效率和性能” 多伦多大学副教授兼矢量研究所副研究主任 Colin Raffel 说道,他没有参与这项研究。由于路由决策是在令牌级别做出的,Co-LLM 提供了一种将困难的生成步骤推迟到更强大的模型的精细方法。模型令牌级路由的独特组合还提供了类似方法所缺乏的大量灵活性。Co-LLM 为一项重要的工作做出了贡献,该工作旨在开发专门模型的生态系统,以超越昂贵的整体人工智能系统。
Shen 与其他四位 CSAIL 附属机构共同撰写了这篇论文:博士生 Hunter Lang 17、工程硕士 18;前博士后、苹果 AI/ML 研究员王柏林;麻省理工学院电气工程和计算机科学助理教授 Yoon Kim 以及教授兼 Jameel Clinic 成员 David Sontag 博士 10 岁,他们都是 MIT-IBM Watson AI 实验室的成员。他们的研究部分得到了美国国家科学基金会、国防科学与工程研究生 (NDSEG) 奖学金、MIT-IBM Watson AI 实验室和亚马逊的支持。他们的工作在计算语言学协会年会上进行了展示。