作者:Rama Ramakrishnan
我们的专家专栏作家就现代企业和经理面临的重要问题提供了意见和分析。
本系列中的更多Carolyn Geason-Beissel/MIT SMR |盖蒂图像
概括:
现在,随着他们的公司采用人工智能和生成的AI工具,业务领导者现在正在重新思考工作流,组织设计和其他学科。为了对AI的使用做出良好的决定,这些领导者需要掌握该技术基础的大型语言模型的功能和局限性的关键方面。以下是有关LLM的10个最常见的问题,以及澄清Genai的答案,这些方面通常是很少理解的。
在我的工作中在麻省理工学院的斯隆管理学院,我教授了过去两年中许多高管的大型语言模型(LLM)的基础知识。
有些人认为企业领导者既不想要也不需要知道LLM和他们为他们提供动力的生成AI工具,并且仅对该工具感兴趣结果工具可以提供。那不是我的经验。当然,具有前瞻性的领导者关心结果,但他们还敏锐地意识到,LLMS的工作方式清晰准确,是为在企业中使用AI技术做出合理业务决策的必要基础。
在本专栏中,我分享了我经常被问到的10个经常被询问的主题以及他们的答案的问题。您不需要阅读这些主题中的每本书,也不需要涉足技术杂草,但是您需要了解必需品。将此列表作为您自己以及您的团队,同事或客户的有用参考,下次与他们进行讨论时。我从麻省理工学院的执行级学生那里听说,当与技术合作伙伴的对话中进行对话时,这种知识特别有用。
换句话说,LLM什么时候决定给用户的问题最终答案?停止生成的决定取决于LLM预测的内容和运行它的软件系统设定的规则。这不是单独使用LLM做出的选择。让我们详细研究这是如何工作的。
当LLM回答问题时,它一次产生文字。作品的技术名称是令牌。1令牌可以是单词或单词的一部分。在每个步骤中,LLM都会根据提示预测哪个令牌应下一步和到目前为止,它已经写了什么。2
外部系统在一个生成下一个令牌中运行LLM;将其附加到输入;生成接下来的令牌循环直到停止条件被触发。发生这种情况时,系统将停止向LLM索取更多令牌,并向用户显示结果。
实践中使用了许多停止条件。一个重要的涉及序列的特殊结尾,即(非正式地)表示答案的结尾。在培训过程中使用了这个令牌来表示单个培训示例的终结,因此,在培训期间,LLM学会了预测在其答案的地方进行的特殊标记。其他停止条件包括(但不限于)到目前为止生成的最大令牌数量的限制,或者生成用户定义的模式称为A停止序列。
当我们使用诸如Chatgpt之类的工具的Web版本作为消费者时,我们不会看到此过程 - 只有完成的文本。但是,当您的组织开始构建自己的LLM应用程序时,开发人员可以自己调整这些停止规则和其他参数,这些选择会影响答案的完整性,成本和格式。
这里的重要一点是,停止的决定是LLM的标记预测与外部控制逻辑之间的相互作用,而不是LLM做出的决定。
不,如果您纠正LLM,LLM将不会立即自动更新。如果您使用的是Chatgpt或Claude之类的工具,则如果您的聊天历史记录包含在未来的培训运行中,则您的更正可能有助于改善模型的未来版本,但是这些更新发生在数周或数月或几个月的时间内,而不是立即发生。
一些应用程序(例如ChatGpt)具有一个可以实时更新的内存功能,以记住您的名称,首选项或位置(例如您的名字,首选项或位置)。但是,此内存用于个性化,似乎并未用于纠正模型的事实知识或推理错误。
llms基于对话中给出的输入,一次产生一个令牌。默认情况下,他们不使用过去的对话。但是,如上所述,某些LLM应用程序具有内存功能,使他们可以从较早的聊天中存储信息,例如您的名称,兴趣,偏好,正在进行的项目或经常查询的主题。
当您启动新聊天时,此存储的内存的相关部分可能是自动地添加到提示幕后。这意味着该模型实际上并未实时回忆过去的聊天。相反,作为输入的一部分,它被提醒了该信息。这是如何记住一周前的事情。
供应商的详细信息以及何时使用的详细信息也有所不同,并且确切的方法尚未披露。诸如检索演示生成(RAG)之类的技术可能被用来确定在新提示中包含哪些内存项。许多平台使用户可以完全查看,编辑或关闭内存。例如,在ChatGpt应用程序中,可以通过设置>个性化访问。
如果您不熟悉,RAG是一种用于为LLM提供特定专有数据的技术。这有助于LLM提供有用的响应。
当您询问LLM培训截止日期后发生的事情时,该模型本身并不知道该事件,除非它可以访问最新信息。某些系统'像启用浏览的CHATGPT一样,可以执行实时的Web搜索以帮助回答此类问题。
如果没有访问实时数据,模型仍可能会根据其培训数据产生答案,而该数据不能反映现实世界的更新。
在这种情况下,LLM可以根据您的问题生成搜索查询,并且系统的单独部分(模型本身之外)进行了搜索。然后将结果发送回LLM,以便它可以根据该新信息产生答案。但是,并非所有LLM或应用程序都具有此功能。如果无法访问实时数据,模型仍然可能会根据其培训数据产生答案,这不反映现实世界的更新。
否。虽然仔细提示和像抹布这样的技术可以鼓励AI模型优先考虑一组提供的文档,但标准LLMS不能仅被迫仅使用该内容。该模型仍然可以访问其在培训期间学到的模式和事实,并可能将知识融入其响应中,尤其是在培训数据包含相似内容的情况下。
否。LLM可以制造(幻觉)引用或以不准确或误导性的方式使用真实来源。一些LLM系统包括后处理步骤以验证引用,但是这些检查并不总是可靠或全面的。始终验证引用的来源实际上存在,并且其内容确实支持响应中的信息。
GPT-4.1和Gemini等现代LLM 2.5提供了数百万个to上语境窗口,足以容纳整本书。这自然提出了一个问题:如果我们能适应所有东西,为什么要使用子集?
尽管这些扩展上下文窗口功能强大,但包括提示中的所有文档都不是一个好主意。抹布仍然很重要的原因有很多。
首先,抹布并不是要保持及时的速度。它是选择文档中最相关的部分。超载上下文有了太多或无关紧要的信息可能会损害性能,并保持背景并迅速相关,简洁和准确,通常会带来更好的答案。
其次,即使LLM可以接受较长的上下文,它们也不会很好地处理所有部分。研究表明,AI模型倾向于更多地关注提示的开始和结束,并且可能会错过中间的重要信息。
最后,更长的提示意味着更多的令牌,这增加了API成本并减慢了响应。这在成本和速度很重要的现实应用程序中很重要。
简而言之,长上下文窗口很有用,但是它们没有使检索过时。抹布仍然是一个重要的工具,尤其是当您关心准确性,效率或成本时。使用抹布的选项仍然应该是评估根据您的特定应用程序的需求。
不,通过当前的LLM技术无法完全消除幻觉。它们源于语言模型的概率性质,该模型通过基于训练数据来预测可能的令牌序列来生成文本 - 不是通过对可靠来源验证事实来生成文本。
但是,仔细及时的工程和策略,例如抹布,针对域的数据进行微调以及对基于规则的检查或外部验证进行后处理可以减少幻觉在特定用例中。3尽管这些策略不能保证消除幻觉,但它们可以提高LLM的可靠性,以便为许多实际应用。
有效检查LLM输出取决于任务类型和可接受的风险水平。广义上,主要策略包括人类审查和自动化方法。
对于诸如摘要,论文,报告或分析之类的开放式任务,人类审查提供了最可靠的监督。但是,这是昂贵且难以扩展的,尤其是在需要快速或实时响应的情况下。提高效率的一种方法是仅审查基于风险的一部分产量(换句话说,采用抽样)或分类,将人类的关注集中在关键案例上。
越来越流行的替代方法是使用AI法官,这通常是可以评估或验证第一个工具输出的另一个LLM。这种方法允许进行可扩展和快速的准确检查,但它具有局限性:法官本身可能会幻觉或不符合人类的判断,尤其是在复杂的情况下。一些改进包括使用多个法官进行比较,将反馈与基于检索的事实检查或设计工作流相结合,在这些工作流程中,低信心输出被升级为人类。
AI法官通常是另一个用于评估或验证第一个工具输出的LLM。
结构化的任务,例如生成代码,分类信息或以SQL或JSON等格式生成结构化数据,更容易自动化自动化。可以通过单元测试自动测试生成的代码或在沙盒环境中运行。可以检查分类输出以确保它们属于预定义的类别。可以自动检查诸如JSON,SQL或XML之类的结构化格式是否有句法有效性,尽管这仅确保正确格式化 - 不是内容本身的准确性。
总之,最有效的检查策略结合了自动化和人类的监督。自动化工具提供速度和规模,人类提供可靠性。通过将这些方法融合并使用风险意识分类,组织可以在质量保证和效率之间取得合理的平衡。
如果保证,你的意思是确切地每次都有相同的措辞,简短的答案是否定的。
如果使用不同单词在不同的情况下提出相同的问题,LLM的答案很可能会改变。但是,即使使用了完全相同的问题声明,几乎不可能保证确切地每次都会生成相同的答案。
您可以通过配置某些LLM设置(例如,将温度设置为零),锁定确切的模型版本,甚至自托管来降低可变性,从而控制整个硬件和软件堆栈。但是即使那样,技术因素也使消除现实世界生产环境中的所有变化变得非常困难。4因此,您仍然会偶尔会看到小措辞或强调不改变基本答案的含义。请注意,如果您主要关心答案的含义而不是它们的确切措辞,这可能是足够的。
真正保证相同措辞的唯一方法是在第一次生成的答案中存储(缓存),并在检测到同一问题时存储文本。如果您的重复检测是完美的,则此方法效果很好,但是在实践中,改写或稍微改变的问题可能会绕过缓存并触发LLM再生,从而产生不同的答案。
简而言之:您可以使答案非常一致,但是当前技术无法实现100%的措辞保证。
我们的专家专栏作家就现代企业和经理面临的重要问题提供了意见和分析。
本系列中的更多1。平均而言,令牌大约是一个单词的四分之三,而现代的LLM的词汇量为数万到100,000多个令牌。您可以输入不同的问题Openai的令牌工具并了解一个单词被标记以获得更深入的理解。
2。严格来说,鉴于输入,LLM在其词汇中为每个令牌生成了一个概率(即0.0至1.0之间的概率)。您可以将令牌的概率视为衡量其成为下一个令牌的适用性。在词汇量中的所有令牌中,概率总计为1.0。根据这些概率选择了下一个令牌,使用各种可控制者控制策略(例如,以最高概率选择令牌或按其概率成比例地选择令牌)。
3。有关该主题的学术研究的最新调查,请参见Y. Wang,M。Wang,M.A。Manzoor等人,大语言模型的事实:调查,在2024年自然语言处理经验方法会议论文集(迈阿密:计算语言学协会,2024年11月12日至16日),19519- 19529年。
4。仅举几例:无确定性的GPU操作,浮点舍入差异和无声的后端更新。