作者:Seb Murray
随着生成人工智能系统的改善,一个自然的假设是,更好的大型语言模型将带来更好的结果。但是,来自几个麻省理工学院的分支机构的新研究表明,LLM的进步只是故事的一部分。
在大规模实验中研究人员发现,切换到更高级模型后,只有一半的性能提高来自模型本身。
另一半来自用户如何适应提示的方式,即告诉AI模型如何利用新系统的书面说明。
用户适应性的简单但有力的见解对性能做出了巨大贡献,而模型本身对企业的关键现实强调了:投资新的AI工具,除非员工还可以完善他们的使用方式。在这种情况下,提示是一项可学习的技能,即使没有指导,人们也可以快速进步。
哥伦比亚大学助理教授说,人们通常认为更好的结果主要来自更好的模型。大卫·霍尔茨(David Holtz),SM 18,博士学位21,一项研究分支机构关于数字经济的麻省理工学院倡议这是一个研究的合着者。•几乎一半的改进来自用户行为,这一事实确实挑战了这种信念。
在实验中,将近1,900名参与者被随机分配到OpenAI的DALL-E图像生成系统的三个版本之一:DALL-E 2,更高级的DALL-E 3或DALL-E 3与用户提示自动在不知情的情况下由GPT-4 LLM自动重写。一个
向参与者展示了参考图像,例如照片,图形设计或艺术品,并要求通过将指令键入AI来重新创建它。他们有25分钟的时间至少提交10个提示,并被告知,前20%的表演者将获得奖金付款,这促使他们进行测试和改进指示。”
研究人员发现以下内容:
尽管这项研究研究了图像的产生,但研究人员认为相同的模式也适用于其他任务,例如写作和编码。”
研究表明,随着时间的推移,适应提示的能力不仅限于精通技术的用户。
霍尔茨说,人们经常认为您需要成为一名软件工程师,以便促使并从AI中受益。”霍尔茨说。但是我们的参与者来自广泛的工作,教育水平和年龄段 - 甚至没有技术背景的人也能够充分利用新的模型的能力。”
数据表明,提示更多是关于通信,而不是编码。霍尔茨说,最好的提示器不是软件工程师。”他们是知道如何用日常语言清楚地表达思想的人,不一定在代码中。
该可访问性还可能有助于减少具有不同技能水平和经验的用户之间的性能差距。马里兰大学助理教授Eaman Jahani,博士学位22,《麻省理工学院数字经济》的数字研究员,以及一项研究合着者,一个 指出,生成的AI有可能缩小用户之间的性能差距。
贾哈尼说,从[绩效]量表的低端开始受益最大的人,这意味着结果的差异变得较小。”模型进步实际上可以帮助减少产出的不平等。
贾哈尼(Jahani)指出,团队的发现适用于具有明确,可衡量的结果的任务,在这种任务上,在这种任务上是一个很好的结果。他指出,目前尚不清楚同样的模式是否会在没有单个正确答案的情况下进行更开放的任务,并且有可能带有较大的回报,例如提出变革性的新想法。一个
最令人惊讶的结果之一来自使用Dall-E 3和生成AI重写提示的小组。尽管此功能旨在帮助用户,但相对于基线DALL-E 3组,它的图像生成任务中的性能降低了58%。
该团队发现自动重写通常会添加额外的细节或更改用户试图说的内容的含义,导致AI产生错误的图像。
holtz说,[自动提示]仅适用于这样的任务,目标是尽可能匹配目标图像。”霍尔茨说。更重要的是,它显示了当设计师对人们将如何使用它们做出假设时,AI系统如何崩溃。如果您将隐藏的指令硬编码到工具中,则可以轻松地与用户实际尝试的操作发生冲突。
亲自在麻省理工学院
立即注册
要点是,除了选择正确的AI模型外,业务领导者还应专注于启用正确的用户学习和实验。贾哈尼说,提示不是插件的技能。他说,公司需要不断投资人力资源。人们需要吸引这些技术,并知道如何使用它们。
为了建立生成AI的收益,研究人员为希望使AI系统在现实世界中更有效的业务领导者提供了一些优先事项:
该论文还由麻省理工学院斯隆(Mit Sloan)博士生合着本杰明·曼宁,SM 24;Hong-Yi Tuye,SM 23;和穆罕默德·阿尔索贝(Mohammed Alsobay),16,SM 24;以及斯坦福大学博士生乔张,微软计算社会科学家Siddharth Suri,和塞浦路斯大学助理教授克里斯托斯·尼古拉德斯,SM 11,博士学位14。