根据本月 arXiv 上发布的预印本1,由人工智能 (AI) 驱动的创意生成器提出的原创研究创意比 50 名独立工作的科学家还要多。
人类和人类人工智能生成的想法由评审员进行评估,评审员不会被告知是谁或什么创造了每个想法。评审员认为人工智能生成的概念比人类编写的概念更令人兴奋,尽管人工智能建议的可行性得分略低。
但科学家指出,这项未经同行评审的研究存在局限性。它专注于一个研究领域,并要求人类参与者即时提出想法,这可能会阻碍他们产生最佳概念的能力。
有人们正在迅速探索如何利用大语言模型来自动化研究任务,包括撰写论文、生成代码和搜索文献。但很难评估这些人工智能工具是否能够产生与人类水平相似的新研究角度。研究合著者斯成蕾表示,这是因为评估想法是非常主观的,需要聚集具有专业知识的研究人员来仔细评估它们。加利福尼亚州斯坦福大学的计算机科学家 Si 表示,对我们来说,了解这些功能的最佳方式是进行面对面的比较。
这个为期一年的项目是最大的努力之一耶路撒冷艾伦人工智能研究所的计算机科学家 Tom Hope 表示,旨在评估 ChatGPT 等工具基础技术的大型语言模型 (LLM) 是否能够产生创新的研究想法。他说,还需要做更多这样的工作。
该团队招募了 100 多名自然语言处理研究人员,这是计算机科学的一个分支,专注于人工智能与人类之间的通信。四十九名参与者的任务是在十天内根据七个主题之一开发和撰写想法。作为激励,研究人员为每个想法向参与者支付 300 美元,对于得分最高的 5 个想法,将奖励 1,000 美元。
同时,研究人员使用 Claude 3.5(Claude 3.5 开发的大语言模型)构建了一个想法生成器。人类在加利福尼亚州旧金山。研究人员促使他们的人工智能工具使用语义学者(一种人工智能驱动的文献搜索引擎)来查找与七个研究主题相关的论文。在这些论文的基础上,研究人员随后提示他们的 AI 代理针对每个研究主题生成 4,000 个想法,并指示它对最具原创性的想法进行排名。
接下来,研究人员将人类和人工智能生成的想法随机分配给 79 名评审员,他们根据每个想法的新颖性、兴奋性、可行性和预期有效性对每个想法进行评分。为了确保审稿人不知道想法的创造者,研究人员使用另一位大语言模型来编辑两种类型的文本,以标准化写作风格和语气,而不改变想法本身。
平均而言,审稿人的得分为人工智能产生的想法比人类参与者撰写的想法更加原创和令人兴奋。然而,当团队仔细研究 4,000 个 LLM 产生的想法时,他们发现只有大约 200 个是真正独特的,这表明人工智能在产生想法时变得不那么原创了。
当 Si 进行调查时参与者中,大多数人承认,与他们过去产生的想法相比,他们提交的想法是平均的。
结果表明,大语言模型可能能够产生比现有文献中的想法稍微更具原创性的想法”,加拿大温哥华不列颠哥伦比亚大学的机器学习研究员 Cong Lu 说道。但它们是否能够击败最具突破性的人类想法还是一个悬而未决的问题。
另一个限制是,该研究比较了由大语言模型编辑的书面想法,这改变了提交内容的语言和长度,说。杰文·韦斯特(Jevin West)是西雅图华盛顿大学的计算社会科学家。他说,这种变化可能会微妙地影响评论者对新颖性的看法。韦斯特补充说,让研究人员与可以在数小时内产生数千个想法的大语言模型进行比较可能不会产生完全公平的比较。他说,你必须将苹果与苹果进行比较。
Si 和他的同事计划将人工智能产生的想法与领先的会议论文进行比较,以更好地了解大语言模型如何与人类创造力相抗衡。他说,我们正在努力推动社区更加深入地思考当人工智能可以在研究过程中发挥更积极的作用时,未来应该是什么样子。