科学突破依赖于数十年的勤奋工作和专业知识,其中不乏灵光一现,有时还包括偶然的机缘。
如果我们能够加快这一过程会怎样?
探索新的科学想法时,创造力至关重要。这并不是凭空而来的:科学家们花费了数十年的时间来了解他们的领域。每一条信息都像一块拼图,可以重新组合成新的理论,例如,不同的抗衰老疗法如何融合,或者免疫系统如何调节痴呆症或癌症以开发新疗法。
人工智能工具可以加速这一点。在一项预印本研究中,来自斯坦福大学的一个团队将大型语言模型(LLM)(ChatGPT 背后的算法类型)与人类专家进行了比较,以就一系列人工智能研究主题产生新颖的想法。每个想法都由人类专家小组进行评估,他们不知道它是来自人工智能还是人类。
总体而言,人工智能产生的想法比人类专家产生的想法更加开箱即用。他们也被认为不太可行。那不一定是问题。新想法总是伴随着风险。在某种程度上,人工智能的推理就像人类科学家一样,愿意尝试高风险和高回报的想法,根据之前的研究提出想法,但更具创造性。
这项研究持续了近一年的时间,是尚未审查其研究潜力的最大的大语言模型之一。
大型语言模型和席卷全球的人工智能算法正在激发学术研究。
这些算法从数字世界中抓取数据,学习数据中的模式,并使用这些模式来完成各种专门任务。一些算法已经在帮助研究科学家。有些可以解决具有挑战性的数学问题。其他人正在梦想新的蛋白质来解决我们一些最严重的健康问题,包括阿尔茨海默氏症和癌症。
虽然有帮助,但这些只能在研究的最后阶段有所帮助,即当科学家们已经有了想法时。首先让人工智能来指导新想法怎么样?
人工智能已经可以帮助起草科学文章、生成代码和搜索科学文献。这些步骤类似于科学家第一次开始收集知识并根据他们所学到的知识形成想法。
其中一些想法非常有创意,因为它们可以导致开箱即用的理论和应用程序。但创造力是主观的。衡量研究想法的潜在影响和其他因素的一种方法是请一位对实验视而不见的人类法官。
我们将这种能力置于情境中的最佳方法是进行面对面的交流研究作者程磊对《自然》杂志表示,对人工智能和人类专家进行了比较。
该团队招募了 100 多名具有自然语言处理专业知识的计算机科学家来提出想法、充当法官或两者兼而有之。这些专家尤其精通计算机如何使用日常语言与人们进行交流。该团队让 49 名参与者与基于 Anthropics Claude 3.5 的最先进的大语言模型进行较量。科学家们每个想法可赚取 300 美元,如果他们的想法总体排名前 5 名,还可额外获得 1,000 美元。
创造力,尤其是在研究想法方面,很难评估。该团队使用了两种措施。首先,他们审视了这些想法本身。其次,他们要求人工智能和参与者简单、清晰地撰写文章,传达想法,有点像学校报告。
当机器人偏离事实并编造事实时,他们还试图减少人工智能的幻觉。
他们还试图减少人工智能的幻觉。>
该团队在该领域的大量研究文章中训练他们的人工智能,并要求它在七个主题中的每一个主题中产生想法。为了筛选生成的想法并选择最好的想法,团队根据之前的数据审查和流行计算机科学会议的发布接受情况设计了一个自动想法排序器。
汇总评审后,团队发现,平均而言,人类专家产生的想法不如人工智能产生的想法那么令人兴奋,但更多可行的。然而,随着人工智能产生更多的想法,它变得不再那么新颖,产生越来越多的重复。通过挖掘 AI 的近 4,000 个想法,该团队发现了大约 200 个独特的想法,值得进一步探索。
但许多想法并不可靠。部分问题源于人工智能做出了不切实际的假设。作者写道,它产生的幻觉想法是没有根据的,并且独立于它所训练的数据。大语言模型产生的想法听起来新颖且令人兴奋,但对于人工智能研究来说不一定实用,通常是因为延迟或硬件问题。
团队写道,我们的结果确实表明了人工智能想法的一些可行性权衡。
新颖性和创造性也很难判断。尽管该研究试图通过用大语言模型重写提交的内容(就像电话游戏一样)来降低评委区分哪些提交的内容是人工智能、哪些是人类的可能性,但长度或措辞的变化可能会微妙地影响评委如何看待提交的内容,尤其是当说到新奇。此外,要求提出想法的研究人员的时间有限。他们承认,与过去的工作相比,他们的想法处于平均水平。
团队一致认为,在评估人工智能产生的新研究想法方面,还有更多工作要做。他们还建议人工智能工具存在值得关注的风险。
他们表示,将人工智能融入研究创意生成会带来复杂的社会技术挑战。过度依赖人工智能可能会导致人类原创思想的衰退,而越来越多地使用大语言模型进行创意可能会减少人类协作的机会,而人类协作对于完善和扩展创意至关重要。
也就是说,新形式的创意人类与人工智能的协作,包括人工智能生成的想法,对于研究人员调查和选择新的研究方向可能很有用。
图片来源:Calculator Land / Pixabay