一项研究发现,ChatGPT 等广泛使用的平台背后的人工智能模型比人类专家产生更多原创的研究想法。
在斯坦福大学的研究中,题为“大语言模型能否产生新颖的研究想法”?”在斯坦福大学的 Chenglei Si、Diyi Yang 和 Tatsunori Hashimoto 的带领下,研究人员调查了大型语言模型 (LLM) 是否能够自主生成与人类专家研究人员所创建的研究想法相媲美的新颖研究想法。
LLMs是一种生成式人工智能基础模型,最广为人知的是 OpenAI 和 Chat GPT 使用的模型。
研究发现,大语言模型可以产生在新颖性、兴奋性和有效性方面排名较高的想法,而人类专家则提出了更可行的想法。人工智能模型总体上产生了更好的想法。
该研究的研究员 Chenglei Si 告诉《新闻周刊》,这些数据意味着“大语言模型可以在这些具有挑战性和创造性的任务中发挥比许多人想象的更大的作用。”
他说,虽然“我们没有任何具体结果”显示“完全端到端自主研究代理的可行性和有效性”,但我们正在“朝着这个未来迈进,它将推动一些重大转变该研究包括三个控制组,第一个控制组由 49 名人类专家提出想法,第二个控制组由人工智能代理产生想法,然后是由人工智能代理产生的想法。第三种是组合,人工智能代理产生想法,但人类专家对这些想法重新排序。
然后招募 79 名人类专家对人类专家和大语言模型的想法进行盲目审查和评级确定每个类别中哪些是最好的。
这些想法是根据七个不同主题产生的:偏见、编码、安全、多语言、事实性、数学和不确定性。
研究发现,大语言模型可以“提供可以为未来改进想法生成系统的方法提供信息的见解”,并产生比“任何人都可以”“多得多”的想法,并且有能力过滤想法以“从大量的想法中提取最好的想法”。报告称。
然而,人工智能代理也存在局限性,因为大语言模型产生的想法越多,重复的想法就越多,这表明他们在想法生成方面缺乏一定程度的多样性。
p>
该研究还发现大语言模型尚无法可靠地评估想法,研究人员补充说,这也引发了“对主要基于大语言模型评估者的结论的信任担忧”,正如报告中所写的。
研究人员还反思了这些发现可能对人类专家产生的影响,并确定将人工智能引入研究想法生成可能会导致“不可预见的后果”。
他们警告说,“过度依赖人工智能可能会导致人类原始思想的衰退”并且“可能会减少人类合作的机会,而这对于提炼和扩展思想至关重要。”
这项研究花了一年的时间才完成,并由 Chenglei Si 发布在 X 上,评论,“我们获得了第一个具有统计意义的结论:大语言模型产生的想法比人类专家研究人员撰写的想法更新颖。”
您有我们应该报道的故事吗?您对本文有任何疑问吗?请联系 LiveNews@newsweek.com。
Jasmine Laws 是英国伦敦《新闻周刊》的现场新闻记者。报道美国政治,...阅读更多