英语轻松读发新版了,欢迎下载、更新

新论文发现人工智能不太擅长历史TechCrunch

2025-01-19 15:01:00 英文原文

作者:Charles Rollet

人工智能可能在某些任务上表现出色喜欢编码或者生成播客。但一篇新论文发现,它很难通过高水平的历史考试。

一组研究人员创建了一个新的基准来测试三个顶级大型语言模型 (LLM)——OpenAI 的 GPT-4、Meta 的 Llama 和 Google 的 Gemini——在历史问题上的表现。Hist-LLM 基准测试根据 Seshat 全球历史数据库测试答案的正确性,该数据库是一个以古埃及智慧女神命名的庞大历史知识数据库。 

结果,其中被提出上个月在备受瞩目的人工智能会议 NeurIPS 上,根据附属研究人员的说法,结果令人失望复杂性科学中心(CSH),一家位于奥地利的研究机构。表现最好的 LLM 是 GPT-4 Turbo,但它只达到了 46% 左右的准确率——比随机猜测高不了多少。 

– 这项研究的主要结论是,法学硕士虽然令人印象深刻,但仍然缺乏高级历史所需的深度理解。论文之一的玛丽亚·德尔·里奥-查诺纳 (Maria del Rio-Chanona) 表示,它们对于基本事实非常有用,但当涉及到更细致的、博士级别的历史调查时,它们还无法胜任这项任务。其合著者和伦敦大学学院计算机科学副教授。

研究人员向 TechCrunch 分享了法学硕士错误的历史问题样本。例如,GPT-4 Turbo 被问及古埃及特定时期是否存在鳞甲。法学硕士说可以,但这项技术 1500 年后才出现在埃及。 

为什么法学硕士不擅长回答技术历史问题,而他们可以如此擅长回答有关编码等非常复杂的问题?Del Rio-Chanona 告诉 TechCrunch,这可能是因为法学硕士倾向于从非常重要的历史数据中进行推断,发现很难检索到更晦涩的历史知识。

例如,研究人员询问 GPT-4 古埃及在特定历史时期是否有专业的常备军。虽然正确答案是否定的,但法学硕士错误地回答说是。这可能是因为有大量关于其他古代帝国(例如波斯)拥有常备军的公开信息。

“如果你被告知 A 和 B 100 次,C 1 次,然后被问到有关 C 的问题,你可能只记得 A 和 B 并尝试从中推断,”del Rio-Chanona 说。

研究人员还发现了其他趋势,包括 OpenAI 和 Llama 模型在撒哈拉以南非洲等某些地区表现较差,这表明他们的训练数据存在潜在偏差。

领导这项研究的 CSH 教员 Peter Turchin 表示,结果表明,在某些领域,法学硕士仍然无法替代人类。 

但研究人员仍然希望法学硕士能够在未来帮助历史学家。他们正在努力通过纳入更多来自代表性不足地区的数据并添加更复杂的问题来完善基准。

“总的来说,虽然我们的结果强调了法学硕士需要改进的领域,但它们也强调了这些模型帮助历史研究的潜力,”论文中写道。

Charles Rollet 是 TechCrunch 的高级记者。他的调查报告导致美国政府对四家科技公司实施制裁,其中包括中国最大的人工智能公司。在加入 TechCrunch 之前,Charles 负责 IPVM 监控行业的工作。查尔斯住在旧金山,他喜欢和他的狗一起徒步旅行。您可以通过 Signal 通过 charlesrollet.12 或 +1-628-282-2811 安全地联系 Charles。

关于《新论文发现人工智能不太擅长历史TechCrunch》的评论


暂无评论

发表评论

摘要

NeurIPS 上发表的一项新研究发现,GPT-4、Llama 和 Gemini 等领先的大型语言模型 (LLM) 很难准确回答复杂的历史问题,在名为 Hist-LLM 的基准测试中仅达到约 46% 的准确率。该测试根据 Seshat 全球历史数据库评估模型的性能。研究人员得出的结论是,虽然法学硕士擅长基本事实,但他们缺乏高级历史调查所需的细致入微的理解,常常由于训练数据的偏差和难以检索晦涩的知识而失败。然而,随着改进,法学硕士有望成为历史学家的有用工具。