英语轻松读发新版了,欢迎下载、更新

人工智能模型难以应对专家级的全球历史知识

2025-01-22 21:12:39 英文原文

作者:Eric W. Dolan

研究人员最近使用源自 Seshat 全球历史数据库的基准评估了先进人工智能 (AI) 模型回答有关全球历史问题的能力。研究,在神经信息处理系统会议上发表温哥华的研究人员透露,性能最好的模型 GPT-4 Turbo 在多项选择测试中取得了 46% 的成绩,比随机猜测有显着进步,但距离专家理解还差得很远。研究结果突显了当前人工智能工具处理和理解历史知识的能力存在重大局限性,特别是在北美和西欧等有据可查的地区之外。

这项研究的动机源于探索人工智能(AI)工具在帮助历史和考古研究方面的潜力的愿望。历史和考古学通常涉及分析大量复杂且分布不均匀的数据,这使得这些领域对研究人员来说尤其具有挑战性。

人工智能的进步,特别是大语言模型(LLM)的进步,已经证明了它们在法律和数据标签等领域的实用性,这引发了一个问题:这些工具是否可以通过处理和综合历史知识来同样帮助历史学家。研究人员希望人工智能能够增强人类的努力,提供否则可能会被错过的见解,或者加快数据组织等劳动密集型任务的速度。

Peter Turchin 是复杂性科学中心的项目负责人,他和他的合作者开发了Seshat 全球历史数据库,历史知识的综合宝库。他们认识到需要对人工智能对历史的理解进行系统评估。研究人员希望这项研究不仅能够揭示当前人工智能的优势和劣势,还能指导未来改进这些工具以供学术使用的努力。

Seshat 全球历史数据库包含约 600 个历史社会的 36,000 个数据点,涵盖世界所有主要地区,跨越 10,000 年的历史。数据点取自 2,700 多个学术来源,并由历史学家专家和研究生研究助理编码。该数据集的独特之处在于它采用系统方法来记录有充分支持的证据和推断的结论。

为了评估人工智能的表现,研究人员将数据集转换为多项选择题,询问历史变量(例如,是否存在文字或特定的治理结构)是否“存在”、“是否不存在”在给定社会的时间范围内“推断存在”或“推断缺席”。测试了 7 个 AI 模型,包括 GPT-3.5、GPT-4 Turbo、Llama 和 Gemini。模型提供了一些例子来帮助他们理解任务,并被指示在他们的回答中扮演专家历史学家的角色。

研究人员使用平衡的准确性指标评估了模型,该指标解释了数据集中答案分布不均匀的情况。随机猜测的得分为 25%,而完全准确的得分为 100%。这些模型还测试了区分“证据”和“推断”事实的能力,这是历史分析的关键技能。

“我们希望设定一个基准来评估这些法学硕士处理专家级历史知识的能力,”第一作者、复杂性科学中心的常驻科学家雅各布·豪瑟解释道。– Seshat 数据库使我们能够超越“常识”问题。我们基准的一个关键组成部分是,我们不仅测试这些法学硕士是否能够识别正确的事实,而且还明确询问是否可以从间接证据中证明或推断出一个事实。

GPT-4 Turbo 的表现优于其他模型,在四项选择测试中达到了 43.8% 的平衡准确度。虽然这个分数超出了随机猜测,但仍远远低于专家水平的表现。在简化的两项选择格式(“存在”与“不存在”)中,GPT-4 Turbo 表现更好,准确率为 63.2%。这些结果表明,虽然这些模型可以识别简单的事实,但它们却难以解决更微妙的历史问题。

– 这项研究中出现的一个令人惊讶的发现是这些模型有多么糟糕。这一结果表明,人工智能具有很强的特定领域性。法学硕士在某些情况下表现出色,但在其他情况下与人类相比却表现不佳。”Turchin 说道。

该研究还揭示了模型在不同地区、时间段和历史数据类型中的表现模式。模型通常在早期历史时期(例如公元前 3000 年之前)表现更好,但在处理更新的数据时表现不佳,这可能是由于社会和历史记录随着时间​​的推移变得越来越复杂。从地区来看,美洲社会的表现最高,而撒哈拉以南非洲和大洋洲的社会表现最低,这凸显了模型训练数据中的潜在偏差。

– 法学硕士(例如 ChatGPT)在某些领域取得了巨大成功,例如,他们通过取代律师助理而取得了巨大成功。但当涉及到对过去社会的特征做出判断时,尤其是那些位于北美和西欧以外的社会,他们的能力就更加有限了,”复杂性科学中心研究负责人图尔钦解释道。研究社会复杂性和崩溃的小组。

有趣的是,这些模型在不同类型的历史数据(例如军事组织、宗教习俗和法律体系)中表现出相对一致性。然而,不同型号的性能差异很大。GPT-4 Turbo 在大多数类别中始终优于其他型号,而 Llama-3.1-8B 等较小型号则难以取得可比较的结果。

研究人员承认他们的研究存在一些局限性。Seshat 数据库虽然全面,但反映了其来源的偏见,这些来源主要是英语,并且重点关注有据可查的社会。这种语言和地区偏见可能会影响模型的表现。此外,该研究仅测试了有限数量的人工智能模型,为未来评估更新或更专业的工具留下了空间。

该研究还强调了解释历史数据的挑战。与有明确答案的领域不同,历史往往涉及模糊性和争论,这使得人工智能评估很难设计客观的基准。此外,这些模型在撒哈拉以南非洲等地区表现不佳,凸显了需要更多样化的训练数据来准确代表全球历史。

展望未来,研究人员计划扩展 Seshat 数据集,以包含来自代表性不足地区的更多数据,并纳入其他类型的历史问题。他们还旨在测试新的人工智能模型,以评估人工智能技术的进步是否可以解决本研究中发现的局限性。

– 这项研究的主要结论是,法学硕士虽然令人印象深刻,但仍然缺乏高级历史所需的深度理解。它们对于基本事实非常有用,但当涉及到更细致的、博士级别的历史调查时,它们还无法胜任这项任务,”该研究的相应负责人玛丽亚·德尔·里奥-查诺纳 (Maria del Rio-Chanona) 说。作家,伦敦大学学院助理教授。

报纸——大型语言模型 – 专家级全球历史知识基准 (HiST-LLM),作者为 Jakob Hauser、Daniel Kondor、Jenny Reddish、Majid Benam、Enrico Cioni、Federica Villa、James S. Bennett、Daniel Hoyer、Pieter François、Peter Turchin 和 R. Maria del Rio-Chanona。

关于《人工智能模型难以应对专家级的全球历史知识》的评论


暂无评论

发表评论

摘要

研究人员使用神经信息处理系统会议上 Seshat 全球历史数据库得出的基准评估了先进人工智能模型回答全球历史问题的能力。GPT-4 Turbo 在多项选择测试中取得了 46% 的成绩,比随机猜测有所提高,但仍达不到专家级的理解能力。该研究强调了当前人工智能在处理北美和西欧以外的历史知识方面的局限性,强调需要多样化的训练数据来增强未来模型的能力。