卷起的赫库兰尼姆卷轴的第一段内容揭晓
作者:Marchant, Jo
2023 年 10 月,一封电子邮件发送到 Federica Nicolardi 的手机上,其中的一张图片将永远改变她的研究。它展示了在维苏威火山喷发时被烧毁的纸莎草卷轴的碎片。广告79. 这幅烧焦的卷轴是十八世纪在意大利庞贝古城附近的赫库里尼姆一座豪华罗马别墅遗迹中发现的数百卷之一。几个世纪以来,人们一直试图将卷轴剥开,但易碎的碳化层留下了许多碎片,学者们被迫接受其余部分永远无法打开的事实。
意大利那不勒斯大学的纸莎草学家尼科拉迪 (Nicolardi) 曾参与一项利用人工智能 (AI) 阅读不可读内容的研究。现在最新的结果已经出来了。图像显示了一条纸莎草纸,上面写满了整齐的希腊字母,在较暗的背景下闪闪发光。字迹清晰可辨,有几行深,横跨近五栏。
“这太不可思议了,”尼科拉迪说。“我想,“原来这真的发生了。”她当时就知道纸莎草学将永远不会一样。“在那一刻,你真的会认为“现在我正在经历的事情将成为我所在领域的历史性时刻。”她正在阅读整行文本,而这对于过去的人们来说是完全无法理解的。2000年。
这个名为“维苏威火山挑战”的项目只是复杂人工智能的一个例子,它已经彻底改变了现代生活的所有领域,从银行业到医学研究,并将重塑我们对古代世界的看法。人工神经网络被用来破译古代文本,从古典的希腊语和拉丁语到中国的甲骨文(写在牛骨和龟壳上的古代占卜文本)。他们正在理解人类无法阅读的庞大档案,填补缺失和无法读取的字符,并解码几乎没有任何痕迹的稀有和失落的语言。
研究结果预示着大量新文本的出现,为学者们提供了几个世纪以来更多的数据。但这还不是全部。由于人工智能工具可以识别比任何人所能知道的更多的语言并存储更多的信息,并且可以自己发现文本中的统计模式,因此这些技术有望提供一种探索古代资源的全新方式。尼科拉迪说,这不仅可以改变我们想要回答的问题,还可以改变我们可以提出的问题。
几十年来,计算机一直被用来对数字化文本进行分类和分析。但当前的兴奋来自于神经网络的使用,神经网络由互连节点的分层层组成,特别是具有多个内部层的“深层”神经网络。
2010 年代,将深度学习应用于古代文本的早期尝试是基于文本的数码照片,无论是纸莎草还是棕榈叶上的文本。受视觉神经科学启发,称为卷积神经网络 (CNN) 的模型可以从图像中捕获网格状数据。它们用于光学字符识别,但也有其他应用:研究 Oracle Bone Script 的中国团队已经使用此类模型来填充侵蚀字母的图像1,分析甲骨文文字如何随时间演变2并将破碎的碎片拼凑起来3。与此同时,循环神经网络(RNN)旨在处理线性顺序很重要的数据序列,开始显示出在搜索、翻译和填补已转录文本中的空白方面的巨大潜力。例如,它们被用来暗示古巴比伦数百个公式化的行政和法律文本中缺失的字符4。
卷起的赫库兰尼姆卷轴的第一段内容揭晓
神经网络能否超越加速繁琐任务的范围,建立人类专家无法做到的联系?第一个展示人工智能潜力的大型项目始于 2017 年在英国牛津大学的合作项目,当时 Thea Sommerschield 正在攻读古代历史博士学位,Yannis Assael 正在攻读计算机科学博士学位。索默斯基尔德试图破译来自西西里岛的希腊铭文,并向阿萨尔解释了所面临的挑战。“它们读起来非常复杂,保存得很差,部分内容丢失了,”她说。– 我们不太确定他们来自哪里或者他们的日期是什么;有有趣的方言混合。”
古典主义者利用他们对现有类似文本的了解来解释新的来源。他们通常是特定时间和地点作品的专家;一个人不可能掌握与新文本可能相关的所有来源。现在就职于伦敦 Google DeepMind 的阿萨尔表示,这正是机器学习模型可以帮助解决的挑战。
研究人员最初使用 7 世纪之间书写的数万个希腊铭文训练了一个名为 Pythia 的基于 RNN 的模型公元前和第五世纪广告。然后他们展示了它以前没有见过的模型文本,并要求它建议缺失的单词或字符5。
现就职于英国诺丁汉大学的 Sommerschield 仍然记得第一次与 Assael 和她的导师 Jonathan Prag 一起运行该模型,并看到修复体逐个字符地出现在屏幕上,这在以前是不可能的。
“这就像电影中的场景,”她说。“我们真的感觉下巴都撞到了地上。”他们在 2022 年推出了一个名为 Ithaca 的模型,该模型还为未知文本的起源日期和地点提供了建议6。这次,研究人员利用了称为 Transformer 模型的机器学习突破,该模型通过并行分析输入的不同特征(例如字符或单词)来捕获比 RNN 更复杂的语言模式,根据上下文对它们进行加权。(OpenAI 的 ChatGPT 和 Anthropic 的 Claude 等流行的聊天机器人都是基于 Transformer 模型的。)
Sommerschield 表示,该团队的目标是设计能够帮助研究人员更有效地工作的工具:神经网络探索庞大档案中的联系,而人类则带来他们的专业理解。“人是我们设计的中心,”阿萨尔表示同意。在测试中,伊萨卡以 62% 的准确度修复了古代文本中人为产生的空白,而人类专家的准确度为 25%。但在伊萨卡建议的帮助下,专家们得到了最好的结果,填补了空白,准确率为 72%。伊萨卡还以 71% 的准确度确定了铭文的地理起源,并将其年代确定为公认估计的 30 年内。
伊萨卡岛是在线免费提供据其创建者称,每周已经收到数百个查询。萨默斯希尔德说,除非作者选择承认,否则不可能知道它何时对研究做出了贡献,但迄今为止报道的例子包括重新确定雅典政治法令的日期,以及对四世纪石碑的调查公元前其中包含向希腊西北部多多纳神谕提出的问题。
与此同时,韩国研究人员在处理世界上最大的历史档案之一时面临着截然不同的挑战:详细的每日记录,包含数十万篇文章,涵盖 27 位韩国国王的统治时期,时间可追溯到 14 世纪到 20 世纪初几个世纪。“数据量巨大,”纽约大学机器翻译首席研究员 Kyunghyun Cho 说道。曹通常使用现代语言进行研究,但在与他的父亲(一位退休的韩国文学教授)讨论后对这些档案产生了兴趣。这些记录很完整,来源也已知,但几乎没有人能读懂。它们是用汉字书写的,汉字是一种基于汉字的古代书写系统,与现代中文或韩语不同。
一小群政府翻译人员正在努力将这些文本手动翻译成现代韩语,但这项任务可能需要几十年才能完成。Cho 与韩国的同事(包括首尔成均馆大学的 JinYeong Bak)合作,训练了一个基于变压器的网络来自动翻译记录7。目前还没有足够的材料被翻译成现代韩语来训练这样的模型,因此团队采取了多语言方法,使用汉字、几十年前翻译成古式韩语的内容以及数量有限的现代韩语和英语翻译。人类专家认为人工智能翻译——对国事访问、惩罚叛徒和音乐会等事件的描述——比古老的翻译更加准确和可读,在某些情况下甚至比现代翻译更好8。
另一方面,研究人员正在使用神经网络来处理仅存少量文本的古代语言。Transformer 模型并不总是适用于这些情况,因为它们需要大量的培训材料。例如,希腊帕特雷大学的 Katerina Papavassileiou 和她的同事使用 RNN 来恢复来自克里特岛克诺索斯的一系列 1,100 块迈锡尼石碑中丢失的文本,其中包含用名为 Linear B 的脚本编写的羊群记述。千年公元前9。在人为产生间隙的测试中,该模型的前 10 个预测在 72% 的情况下包含正确答案,并且在现实情况下,它通常与人类专家的建议相匹配。为了进一步改进结果,Papavassileiou 希望添加视觉数据,例如不完整字母的痕迹,而不仅仅是依赖音译文本。她还在研究“迁移学习”,该模型将从一系列平板电脑中学到的经验教训应用到另一系列平板电脑上10。
Papavassilieou 希望有一天能够使用在 Linear B 上训练的模型来解决 Linear A,这是米诺斯文明使用的一种文字,与 Linear B 共享许多符号,但从未被破译。
或许,研究人员研究赫库兰尼姆古卷的成功是人工智能解决巨大挑战能力的最终证明。“我认为他们正在做一些最令人惊奇的工作,”阿萨尔说。列克星敦肯塔基大学的计算机科学家布伦特·西尔斯和他的同事在维苏威火山挑战赛参与者的帮助下,正在解决看似不可能的任务,即阅读根本看不到的文本。
阅读赫库兰尼姆古卷需要克服两个大问题。首先,脆弱的卷轴无法展开。为了看到它们的内部,西尔斯花了数年时间开发“虚拟展开”技术,该技术包括对卷轴的内部结构进行高分辨率计算机断层扫描 (CT) 扫描,并精心手工绘制每一帧中可见的表面。横截面,然后使用算法将表面展开成平面图像。2015 年,研究人员使用这种技术从以色列恩戈地的一个烧焦的、无法打开的卷轴中读取了完整的文本,该卷轴的历史可以追溯到三世纪左右广告,原来出自圣经《利未记》11。隐基底卷轴有五卷;
赫库兰尼姆古卷每卷都有数百圈,薄如丝绸。因此,为了捕获极高分辨率的 CT 数据,该团队将几个卷轴运送到牛津附近的钻石光源粒子加速器。但是,恩基底卷轴和其他后来的作品中的墨水往往含有铁,在 CT 扫描中会发出明亮的光,而赫库兰尼姆的抄写员则使用碳基墨水,这种墨水在扫描中不可见,因为它的密度与其所在的纸莎草相同。在。西尔斯和他的团队意识到,虽然他们无法直接看到墨水,但他们也许能够检测到它的形状。如果裸露的纸莎草纤维与涂有墨水的纸莎草纤维的表面纹理存在细微差别,也许他们可以训练神经网络来发现差异。
对于 Seales 的小团队来说,工作量太大,因此他们于 2023 年 3 月与硅谷企业家 Nat Friedman 联手发起了维苏威挑战赛,该挑战赛提供了巨额现金奖励。西尔斯和他的同事发布了卷轴表面的扁平图像,并要求参赛者训练神经网络来寻找墨水。超过 1,000 支队伍参加了比赛,每天都有数百人在 Discord 频道上讨论比赛的进展情况。2024 年 2 月颁发了一项大奖:计算机科学专业的学生 Youssef Nader、Luke Farritor 和 Julian Schilliger 共同获得了 70 万美元的奖金生成 16 列清晰可读的文本。
获胜团队使用了 TimeSformer,这是 Transformer 模型的最新变体,通常用于视频,分别处理空间和时间维度。维苏威火山团队用它来区分纸莎草的深度尺寸和表面外观。尼科拉迪和她的同事随后发现,揭示的文本来自一部以前未知的关于音乐、快乐和感觉的希腊哲学著作,可能是伊壁鸠鲁派哲学家菲洛德穆斯的著作。她说,从事这项工作是“神奇的”。
从那时起,参赛者在纸莎草学家的帮助下一直致力于改进他们的墨水检测算法。与此同时,Seales 团队正在扫描更多卷轴,并希望机器学习能够加快虚拟展开步骤。他说,这是目前限制参赛者必须使用的数据的瓶颈。他乐观地认为,人工智能驱动的拆包技术将及时推出,让阅读了四卷卷轴 90% 的人赢得 2024 年大奖,奖金为 200,000 美元。“一旦实现自动化,基本上就可以扩大规模,”西尔斯谈到拆包时说道。“我们正处于这一点的风口浪尖。”
事实上,西尔斯想要阅读整个图书馆。有数百幅来自赫库兰尼姆的未开封卷轴被收藏——主要在那不勒斯,但巴黎、伦敦和牛津也有收藏。“对于纸草学家来说,这将是一个世纪以来从未见过的来自古代世界的新文本,”他说。
该方法还打开了其他无法访问的资源,西尔斯称之为“隐形图书馆”。其中包括隐藏在中世纪书籍装订或古埃及木乃伊包装内的文字,“它就在这里,我们拿着实物,但我们无法阅读文字”。该团队已经从华盛顿特区史密森尼博物馆保存的未打开的埃及卷轴中捕获了数据,并正在讨论分析来自约旦佩特拉的纸莎草纸,这些纸莎草纸在七世纪的一场火灾中被烧毁广告。更重要的是,一些考古学家认为赫库兰尼姆别墅的大部分图书馆仍然位于地下。如果将其挖掘出来,可能会产出数千卷卷轴。
西尔斯说,阅读所有这些内容将是“人类历史上来自古代世界的最大发现”。– 现在,我们拥有了技术。 –