通过道德机器学习工具革命性的早期现代文本转录工具革新

2025-07-21 21:07:34 英文原文

作者:Dario Radley

近年来,数字化工作使十六世纪和十七世纪的印刷书籍比以往任何时候都更广泛。学者现在可以搜索数字转录以获取关键字,而无需离开桌子或不得不访问物理档案。尽管如此,由于时间,劳动力和资金的限制,大多数数字化材料仍然很容易。

Early modern text transcription revolutionized by ethical machine learning tools
16世纪的圣基亚拉(Naples),《反河》(Antiphonary)的手稿。信用:Yair Haklai/CC BY-SA 4.0

Serena Strecker和Kimberly Lifton在《 16世纪杂志》上发表的一篇新文章介绍了该问题的技术和道德维度。作者讨论了传统转录方法的替代方法,这些方法通常依靠外包劳动者(例如研究生或工人)手动转录历史文本。

光学特征识别(OCR)软件虽然有效地转录了19世纪和20世纪后期文本,但对于早期现代印刷品中常见的不一致类型不合适。因此,早期的现代学者越来越多地转向手写文本识别(HTR)技术。最有效的HTR软件Transkribus支持公共转录模型访问或个人培训,为转录挑战提供了新的解决方案。

斯特雷克(Strecker)和利顿(Lifton)在四个十六世纪德国典范集合中使用Transkribus进行了案例研究。他们的实验结果证明,即使是公开可用的HTR模型也可以产生非常准确的现代现代印刷文本转录。此外,如果学者使用Transkribus的公共模型来生成培训数据,他们可以在五步过程中开发针对原始材料量身定制的模型。

Early modern text transcription revolutionized by ethical machine learning tools
威廉·莫里茨·凯夫斯坦(Wilhelm Moritz Keferstein)的笔迹在1864年左右,摘自Gãtttingen动物学博物馆手写纪事的字母示例。信用:F。Welter-Schultes

这种方法不仅可以最大化转录精度,而且可以保证道德依从性。作者认为,雇用外包工人是不再需要的。取而代之的是,它们促进了赋予个人研究人员产生自己的抄写能力的转变,从而避免了学术界的不平等现象,并繁殖了殖民劳动实践的长期影响。

尽管有HTR的希望,但作者很清楚,现代学术界的早期学术界需要讨论如何将该技术纳入研究工作流程。斯特雷克(Strecker)和利夫顿(Lifton)总结说,通过早期现代印刷的准确和自动转录,不再是现实的目标,“早期现代研究领域必须考虑人类劳动和机器学习技术的组合,并最终塑造研究的未来。”

他们强调,未来的抄录不仅必须在技术上有效,而且要维护劳动力道德。•只有坚持道德劳动实践,学者才能避免在学术等级中加剧不平等现象,或者使殖民主义的持久不平等永久化。”

更多信息:Strecker,S。和K. Lifton(2025)。解锁早期现代印刷的数字化档案:早期现代印刷书籍的自动转录。16世纪期刊,一个 56(2),395 419。doi:10.1086/735052

关于《通过道德机器学习工具革命性的早期现代文本转录工具革新》的评论


暂无评论

发表评论

摘要

在数字化16和17世纪印刷书籍方面的最新努力提高了可访问性,但由于资源限制,大多数材料仍未转录。Serena Strecker和Kimberly Lifton的一篇新文章探讨了传统转录方法的替代方案,突出了使用手写文本识别(HTR)技术(如Transkribus)的使用。他们的案例研究表明,HTR具有准确的转录潜力,主张赋予个人研究人员权力而不是依靠外包劳动力的道德实践。作者呼吁讨论有关将HTR整合到学术工作流程中,以塑造未来的研究,同时维护劳动力道德。