英语轻松读发新版了,欢迎下载、更新

植物计时机:AI正在解锁植物标本室收藏中持有的数据宝库

2025-08-19 05:08:38 英文原文

作者:Robert Turnbull

1770年之后库克上尉的努力袭击了大障碍礁植物学家约瑟夫·班克斯(Joseph Banks)和丹尼尔·索兰德(Daniel Solander)收集了数百种植物。

其中之一墨尔本大学标本室中的170,000个标本中,被压制的植物之一。

在全球范围内,植物标本中有超过3.95亿个标本。随着时间的流逝,它们共同构成了地球植物和真菌寿命的无与伦比的记录。

我们想找到一种更好,更快的方法来利用这些信息丰富的信息。我们的新研究描述新的AI驱动工具的开发和测试Hespi(用于标本式标本板管道的缩写)。它有可能彻底改变获取生物多样性数据的访问,并为研究开辟新的途径。

A composite image showing a pressed plant specimen collected by Joseph Banks and Daniel Solander in 1770 together with a scale and colour chart, alongside a closeup of the handwritten label

用于散布螺母头的样品表(Epaltes Australis),由约瑟夫·班克斯(Joseph Banks)和丹尼尔·索兰德(Daniel Solander)于1770年收集。 墨尔本大学植物标本室系列

数字化挑战

为了释放植物草的全部潜力,全世界的机构正在努力将它们数字化。这意味着以高分辨率拍摄每个标本,并将其标签上的信息转换为可搜索的数字数据。

一旦数字化,可以通过在线数据库(例如墨尔本大学植物标本室系列在线。他们也被喂入大型生物多样性门户,例如澳大利亚虚拟标本室, 这澳大利亚生活地图集,或者全球生物多样性信息设施。这些平台使各地的研究人员都可以访问数百年的植物知识。

但是数字化是一项巨大的任务。大型草药,例如新南威尔士州国家植物标志澳大利亚国家植物标志已经使用高容量的传送带系统来快速对数百万个标本进行图像。即使具有这种自动化水平,数字化115万个标本在新南威尔士州国家植物标志上,花了三年多的时间。

对于没有工业规模设置的较小机构,该过程要慢得多。工作人员,志愿者和公民科学家拍摄标本,并手工拍摄标签。

在目前的速度下,数十年来,许多收藏都将被完全数字化。这种延迟使大量的生物多样性数据锁定了。生态学,进化研究人员气候科学保护迫切需要访问大规模,准确的生物多样性数据集。更快的方法至关重要。

A composite image showing a photo of a yam daisy, image of the specimen in the collection and map showing specimen collection locations across Australia.

山药雏菊标本收集地点的地图(Microseris lanceolata)来自澳大利亚虚拟标本室的记录。 内维尔·沃尔什(Neville Walsh),维克洛拉(Vicflora)

AI如何使事情超速

为了应对这一挑战,我们创造了Hespi开源软件,用于自动从植物标本标本中提取信息。

Hespi将高级计算机视觉技术与AI工具(例如对象检测,图像分类和大型语言模型)相结合。

首先,它拍摄样品表的图像,该图像包括压制的植物并识别文本。然后,它使用光学字符识别和手写文本识别的组合来识别和提取文本。

对人和计算机的手写是挑战的。因此,Hespi通过OpenAI的GPT-4O大型语言模型将提取的文本传递,以纠正任何错误。这显着改善了结果。

因此,在几秒钟内,Hespi将主要标本标签定位在植物标本室,并读取其中包含的信息。这包括分类名称,收藏家详细信息,位置,纬度和经度以及收集日期。它捕获数据并将其转换为数字格式,可以在研究中使用。

例如,Hespi从下面的植物标本室正确检测并提取了所有相关组件。这个大的棕色藻类标本于1883年在圣基尔达(St Kilda)收集。

An image showing how Hespi reads the plant specimen sheet and tags information such as the genus, species, locality and year of collection.

Hespi在墨尔本大学的大型棕色藻类(Melua002557a)样品中的结果,确定了重要细节,例如属,物种,地方和收集年份。 墨尔本大学植物标本室

我们测试了Hespi的墨尔本大学植物标本室和其他收藏品的数千个标本图像。我们为管道中的不同阶段创建了测试数据集,并评估了各种组件。

它取得了成就高度准确性。因此,与手动数据提取相比,它有可能节省大量时间。

我们正在为软件开发图形用户界面,以便植物园策展人能够手动检查和纠正结果。

只是开始

草药已经以多种方式为社会做出贡献:从物种识别和分类学到生态监测,保护,教育甚至法医调查。

通过动员大量标本相关的数据,诸如Hespi之类的AI系统正在启用新的创新应用从来没有以前的规模。

AI已用于自动提取详细的叶子测量和其他特征从数字化的标本中解释了数百年的历史收藏,以快速研究植物进化和生态学。

这仅仅是开始的计算机视觉,并且AI很快就可以通过许多其他方式应用,进一步加速和扩展了植物学研究在未来的几年中

Photo of a well-lit pressed plant specimen sheet on black table with camera mounted above, looking down.

墨尔本大学植物标本室的数字化管道始于高分辨率标本图像的产生。墨尔本大学植物标本室 超越植物植物

Hespi等人工智能管道有可能从存在高质量数字图像的任何博物馆或档案收藏集中的标签中提取文本。

我们的下一步是与维多利亚博物馆的合作,以适应Hespi,以创建适合博物馆收藏的AI数字化管道。

AI管道将在博物馆全球化的化石Graptolite系列中动员约12500个标本的生物多样性数据。

An image showing a dark grey fossil graptolite specimen with numbers attached alongside handwritten labels with annotations from Hespi.

数据数字期间Hespi注释的维多利亚博物馆的化石Graptolite标本。博物馆维多利亚 我们还在与

澳大利亚研究数据共享(ARDC)使软件更灵活。这将使博物馆和其他机构中的策展人可以自定义Hespi从各种收藏品中提取数据 - 不仅仅是植物标本。

变性技术

就像AI重塑日常生活的许多方面一样,这些技术也可以改变对生物多样性数据的访问。人类合作可以帮助克服收集数字化中最大的瓶颈之一 - 标签数据的缓慢,手动转录。

动员已经锁定在全球草本植物,博物馆和档案馆中的信息对于使其用于了解和解决生物多样性危机所需的跨学科研究至关重要。

我们希望在墨尔本数据分析平台, 包括凯伦·汤普森(Karen Thompson)艾米丽·菲茨杰拉德(Emily Fitzgerald),为这项研究做出了贡献。

关于《植物计时机:AI正在解锁植物标本室收藏中持有的数据宝库》的评论


暂无评论

发表评论

摘要

研究人员开发了Hespi,这是一种AI驱动的工具,旨在通过自动从样品表中提取详细信息来加速标本室标本的数字化。这项新技术将先进的计算机视觉技术与大型语言模型(例如GPT-4)相结合,以提高转录手写数据的准确性和速度。Hespi对数千张图像进行了测试,在大大减少手动数据提取所需的时间方面表明了有希望的有望,并可能为博物馆和档案数字化工作中的更广泛应用铺平道路。