1770年之后库克上尉的努力袭击了大障碍礁植物学家约瑟夫·班克斯(Joseph Banks)和丹尼尔·索兰德(Daniel Solander)收集了数百种植物。
其中之一墨尔本大学标本室中的170,000个标本中,被压制的植物之一。
在全球范围内,植物标本中有超过3.95亿个标本。随着时间的流逝,它们共同构成了地球植物和真菌寿命的无与伦比的记录。
我们想找到一种更好,更快的方法来利用这些信息丰富的信息。我们的新研究描述新的AI驱动工具的开发和测试Hespi(用于标本式标本板管道的缩写)。它有可能彻底改变获取生物多样性数据的访问,并为研究开辟新的途径。
数字化挑战
为了释放植物草的全部潜力,全世界的机构正在努力将它们数字化。这意味着以高分辨率拍摄每个标本,并将其标签上的信息转换为可搜索的数字数据。
一旦数字化,可以通过在线数据库(例如墨尔本大学植物标本室系列在线。他们也被喂入大型生物多样性门户,例如澳大利亚虚拟标本室, 这澳大利亚生活地图集,或者全球生物多样性信息设施。这些平台使各地的研究人员都可以访问数百年的植物知识。
但是数字化是一项巨大的任务。大型草药,例如新南威尔士州国家植物标志和澳大利亚国家植物标志已经使用高容量的传送带系统来快速对数百万个标本进行图像。即使具有这种自动化水平,数字化115万个标本在新南威尔士州国家植物标志上,花了三年多的时间。
对于没有工业规模设置的较小机构,该过程要慢得多。工作人员,志愿者和公民科学家拍摄标本,并手工拍摄标签。
在目前的速度下,数十年来,许多收藏都将被完全数字化。这种延迟使大量的生物多样性数据锁定了。生态学,进化研究人员气候科学和保护迫切需要访问大规模,准确的生物多样性数据集。更快的方法至关重要。
AI如何使事情超速
为了应对这一挑战,我们创造了Hespi开源软件,用于自动从植物标本标本中提取信息。
Hespi将高级计算机视觉技术与AI工具(例如对象检测,图像分类和大型语言模型)相结合。
首先,它拍摄样品表的图像,该图像包括压制的植物并识别文本。然后,它使用光学字符识别和手写文本识别的组合来识别和提取文本。
对人和计算机的手写是挑战的。因此,Hespi通过OpenAI的GPT-4O大型语言模型将提取的文本传递,以纠正任何错误。这显着改善了结果。
因此,在几秒钟内,Hespi将主要标本标签定位在植物标本室,并读取其中包含的信息。这包括分类名称,收藏家详细信息,位置,纬度和经度以及收集日期。它捕获数据并将其转换为数字格式,可以在研究中使用。
例如,Hespi从下面的植物标本室正确检测并提取了所有相关组件。这个大的棕色藻类标本于1883年在圣基尔达(St Kilda)收集。
我们测试了Hespi的墨尔本大学植物标本室和其他收藏品的数千个标本图像。我们为管道中的不同阶段创建了测试数据集,并评估了各种组件。
它取得了成就高度准确性。因此,与手动数据提取相比,它有可能节省大量时间。
我们正在为软件开发图形用户界面,以便植物园策展人能够手动检查和纠正结果。
只是开始
草药已经以多种方式为社会做出贡献:从物种识别和分类学到生态监测,保护,教育甚至法医调查。
通过动员大量标本相关的数据,诸如Hespi之类的AI系统正在启用新的创新应用从来没有以前的规模。
AI已用于自动提取详细的叶子测量和其他特征从数字化的标本中解释了数百年的历史收藏,以快速研究植物进化和生态学。
这仅仅是开始的计算机视觉,并且AI很快就可以通过许多其他方式应用,进一步加速和扩展了植物学研究在未来的几年中。
Hespi等人工智能管道有可能从存在高质量数字图像的任何博物馆或档案收藏集中的标签中提取文本。
我们的下一步是与维多利亚博物馆的合作,以适应Hespi,以创建适合博物馆收藏的AI数字化管道。
AI管道将在博物馆全球化的化石Graptolite系列中动员约12500个标本的生物多样性数据。
澳大利亚研究数据共享(ARDC)使软件更灵活。这将使博物馆和其他机构中的策展人可以自定义Hespi从各种收藏品中提取数据 - 不仅仅是植物标本。
变性技术
就像AI重塑日常生活的许多方面一样,这些技术也可以改变对生物多样性数据的访问。人类合作可以帮助克服收集数字化中最大的瓶颈之一 - 标签数据的缓慢,手动转录。
动员已经锁定在全球草本植物,博物馆和档案馆中的信息对于使其用于了解和解决生物多样性危机所需的跨学科研究至关重要。
我们希望在墨尔本数据分析平台, 包括凯伦·汤普森(Karen Thompson)和艾米丽·菲茨杰拉德(Emily Fitzgerald),为这项研究做出了贡献。