口哨声、歌曲、嗡嗡声和生物鸣声：利用 AI 识别鲸鱼发声 - Google 研究

2024-09-18 15:31:49 英文原文

口哨声、歌曲、嗡嗡声和生物鸣声：利用 AI 识别鲸鱼发声

2024 年 9 月 18 日

Lauren Harrell，Google 研究院数据科学家

我们推出了新的鲸鱼生物声学模型，该模型可以识别八个不同的物种，包括对其中两个物种的多次呼叫。该模型还包括最近归因于布氏鲸的 Biotwang 声音。

快速链接

为了保护生活在偏远环境中的动物，研究人员必须能够找到它们并理解它们随着时间的推移，人口的流动情况。随着长期被动声学监测能力在技术上变得越来越复杂，基于这些记录的声景的大型数据集构建的自动动物物种识别工具已成为保护和生态研究日益重要的工具。虽然 Google Perch 等模型已经出现，可以对数千种鸟类的发声进行分类，但事实证明，可以同时对多种鲸鱼物种的发声进行分类的类似模型的开发更具挑战性。

鲸鱼物种的声学范围令人难以置信范围很广，从蓝鲸的低至 10 Hz 到齿鲸（齿鲸）的 120kHz 以上，并且记录也因地点和时间而异，这可能使模型开发变得困难。此外，研究人员通常不知道一些特别难以捉摸的鲸鱼物种会发出什么类型的声音，这使得在音景中识别这些动物变得复杂。围绕着一种名为 Biotwang 的声音的数十年之久的谜团就说明了这一点，这种声音是大约十年前在马里亚纳海沟深处首次记录到的。这种声音具有“金属般的”或“类似钟声的”品质，与鲸鱼发声中更典型的音调呻吟完全不同。在最近的一篇论文中，我们在美国国家海洋和大气管理局 (NOAA) 的合作者确定 Biotwang 声音是由难以捉摸的布氏鲸（发音为“broodus”）独特发出的。

今天我们很高兴分享谷歌最新的鲸鱼生物声学模型，该模型可以识别八个不同的物种，以及对其中两个物种的多次呼叫。继我们的合作者发现将 Biotwangs 与布赖德鲸联系起来之后，在同一篇论文中，我们扩展了模型以将 Biotwangs 纳入其中，并用它来标记超过 200,000 小时的水下录音。在这里，我们描述了该模型，并讨论了它正在帮助研究人员解开的关于鲸鱼物种生态学的一些新见解。该模型现已可通过 Kaggle Models 下载。

项目背景

Google 研究鲸鱼发声分类之旅始于 2018 年，当时我们合作开发了一种用于检测座头鲸的新型分类模型与 NOAA 太平洋岛屿渔业科学中心 (PIFSC) 合作。该模型用于从 NOAA 收集的超过 187,000 小时的音频中识别座头鲸的叫声，确认座头鲸鸣叫的时空模式，并发现金曼礁以前从未观察到座头鲸叫声的新位置。当我们与 Google Creative Lab 合作发布 Pattern Radio 时，该模型进一步引起了轰动，Pattern Radio 是在夏威夷附近收集的全年水下音频的交互式可视化，由模型标记，并包含对数据部分的额外专家见解。我们遵循 Google 的 AI 原则公开发布了座头鲸模型，以了解并最大程度地减少滥用该模型的可能性。

这些努力促成了与加拿大渔业和海洋部 (DFO) 的合作，特别是他们的海洋哺乳动物应对计划，其在萨利希海的行动包括管理极度濒危的南方虎鲸种群。我们共同发布了逆戟鲸（虎鲸）检测模型，DFO 也将其部署在其水听器监控网络中，以实现实时警报。

一种新的鲸鱼生物声学模型

我们开发了我们新的多物种鲸鱼模型可以对八种不同物种的水下音频进行评分和分类。其中两个物种按发声类型进一步细分，总共产生十二个类别。该模型是多标签的，因此分数是独立的，并且不限于顶级类别或类别。

以下是该模型可以提供分类分数的物种列表：

座头鲸 (Megaptera novaeangliae)
虎鲸 (Orcinius orca)
蓝鲸 (Balaenoptera musculus)
长须鲸 (Balaenoptera physalus)
小须鲸 (Balaenoptera acutorostrata)
布氏鲸 (Balaenoptera edeni)
北大西洋露脊鲸 (Eubalaena glacialis)
北太平洋露脊鲸鲸鱼 (Eubalaena japonica)

每个物种的音频示例都在此存储库中。

模型开发

我们模型的第一步是将原始音频数据转换为表示每个 5 秒声音窗口的称为频谱图的图像。模型的前端使用梅尔标度频率轴、对数振幅压缩，并通过减去每个频率仓中的 5%-ile 对数振幅进行归一化。然后，该模型将这些图像分类为 12 类鲸鱼物种或发声类别中的任何一类。

因为长期被动声学监测不仅需要正确分类物种，还需要正确拒绝背景和非动物声音事件，我们并没有将训练仅限于正面标签。我们从合作伙伴提供的录音中广泛采样了负面数据和背景数据。为了进行模型验证，我们随机选择了可用训练数据的 20% 的统一子集作为测试集。

测试集上的模型性能如下图所示。总体而言，该模型对每个类别都具有良好的判别性能。Minke、NARW、NPRW 和 Bryde 的类别在所有三个指标上的值都接近 1，这表明模型性能较高，需要在误报和漏报之间进行不太严格的权衡。这种权衡对于逆戟鲸回声定位和口哨来说更为突出。

有关模型的更多详细信息以及应用于音频数据的示例代码可在 Kaggle 模型上找到。

模型中的新标签

虽然我们的数据中包含许多独特且迷人的鲸鱼声音，但我们重点介绍了模型中包含的一些特定物种及其一些独特的声音。我们还强调了我们如何为其中一些物种和声音生成标签，即使我们的合作伙伴提供的训练数据没有标记这些声音。

小须鲸的鸣叫声

一个神秘的老者与 Biotwangs 的环绕声不同，金属声可以追溯到 20 世纪 50 年代的潜艇录音。直到 2005 年，NOAA 科学家才将这种特殊噪音归因于小须鲸 (Balaenoptera acutorostrata)。我们最初的 PIFSC 标签集不包括这种叫作“boing”的发声，但在开发原始的 Google 座头鲸模型时，我们在第一次尝试中注意到它是一种错误模式。我们成功地扩展了这些“发现”的标签，足以将小须鲸作为多物种模型中的一个类别。

北太平洋露脊鲸的叫声和枪声

北太平洋露脊鲸种群是已知唯一会唱歌的露脊鲸种群。这些鲸鱼的东部种群估计只有 3035 头。虽然露脊鲸、弓头鲸甚至座头鲸都可能发出叫声，但北太平洋露脊鲸可以通过其独特的枪声来区分。

蓝鲸和长须鲸

PIFSC在我们最初合作座头鲸模型之前，已经注释了蓝鲸和长须鲸存在的数据子集。这些物种不仅存在于夏威夷群岛周围，还存在于世界所有主要海洋的近海水域中。

在这项工作中，它们的存在在蒙特利运营的 MARS 水听器的子集中尤其引人注目海湾水族馆研究所。但是，我们没有 MARS 数据的真实标签，因此我们仅在 PIFSC 数据上训练了特定于蓝鳍的模型，并将其应用于为 MBARI 数据创建伪标签。

新见解

布氏鲸是与蓝鲸和长须鲸同属的须鲸。虽然世界各地都有关于目击这些动物的报道，但人们对它们的活动或种群结构知之甚少。2014 年和 2015 年在马里亚纳海沟收集的录音捕捉到了一种称为 Biotwang 的独特发声。这种复杂的、由 5 部分组成的呼叫持续约 3.5 秒，从大约 44 Hz 到 30 Hz 的低频下扫呻吟开始，然后是高达 8000 Hz 的金属声音。由于发声与看到这些动物无关，研究人员最初将其归因于一种未确定的鲸须物种。

随后，NOAA 研究人员通过将视觉观察和捕获的声学数据进行对齐，将 Biotwangs 归因于布氏鲸由声纳浮标。在这篇新论文中，他们首次报道了这些长期神秘的、带有鼻音的叫声的真实身份。这种积极的识别使我们能够通过在训练数据中将 Biotwangs 标记为 Brydes 鲸鱼特征来改进我们的多物种鲸鱼模型。当应用于长期被动声学数据集的收集时，这导致在北太平洋西部发现了许多这种叫声的实例，揭示了中太平洋布氏鲸和西太平洋布氏鲸之间潜在的种群差异，并揭示了这些鲸鱼的季节性。迁徙模式。

将模型扩展到其他鲸鱼物种和特定声音

虽然我们的训练数据仅涵盖约 94 种鲸类物种中的 8 种，但预分类器激活的泛化能力比预分类器激活更好来自我们之前的（座头鲸模型）。这是由于更多的目标类别（12 对 1）、组合不同数据集导致的音频输入变化增加，以及包含一些与物种无关的目标类别，例如“回声定位”和“呼叫”。

模型可以通过 TensorFlow SavedModel API 单独调用，但上面的泛化用例从我们的开源生物声学工具中找到了额外的支持，以实现高效的主动学习和敏捷建模，这些工具可以在我们的 Google Perch GitHub 存储库中找到。因此，我们不仅可以使用该模型来查找该模型所训练的物种和发声，而且您还可以使用该模型中预先训练的嵌入来搜索、识别并快速创建新声音或鲸鱼物种的分类器。

致谢

这项工作是由 Matt Harvey、Lauren Harrell、Julie Cattiau、Tom Denton 和 Mikko Ilmonen 完成的。

我们还要感谢我们的外部合作伙伴：Ann Allen（NOAA 太平洋岛屿渔业局）；Carrie Wall（科罗拉多大学博尔德分校和 NOAA NCEI）；Paul Cottrell、James Pilkington、Miguel Neves dos Reis（加拿大渔业和海洋部）；Harald Yurk（西蒙弗雷泽大学）；John Ryan 和 Danelle Cline（蒙特利湾水族馆研究所）；Catherine Berchok（NOAA 阿拉斯加渔业科学中心）；Daniel Woodrich（NOAA 阿拉斯加渔业科学中心和华盛顿大学气候、海洋和生态系统合作研究所）；Marc Lammers、Anke Kgler 和 Eden Zang（NOAA 夏威夷群岛座头鲸国家海洋保护区）；Genevieve Davis 和 Sofie Van Parijs（NOAA 东北渔业科学中心）；Nicole Pegg（NOAA NEFSC/佛罗里达大西洋大学）。

关于《口哨声、歌曲、嗡嗡声和生物鸣声：利用 AI 识别鲸鱼发声 - Google 研究》的评论

暂无评论

发表评论

摘要

口哨声、歌曲、嗡嗡声和生物声：使用 AIS 识别鲸鱼发声 2024 年 9 月 18 日劳伦·哈雷尔 (Lauren Harrell)，谷歌研究院数据科学家我们介绍了新的鲸鱼生物声学模型，该模型可以识别八种不同的物种，包括对其中两个物种的多次叫声。在最近的一篇论文中，我们在美国国家海洋和大气管理局 (NOAA) 的合作者确定 Biotwang 声音是由难以捉摸的布氏鲸（发音为“broodus”）独特产生的。今天，我们很高兴与大家分享 Google 最新的鲸鱼生物声学模型，它可以识别八个不同的物种，以及对其中两个物种的多次呼叫。该模型现在可以通过 Kaggle Models 下载。这些鲸鱼的东部种群估计只有 3035 头。将模型扩展到其他鲸鱼物种和特定声音虽然我们的训练数据仅涵盖约 94 种鲸类物种中的 8 种，但预分类器激活的泛化能力比我们之前的（座头鲸模型）更好。