2025年4月14日
[[读取时间]]最低阅读
由Google开发的大型语言模型的Dolphingemma正在帮助科学家研究海豚如何交流,并希望也能找到他们在说什么。

Thad Starner博士
Google DeepMind研究科学家和佐治亚理工学院教授
几十年来,了解海豚的点击,哨子和爆发脉冲一直是科学领域。如果我们不仅可以听海豚,还可以很好地理解其复杂交流的模式,足以产生现实的反应呢?
今天,在全国海豚节,Google与佐治亚理工学院的研究人员合作野生海豚项目(WDP),正在宣布在海豚上的进步:一种基础AI模型,该模型训练有素,可以学习海豚发声的结构并产生新颖的海豚般的声音序列。这种寻求种间交流的方法推动了AI的界限以及我们与海洋世界的潜在联系。
数十年来研究海豚协会
了解任何物种都需要深层背景,这是WDP提供的众多内容之一。自1985年以来,WDP已进行了世界上最长的水下海豚研究项目,研究了一代人巴哈马的特定野生大西洋斑点海豚(Stenella Frontalis)社区。这种非侵入性“在他们的世界上,按照他们的术语”方法产生了一个丰富的独特数据集:数十年的水下视频和音频与单个海豚身份,生活史和观察到的行为相结合。
大西洋斑点海豚的豆荚,Stenella Frontalis
WDP的主要重点是观察和分析海豚的自然交流和社交互动。水下工作使研究人员可以将声音直接连接到特定行为,以表面观察的方式无法进行。几十年来,它们具有与行为环境相关的声音类型。这里有一些例子:
- 母亲和小牛可以使用的签名哨子(唯一名称)团聚
- 在战斗中经常看到爆裂的“ Squawks”
- 单击“嗡嗡声”在求爱期间经常使用或追逐鲨鱼
了解所涉及的单个海豚对于准确的解释至关重要。这项观察工作的最终目标是了解这些自然声音序列中的结构和潜在含义,以寻求可能表明语言的模式和规则。这种对自然交流的长期分析构成了WDP研究的基石,并为任何AI分析提供了基本背景。
左:一位母亲发现海豚在觅食时观察了她的小牛。她将用她独特的标志性哨声在他完成后将小牛回电。右:可视化哨子的频谱图。
引入海豚
分析海豚自然,复杂的沟通是一项艰巨的任务,WDP庞大的标签数据集为尖端AI提供了独特的机会。
输入海豚。该AI模型由Google开发,利用了特定的Google Audio Technologies:Soundstream令牌有效地表示海豚声音,然后由适合复杂序列的模型架构处理。这个〜400m的参数模型是最佳尺寸的,可以直接在现场中的WDP使用的Pixel手机上运行。
左:在早期测试海豚时产生的哨子(左)和爆发脉冲(右)。
该模型建立在洞察力的基础上芽,Google的轻巧,最先进的开放模型的集合是根据为我们的双子座模型提供动力的相同的研究和技术构建的。Trained extensively on WDPâs acoustic database of wild Atlantic spotted dolphins, DolphinGemma functions as an audio-in, audio-out model, processes sequences of natural dolphin sounds to identify patterns, structure and ultimately predict the likely subsequent sounds in a sequence, much like how large language models for human language predict the next word or token in a sentence.
WDP在这个野外季节开始部署海豚,并具有直接的潜在收益。通过确定反复出现的声音模式,簇和可靠的序列,该模型可以帮助研究人员发现隐藏的结构和海豚自然交流中的潜在含义 - 先前需要大量人类努力的任务。最终,这些模式增强了研究人员创建的综合声音,以指代海豚喜欢玩的对象,可以与海豚建立共享的词汇来进行交流。
使用像素手机聆听和分析海豚声音
除了分析自然交流外,WDP还采用了一条独特的平行路径:使用海洋中的技术探索潜在的双向相互作用。这项努力导致了聊天(Cetacean听力增强遥测)系统,与佐治亚理工学院合作。聊天是一台水下计算机,旨在直接破译海豚的复杂自然语言,而是建立更简单,共享的词汇。
该概念首先依赖于小说《合成的口哨》(由聊天创建,与自然海豚声音不同)与海豚喜欢的特定物体(如研究人员使用的萨尔加斯,海草或围巾)所使用的特定物体。通过展示人类之间的系统,研究人员希望自然好奇的海豚学会模仿哨子以要求这些物品。最终,随着更多的海豚自然声音被理解,也可以添加到系统中。
要启用双向交互,聊天系统首先需要:
- 在海洋噪音中准确地听到模仿。
- 确定实时模仿哪个哨声。
- 通知研究人员(通过在水下起作用的骨导电耳机),这些耳机反对海豚“请求”。
- 通过提供正确的对象并加强连接,使研究人员能够快速做出反应。
Google Pixel 6实时处理了海豚声音的高保真分析。即将到来的一代以Google Pixel 9为中心(计划于2025年夏季进行研究),它通过集成扬声器/麦克风功能并使用手机的高级处理来运行深度学习模型和模板匹配算法,以同时进行此工作。
左:Denise Herzing博士穿着聊天高级,2012年,右:佐治亚理工学院博士学位学生查尔斯·拉米(Charles Ramey)穿着聊天少年,2025年
使用Pixel智能手机大大减少了对定制硬件的需求,提高了系统可维护性,降低功耗并缩小了设备的成本和尺寸 - 开放海洋中实地研究的重要优势。同时,Dolphingemma的预测能力可以帮助聊天预期并识别发声序列早期的潜在模仿,从而提高了研究人员对海豚反应的速度,并使互动更加流畅和增强。
最新的聊天系统硬件中的Google Pixel 9。
与研究社区分享海豚
认识到协作在科学发现中的价值,我们计划在今年夏天将海豚分享为开放模型。在大西洋发现的海豚声中接受培训时,我们预计它的潜在效用对于研究其他鲸类物种(如瓶子糖或旋转者海豚)的研究人员的潜在效用。不同物种的发声可能需要进行微调,模型的开放性质促进了这种适应。
通过提供诸如Dolphingemma之类的工具,我们希望为全世界的研究人员提供挖掘自己的声学数据集的工具,加速搜索模式,并共同加深我们对这些智能海洋哺乳动物的理解。
理解海豚交流的旅程很长,但是WDP专门的现场研究,佐治亚理工学院的工程专业知识以及Google技术的力量的组合正在开辟令人兴奋的新可能性。我们不再只是在听。我们开始理解声音中的模式,为人与海豚交流之间差距可能会变得更小的未来铺平了道路。
您可以了解有关野生海豚项目在他们的网站上。