作者:Arik Kershenbaum
到 2025 年,我们将看到人工智能和机器学习在理解动物交流方面取得真正的进展,回答自人类存在以来就一直困扰着的一个问题:“动物彼此说什么?”科勒-杜立特奖,为“破解密码”的科学家提供高达 50 万美元的现金奖励,这表明人们对机器学习和大型语言模型 (LLM) 的最新技术发展充满信心,正在将这一目标纳入我们的目标。抓牢。
许多研究小组多年来一直致力于研究理解动物声音的算法。例如,Project Ceti 一直在解码抹香鲸的咔哒声和座头鲸的歌声。这些现代机器学习工具需要极其大量的数据,而到目前为止,一直缺乏如此大量的高质量且注释良好的数据。
考虑像 ChatGPT 这样的法学硕士,他们可以使用训练数据,其中包括互联网上可用的全部文本。过去无法获得有关动物交流的此类信息。这不仅仅是人类数据语料库比我们能够获取的野生动物数据大很多数量级:超过 500 GB 的单词被用于训练 GPT-3,而相比之下,仅超过 500 GB 的单词被用于训练 GPT-3。Ceti 项目最近对抹香鲸交流的分析提供了 8,000 个尾声(或发声)。
此外,在使用人类语言时,我们已经知道正在说什么。我们甚至知道什么构成了“单词”,这比解释动物交流有一个巨大的优势,例如,科学家很少知道特定的狼嚎是否意味着与另一狼的嚎叫不同,甚至狼是否将嚎叫视为某种类似于人类语言中的“单词”。
尽管如此,到 2025 年,无论是在科学家可获得的动物通信数据的数量方面,还是在可应用于这些数据的人工智能算法的类型和能力方面,都将带来新的进展。自动记录动物声音已成为每个科学研究小组的家常便饭,AudioMoth 等低成本录音设备迅速普及。
现在,大量数据集正在上线,因为录音机可以留在现场,长时间不间断地 24/7 聆听丛林中长臂猿或森林中鸟类的叫声。有时,如此庞大的数据集无法手动管理。现在,基于卷积神经网络的新自动检测算法可以快速处理数千小时的录音,挑选出动物的声音,并根据它们的自然声学特征将它们聚类成不同的类型。
一旦这些大型动物数据集可用,新的分析算法就成为可能,例如使用深度神经网络来查找动物发声序列中的隐藏结构,这可能类似于人类语言中的有意义的结构。
然而,目前尚不清楚的基本问题是,我们到底希望如何处理这些动物的声音?一些组织(例如 Interspecies.io)将其目标非常明确地设定为“将一个物种的信号转换为另一个物种的连贯信号”。换句话说,翻译动物交流转化为人类语言。然而大多数科学家都认为,非人类动物没有自己的实际语言——至少不像我们人类那样拥有语言。
科勒杜立特奖稍微复杂一些,寻找一种方法“与有机体交流或破译有机体的交流。”破译是一个比翻译稍微不那么雄心勃勃的目标,考虑到动物可能不会,事实上,有一种可以翻译的语言。今天,我们不知道动物之间到底传递了多少信息。到 2025 年,人类将有可能超越我们对动物说了多少话以及它们彼此之间到底说了什么的理解。