作者:Alex Shipps | MIT CSAIL
无论您是在描述有故障的汽车发动机的声音,还是像邻居的猫一样喵喵叫,当语言无法发挥作用时,用声音模仿声音都是传达概念的有效方法。
声音模仿在声音上相当于快速涂鸦一张图片来传达你所看到的东西——只不过你不是用铅笔来描绘图像,而是用你的声道来表达声音。这可能看起来很困难,但这是我们凭直觉做的事情:要亲自体验它,请尝试用您的声音来模仿救护车警报器、乌鸦或敲钟的声音。
受我们如何沟通的认知科学的启发,麻省理工学院计算机科学和人工智能实验室(CSAIL)的研究人员开发了一种人工智能系统,无需训练,也无需“听过”人类的声音印象,就能模仿人类的声音。
为了实现这一目标,研究人员设计了他们的系统,使其能够像我们一样产生和解释声音。他们首先建立了一个人类声道模型,模拟喉咙、舌头和嘴唇如何塑造声带的振动。然后,他们使用一种受认知启发的人工智能算法来控制这个声道模型并使其产生模仿,同时考虑到人类选择交流声音的特定环境方式。
该模型可以有效地获取世界上的许多声音,并生成类似人类的声音,包括树叶沙沙作响、蛇的嘶嘶声和接近的救护车警报等噪音。他们的模型还可以反向运行,从人类声音模仿中猜测现实世界的声音,类似于一些计算机视觉系统如何根据草图检索高质量图像。例如,该模型可以正确地区分人类模仿猫的“喵喵声”和“嘶嘶声”。
未来,这种模型可能会为声音设计师带来更直观的“基于模仿”的界面、虚拟现实中更接近人类的人工智能角色,甚至是帮助学生学习新语言的方法。
联合主要作者——麻省理工学院 CSAIL 博士生 Kartik Chandra SM——23 岁和 Karima Ma,以及本科生研究员 Matthew Caren——指出,计算机图形学研究人员早就认识到,真实感很少是视觉表达的最终目标。例如,一幅抽象画或儿童蜡笔涂鸦可以像照片一样具有表现力。
“在过去的几十年里,素描算法的进步为艺术家带来了新的工具,人工智能和计算机视觉的进步,甚至对人类认知的更深入的理解,”钱德拉指出。– 就像草图是图像的抽象的、非真实感的表示一样,我们的方法捕获了抽象的、非声音的-人类表达他们听到的声音的现实方式。这告诉我们听觉抽象的过程。 –
“这个项目的目标是理解声音模仿并对其进行计算建模,我们认为声音模仿相当于视觉领域中的素描的听觉效果,”卡伦说。
模仿的艺术,分三部分
该团队开发了该模型的三个越来越细致的版本,以与人类声音模仿进行比较。首先,他们创建了一个基线模型,旨在生成尽可能类似于现实世界声音的模仿,但该模型与人类行为不太相符。
研究人员随后设计了第二个“交流”模型。根据卡伦的说法,这个模型考虑了声音对听众来说的独特之处。例如,您可能会通过模仿摩托艇发动机的隆隆声来模仿摩托艇的声音,因为这是其最独特的听觉特征,即使它不是声音中最响亮的方面(与说,水溅)。第二个模型创建了比基准更好的模仿品,但团队希望进一步改进它。
为了使他们的方法更进一步,研究人员在模型中添加了最后一层推理。– 声音模仿听起来可能会有所不同,具体取决于您投入的努力程度。产生完全准确的声音需要花费时间和精力,”钱德拉说。研究人员的完整模型通过尽量避免使用人们在对话中不太可能使用的非常快、大声、高音或低音的话语来解释这一点。结果是:更加像人类的模仿,与人类在模仿相同声音时做出的许多决定非常匹配。
建立这个模型后,该团队进行了一项行为实验,看看人工智能或人类生成的声音模仿是否被人类评委认为更好。值得注意的是,实验参与者总体上在 25% 的情况下青睐 AI 模型,在模仿摩托艇时偏好人工智能模型的比例高达 75%,在模仿枪声时偏好人工智能模型的比例高达 50%。
迈向更具表现力的声音技术
卡伦对音乐和艺术技术充满热情,他设想该模型可以帮助艺术家更好地将声音传达给计算系统,并帮助电影制作人和其他内容创作者生成更适合特定环境的人工智能声音。它还可以使音乐家通过模仿难以在文本提示中描述的噪音来快速搜索声音数据库。
与此同时,卡伦、钱德拉和马正在研究他们的模型在其他领域的影响,包括语言的发展、婴儿如何学习说话,甚至鹦鹉和鸣禽等鸟类的模仿行为。
该团队仍然需要对其模型的当前迭代进行改进:它在处理某些辅音时遇到了困难,例如“z”,这导致对某些声音(例如蜜蜂嗡嗡声)的印象不准确。它们还无法复制人类模仿语音、音乐或声音的方式,而这些声音、音乐或声音在不同语言中的模仿方式有所不同,比如心跳。
斯坦福大学语言学教授罗伯特·霍金斯表示,语言中充满了拟声词和模仿但不完全复制它们所描述的事物的词语,比如“喵”的声音,它与猫发出的声音非常不精确。“从真正的猫的声音到“喵”这样的词的过程揭示了语言进化过程中生理学、社会推理和交流之间错综复杂的相互作用,”说霍金斯没有参与 CSAIL 研究。– 该模型向形式化和测试这些过程的理论迈出了令人兴奋的一步,表明需要人类声道的物理约束和交流的社会压力来解释声音模仿的分布。 –
Caren、Chandra 和 Ma 与另外两名 CSAIL 附属机构共同撰写了这篇论文:麻省理工学院电气工程和计算机科学系副教授 Jonathan Ragan-Kelley,以及麻省理工学院大脑和认知科学教授兼大脑、心智和机器中心 Joshua Tenenbaum成员。他们的工作部分得到了赫兹基金会和国家科学基金会的支持。它于 12 月初在 SIGGRAPH Asia 上展出。