人工智能驱动的语音合成器现在可以进行异常真实的口语对话,可以带口音、低声说话,甚至克隆他人的声音。那么我们如何才能将它们与人声区分开来呢?
如今,与人工智能进行对话非常容易。向一些聊天机器人提出问题,他们甚至会提供引人入胜的口头答复。您可以使用多种语言与他们聊天,并请求以特定的方言或口音回复。
现在甚至可以使用人工智能驱动的语音克隆工具来复制真人的声音。最近习惯了一个复制已故英国广播员迈克尔·帕金森爵士的声音制作一个由八部分组成的播客系列,而自然历史广播员大卫·阿滕伯勒爵士“深感不安”听到他的声音已被人工智能克隆并常常说一些他从未说过的话。
并非所有人工智能生成的声音都被用于邪恶手段。它们还被内置到由大型语言模型支持的聊天机器人中,以便它们能够以更加自然和令人信服的方式进行响应和交谈。例如,ChatGPT 的语音功能现在可以使用不同的语气进行回复,并强调某些单词,其方式与人类表达同理心和情感的方式非常相似。它还可以识别非语言线索,例如叹息和哭泣,能讲 50 种语言,并且能够动态渲染口音。它甚至可以代表用户拨打电话来帮助完成任务。在 OpenAI 的一次演示中,系统从供应商处订购了草莓。
这些功能提出了一个有趣的问题:人类声音是否有任何独特之处可以帮助我们将其与机器人语音区分开来?
乔纳森·哈林顿 (Jonathan Harrington) 是德国慕尼黑大学语音学和数字语音处理教授,他花了数十年时间研究人类说话、发音和口音的复杂性。就连他也对人工智能语音合成器的功能印象深刻。
“在过去 50 年里,尤其是最近,语音生成/合成系统已经变得如此出色,以至于通常很难区分人工智能生成的声音和真实的声音,”他说。
但他认为仍然有一些重要的线索可以帮助我们判断我们正在与人类还是人工智能交谈。
然而,在我们开始讨论之前,我们决定设置一个小挑战,看看人工智能生成的声音与人类的声音相比有多令人信服。为此,我们要求纽约大学斯特恩商学院首席人工智能架构师 Conor Grennan 创建一对音频剪辑,朗读短文本片段。
其中一段是格伦南朗读的刘易斯·卡罗尔经典故事《爱丽丝梦游仙境》中的一段,另一段是由软件公司 ElevenLabs 的人工智能语音克隆工具生成的相同片段。您可以在下面听听他们的声音,看看您是否能分辨出区别。
令人惊讶的是,大约一半的人无法通过耳朵辨别哪个是我们播放的剪辑。值得指出的是,我们的实验远非科学,并且这些剪辑并不是通过高端音频设备收听的 - 只是典型的笔记本电脑和智能手机扬声器。
网络安全公司迈克菲 (McAfee) 的首席技术官史蒂夫·格罗布曼 (Steve Grobman) 仅仅通过耳朵聆听,很难辨别哪个声音是人类的,哪个是人工智能的。
“肯定有一些超越言语的东西,比如吸气会让我更接近人类,但节奏、平衡、音调会把我推向人工智能,”他说。对于未经训练的人耳来说,其中许多内容可能很难听清。
格罗布曼说:“人类在这方面非常糟糕。”他解释说,深度伪造检测软件正在帮助捕捉人耳可能错过的东西。但当坏人用一些虚假音频来操纵真实音频时,它就变得尤其具有挑战性,他指着微软联合创始人比尔盖茨兜售量子人工智能股票交易工具的视频。对于人耳来说,音频听起来就像科技亿万富翁一样,但通过诈骗分类器运行它,它被标记为深度伪造。
迈克菲最近强调了虚假广告如何使用歌手泰勒·斯威夫特的深度伪造和真实音频混合。格罗布曼的建议:“一定要听听谈话内容的背景,那些听起来可疑的事情很可能是可疑的。”
我们生活在一个后现实社会,人工智能生成的语音克隆甚至可以欺骗信用卡公司的语音验证系统 – Pete Nicoletti
我们采访的另一位网络安全专家——威胁分析平台 Check Point Software 的全球首席信息安全官 Pete Nicoletti——也被我们的“爱丽丝梦游仙境”挑战难住了。
他说,他通常会在播放音频时聆听不自然的语音模式,例如不规则的停顿和尴尬的措辞。扭曲和不匹配的背景噪声等奇怪的伪影也可能会泄露信息。他还会聆听音量、节奏和音调的有限变化,因为从几秒钟的音频中克隆的声音可能不具有人类声音的全部音域。
“我们生活在一个后现实社会,人工智能生成的语音克隆甚至可以欺骗信用卡公司的语音验证系统,”尼科莱蒂说。“图灵现在会在坟墓里翻身”,指的是二战时期的英国密码破译者艾伦·图灵,他设计了“图灵测试”,作为一种通过与人工智能对话来识别人工智能的方法。
HackerOne 是一个由漏洞赏金猎人组成的社区,致力于揭露世界上一些最大公司的安全漏洞,HackerOne 的新兴技术创新架构师 Dane Sherrets 就是能够正确识别人类声音的人之一。他说,剪辑中自然的音调变化和呼吸就暴露了一切。
哈林顿同意,听句子中的重音或强调词可能是识别计算机生成语音的好技巧。这是因为人类使用重音在对话上下文中赋予句子更多含义。
“例如,像‘玛丽安娜做了果酱’这样的句子,如果作为一个没有上下文的单独句子来阅读,通常最强调第一个和最后一个单词,”他说。但如果有人问玛丽安娜是否买了果酱,重点可能会落在答案中的“制造”一词上。
语调——句子中音高的变化——也可以将相同的单词从陈述(“玛丽安做了果酱”)变成问题(“玛丽安做了果酱?”)。
措辞也是一个重要因素。句子的分解方式也会改变它的含义。哈林顿解释说,“当危险威胁时,儿童报警”这句话与“当危险威胁儿童时,报警”的含义截然不同。
这三个语音元素一起被称为句子级韵律。哈林顿说,这是“计算机生成的语音相当糟糕且不太像人类的原因之一”。
但随着技术的发展,人工智能也越来越擅长复制语音的这些方面。
“如果你仔细想想,这将是有史以来最糟糕的技术,”谢雷茨说。“即使是 60% 的好东西仍然非常强大。从这里开始,它只会变得更便宜、更快、更好。”
他和我们采访的许多人都特别担心声音克隆。例如,这对企业来说是一个非常现实的威胁。领先的网络安全公司 Wiz 的首席执行官阿萨夫·拉帕波特 (Assaf Rappaport) 在 10 月份的一次技术会议上告诉观众,有人创建了他最近一次演讲中的声音克隆。然后,他们用它向数十名员工发送深度伪造语音消息,试图窃取凭据。虽然骗子没有得逞,但这件事却敲响了警钟。
Sherrets 建议开发其他方法来验证您确实在与您认为的人交谈。
“在家里,这意味着决定家庭密码,”他说。“在工作中,这意味着不要仅仅因为收到公司首席执行官的语音消息就进行电汇。”
您还可以询问个人问题,例如他们最喜欢的歌曲。但如果你怀疑人工智能正在冒充你认识的人,最好的办法也许就是说你会给他们回电话。请拨打您提供的电话号码,不要惊慌。
许多人工智能语音系统很难在正常音域之外说话
迈克尔·麦克纳尼 (Michael McNerney) 是网络风险保险公司 Resilience 的安全高级副总裁,该公司负责承保“鱼叉钓鱼”等攻击,即员工被欺骗通过深度伪造音频进行电汇转账。在我们的“爱丽丝梦游仙境”挑战中,他也正确猜出了哪个声音是人工智能,哪个是人类声音。
当他聆听样本时,他发现自己在问:那是真呼吸还是假呼吸?有没有犯什么错误?是不是太明亮、太完美了?结结巴巴的言语和喘息都是非常人性化的,所以如果事情过于完美,这实际上可能表明人工智能在伪造它。
但麦克纳尼表示,即使在这里,这项技术听起来也越来越人性化。“这些都很难说,”他说。
人工智能与心灵
本文是 人工智能与心灵,该系列旨在探索尖端人工智能的极限,并在此过程中了解一些我们自己的大脑如何工作。每篇文章都会让人类专家与人工智能工具进行对抗,以探讨认知能力的不同方面。机器能否比专业喜剧演员写出更好的笑话,或者比哲学家更优雅地解开道德难题?我们希望找出答案。
哈林顿和他在慕尼黑大学语音研究所的同事听了我们的两对音频片段,在用耳朵听时也很难区分人工智能的声音。他们指出了一些可以帮助他们识别人类语音的特征。
语速的变化通常是人类声音的明显特征,但事实上,在我们的例子中,人工智能声音似乎比人类声音产生更多的这种变化。
呼吸也应该是另一个明显的迹象。我们播放了其中一些片段,以识别两组片段中有关呼吸的问题。哈林顿和他的同事还表示,他们发现他在《爱丽丝梦游仙境》的一个片段中的呼吸方式几乎太规律了,不符合他们的喜好。但结果证明这是人类样本。
事实上,我们在本文中采访的许多专家都在努力区分人工智能和人类的声音,这一事实不应被视为他们能力的失败。相反,它表明人工智能现在在模仿人类声音方面已经变得多么擅长。
哈林顿说,这可能会产生一些令人担忧的影响。
“我很惊讶人工智能的声音如何知道在哪里放置错误的统计数据和犹豫,假设它们不是由键盘上的人输入的,”他说。他说:“人工智能通过语音传达个人想法的能力现已完成,这些想法可能与个人的真实观点完全不一致。”“这就是我觉得非常可怕的一点。”
然而,哈林顿说,可能还有另一种方法可以区分人类和人工智能的声音。他建议使用一种称为韵律去重的方法。以下面的例子为例:
问:约翰读过《艰难时世》吗?
答案:约翰不喜欢狄更斯。
答案中对动词的强调表明回复者理解狄更斯是小说《艰难时期》的作者。
哈林顿说:“对于许多人工智能系统来说,将这些类型的对话与自然韵律相结合可能仍然相当困难,因为它需要的世界知识远远超出了页面上打印的文字。”
但即使是这种测试也可能很快被利用互联网上的大型数据集的大型语言模型所克服,因为它会训练自己说更人性化的语言。
哈灵顿补充道:“在某个阶段看看人工智能是否也能做到这一点,这真的很有趣。”
主流服务如ChatGPT的语音功能已经可以大笑、低语、被打断然后继续说的话。它还可以记住你告诉它的一切。
也许在寻找您是否在与人交谈时,解决方案很简单 – 花更多时间面对面交流
当被问及采取了哪些保障措施来确保其人工智能在与人类对话时透露自己是人工智能时,OpenAI(ChatGPT 的开发者)表示没有。它还表示,不打算对人工智能进行“水印”来识别它,因为它有可能 对用户的偏见。这可能包括使用 ChatGPT 进行交流的受损发言者群体,也可能包括使用 ChatGPT 帮助完成作业的学生。
然而,OpenAI 表示,随着 ChatGPT 高级功能的推出,它正在积极尝试阻止语音克隆。
ChatGPT 多模式产品负责人 Jackie Shannon 告诉 BBC:“我们致力于防止合成声音复制真人的声音。”“特别是对于高级语音,我们只允许模型使用预设的语音。”其中包括两个听起来像英国的声音和七个听起来像美国的声音,按性别划分。
如果您怀疑正在交谈的声音可能不是人类,则可以尝试其他一些技巧。例如,你可以让它尖叫。尼科莱蒂说,许多人工智能语音系统很难在正常音域之外说话,除非经过专门训练。我要求 ChatGPT 大声喊叫,它告诉我它不能。
格伦南说,人类语言的缺陷可能是另一个泄露的信息。纠正自己并重新思考自己的想法,是一件非常人性化的事情。您不太可能听到 ChatGPT 说:“呃没关系!”或“你知道吗!?”
还有一些举措可以让消费者更容易地使用深度伪造检测软件。例如,迈克菲已与戴尔、惠普、联想、三星、宏碁和华硕合作,在支持人工智能的个人电脑上预装他们的解决方案。格罗布曼表示,该公司还预计在不久的将来将其软件推出到移动设备。
ElevenLabs — 该工具的制造商用于在我们的“爱丽丝梦游仙境”挑战赛中创建人工智能语音克隆 — 还提供免费的AI检测工具帮助人们识别其软件是否已被用来创建一段音频。
但在人工智能生成和人工智能检测之间不可避免的军备竞赛中,我们可能会在日益虚拟互联的世界中失去的东西——物理交互——中找到新的价值。也许在寻找你是否在与人交谈时,解决方案很简单——花更多时间面对面交流。
对于那些仍然对我们的音频片段是真实的感到困惑的人,我们可以透露第一个片段是人工智能,而第二个片段是人类的。你能猜对吗?
--