播客
人工智能、面部识别和社交媒体算法等新技术正在快速改变我们的世界,以至于我们很难跟上。这种尖端技术经常会引发过度的炒作和恐惧。这就是我们的切入点。CNN 科技作家克莱尔·达菲 (Clare Duffy) 每周都会详细分析这些技术的工作原理以及它们对您的生活意味着什么需要工程学位才能理解。我们将帮助您开始尝试这些工具,而不会被它们所玩弄。
人工智能语音诈骗呈上升趋势。这是确保安全的方法。
克莱尔·达菲服务条款2025 年 1 月 14 日
当加里·希尔德霍恩 (Gary Schildhorn) 接到儿子打来的电话说他因车祸入狱时,他立即采取行动提供帮助。直到他接到儿子打来的 FaceTime 电话,而儿子实际上并没有在监狱里。加里 (Gary) 是一场人工智能语音克隆骗局的目标,这场骗局让他损失了近 9,000 美元。随着人工智能技术的进步,这些骗局变得越来越普遍、越来越有效。数字取证专家汉尼·法里德解释了该技术的工作原理以及人们如何保护自己。
加里·希尔德霍恩 (Gary Schildhorn) 是费城的一名律师,一天早上,他开车去上班时,手机响了。这是一个本地号码。
我接了电话,电话里是我儿子布雷特的声音。他说:‘爸爸,我遇到麻烦了。我出了事故。我撞到了一辆孕妇驾驶的汽车。他们逮捕了我。我受了一点伤,鼻子骨折了,手臂也受伤了。我在监狱里。
在接下来的几分钟里,事情进展得很快,加里忙着帮助他的儿子。
30或45秒内我的电话又响了。“这是希尔霍恩先生吗?”是的。“我被指派代表你儿子。他已入狱,保释金额很高。你能保释你的儿子吗?我说,我当然是。
接下来发生的事情是相当复杂的来回。律师给了加里一个案件号码和一个拨打法院的电话号码。接电话的人说,加里必须缴纳 9,000 美元才能让他的儿子出狱。但这个人也说有问题。该县的保释担保人当天不在。为了快速推进此事,加里必须请他儿子的律师为他交纳保释金。于是加里挂了电话,给律师回了电话。
是的,他说,他非常愿意交纳保证金。为了让他能够做到这一点,我必须拿到现金并将其放入售货亭才能将钱汇给他。然后他告诉我我应该快点,因为他正要去机场,所以他没有太多时间来完成这件事。所有这一切都发生在几分钟之内。在那些电话中没有时间思考。就是这样,我必须做出反应来帮助我的儿子。他有麻烦了。
在去银行提取现金的路上,加里又给儿子布雷特的妻子打了一个电话。他告诉她应该给布雷特的工作单位打电话,让他们知道他要出去了。
当我到达银行时,我的电话响了。FaceTime 上是我儿子。‘爸爸,我很好。我的鼻子没有断。你被骗了。我坐在车里,心里充满了不同的想法和情绪。你知道,一是解脱;二是解脱。二、愤怒;第三,震惊的是,这种事竟然发生在我这个相对成熟的人身上。我在职业生涯中接触过诈骗案件,所以我对诈骗的触角很高。但这是我儿子在电话里的声音,告诉我他遇到了麻烦。这是他的节奏。这是他的语气。这是他会用的词。这是他的声音。
加里是声音克隆骗局的目标。骗子利用人工智能复制了他儿子的声音。令人信服的是,加里后来才意识到危险信号。
他们要求您以难以追踪的方式汇款。所以在这种情况下,该信息亭是一个比特币信息亭。他们给你带来了时间压力。我要去机场了。我得走了。你知道,你必须尽快做到这一点,他们不希望你与其他任何人交谈。所以那些旗帜就在那里,但其他一切都是完全可信的。我做到了——直到今天我都会告诉你那是我儿子的声音。是他在电话里跟我说话,尽管我知道现在是人工智能。
这件事早在 2020 年就发生在加里身上。从那时起,语音克隆背后的技术变得更加令人信服,此类骗局也随之猛增。据联邦贸易委员会称,仅 2023 年,美国人就因冒名顶替诈骗损失了 27 亿美元。这种骗局不仅有一种千篇一律的版本。您可能会接到电话并听到家人、朋友或雇主的声音。这个声音可能会告诉您有人受伤或被绑架,或者有逮捕令对您进行逮捕。那么如何保护自己呢?为了弄清楚这个问题的真相,我采访了加州大学伯克利分校的教授汉尼·法里德(Hany Farid)。哈尼专门从事数字取证和检测深度伪造品,他说我们没有人能免受这些骗局的影响。但我们都可以采取一些预防措施。我是克莱尔·达菲,这是服务条款。哈尼,非常感谢你这么做。
那么您是如何第一次意识到人工智能可以用来模仿人的声音的呢?
你知道这个问题的伟大之处在于,大约两年前,我的几个学生来找我说,我们想致力于检测深度伪造音频。我说,这是一个非常愚蠢的问题,因为深度伪造音频不好,而且在很长一段时间内都不会好。而且,不开玩笑,他们去度假了。我们在一月份回来时,我看到了 ElevenLabs 的出现,这是我第一次想,天哪,我是不是错了。我把学生们叫到我的办公室,我说,我们走吧。我们现在就必须开始研究这个问题。我错了。
ElevenLabs 是一个文本到语音的语音生成器。诈骗者使用的技术与诈骗者使用总统乔·拜登声音的人工智能复制品通过机器人电话来瞄准选民的技术相同,鼓励他们跳过初选。ElevenLabs 可以通过几分钟的音频创建任何人声音的人工智能复制品。
这是我们第一次真正看到 30 到 60 秒音频的商业级语音生成。我们从未见过如此复杂的事情,当然,在接下来的两年里,它只会变得更好、更广泛。
你有遇到过这种情况吗?你接到过AI语音诈骗电话吗?
我没有,但我有一位同事,他的声音里有一个声音,试图提取我们正在一起处理的一个非常机密的案件的信息。他打电话给我,他说,是你吗?我说,我不知道你在说什么。然后他向我描述了发生的事情,他接到了一个电话,上面写着我的电话号码。所以它非常复杂。这是我询问有关此案的问题的声音。几分钟后,他起了疑心,挂断电话并给我回了电话。所以,是的,事情发生了。
那么请带我了解一下我们所看到的这些人工智能诈骗电话是如何运作的。人们通常会突然接到这样的电话吗?
它有几个不同的版本。因此,肯定存在我所说的网络钓鱼诈骗,您会突然接到电话。爸爸妈妈,我受伤了。我出过一次事故。我们见过这样的电话:首席执行官会接到他们认为是首席财务官的电话,或者 IT 办公室的某个人会接到他们认为听起来像是首席执行官试图获取信息的人的电话。这些攻击更有针对性、更复杂,我们现在看到诈骗金额从几千美元到数千万美元,都是非常复杂和有针对性的攻击。
就像您所说的发生在您同事身上的情况,诈骗者实际上是通过看似可识别的号码拨打电话的情况多久发生一次?
是的,我的意思是,复杂的,这就是你想做的。拨打电话诈骗并不难,而且在过去 20 年里,我们每天的大量信息都在被吞噬。因此获取这些信息并不是特别困难。所以我认为你所看到的是一系列复杂和简单的攻击,而简单的攻击,你应该明白,它们在 99% 的情况下都可能失败。但每年,这一小部分所造成的损失却高达数十亿美元。
所以诈骗电话一直存在。人工智能为何让这个问题现在变得如此严重?
是的。因此,如果您回想一下早期的垃圾邮件问题、恶意软件问题、网络钓鱼问题和勒索软件,我们必须发布公共服务公告来了解这些威胁是什么。因此,我们花了很多时间、多年的时间向人们提供信息、撰写文章、进行这样的聊天、在您的组织中进行安全培训,最后人们慢慢开始关注它。这是一种更加复杂的新攻击媒介,因为我们还没有准备好与听起来像是我的老板或我所爱的人进行电话或视频通话。我们只是还没有准备好。因此,这只是另一个层面的现实主义,而不是一些随机的电话号码给我发短信,大多数人现在都知道这是一个骗局,我确实接到了听起来像是我妻子的电话。我为什么会怀疑呢?所以这只是让游戏变得更精彩。顺便说一句,你和我现在正在谈论音频,但你也可以用视频来做到这一点。我们见过一些例子,人们与看起来像他们的朋友、首席执行官的人进行视频通话。只是——我们还没有准备好应对这种程度的欺骗。
是的,感觉与几年前相比有了如此显着的飞跃,你会接到一个非常机器人的声音的电话,说,我是当地警察局。
是的。是的,完全正确。现在,听起来像是你的儿子、你的女儿、你的老板,无论是谁,乔·拜登,对吧?它从根本上来说是新的吗?不会。但是,由于它的复杂性和我们的准备不足,是否会导致风险升高呢?绝对地。顺便说一句,你知道,六个月后跟我谈谈,就会有一个新版本。这是我们所知道的。网络犯罪分子会适应。他们创造了一种新武器。我们建立防御。他们创造了一种新武器。我们建立防御。这有点像网络安全游戏。
这听起来像是我们看到这种情况发生的所有不同级别之间的一种共同点,也许经常会产生一种正在发生的紧迫感。你觉得这是真的吗?
绝对地。你会看到这一点,因为那时,你知道,你在半夜接到电话,有人在电话那头尖叫,你没有时间仔细考虑。您接到老板打来的电话,要求您重置密码。你没有考虑这个问题,对吧?你动作很快。
“这些人工智能生成的声音是如何发出的?这有多容易?
“嗯,我有一个每月支付 5 美元的服务,我可以上传任何人 15 到 30 秒的声音,而且这个星球上几乎没有人不在某个地方在线上传 20 到 30 秒的声音了。我点击一个按钮,显示我有权使用他们的声音。我等了几秒钟,然后我只是打字,让他们说出我想要的内容,这是全自动的,不需要任何东西。你可以自动化这些事情。你知道,你现在可以用任何人的声音进行大规模攻击。几乎没有人的声音是你无法克隆的——多语言、口音、年轻、年老——都没关系。二十到三十秒的音频,我听到你的声音。
令人着迷的是,您必须单击一个表示您拥有权限的框,但听起来该网站没有做任何其他事情来确认您确实拥有该权限。
有些网站比其他网站更好,他们会要求您录制一些内容,一个独特的句子,以确保您获得该人的真实声音。但是,看,我们在这里的表现只是最低公分母。它需要一项服务来表明,好吧,你可以做任何你想做的事情。我们将从中获利。
是否有理由或解释为什么这些技术变得如此出色,特别是在真正自然的音调和音调方面?不仅听起来相似,而且听起来真的很逼真?
因此,人工智能和机器学习领域取得了快速发展,可以从语音、图像和视频中学习这些模式。因此,科学上已经取得了真正的进步,并且了解如何构建可以学习这些模式的模型。这是第一。第二是数据。机器之所以能够学习这些非常复杂的模式,是因为这些科技公司在过去 10、20 年里一直在收集难以想象的大量用户生成的数据。然后机器从中学习。然后第三件事是钱。通过风险资本主义和硅谷,有数十亿美元投入到这个领域,一旦你开始投入这么多钱,你就开始获得真正优秀的技术。这是一个简单的方程式。
我们是否知道这些冒名顶替者骗局的幕后黑手是谁?
“我认为每个人都有一点点。肯定有来自世界各地的网络犯罪分子。这是有组织的犯罪。这是国家资助的演员。这项技术已经完全民主化。你不必是一个特别老练的演员。所以我认为,在整个链条上,你会看到人们将这项技术武器化。
我本来想问你谁在开发这种技术,但听起来它目前已经相当普遍了。这可能不仅仅是少数公司的事。
这不是少数公司。每个人都有声音克隆。我的意思是,我们讨论了 ElevenLabs。他们是最早的,也许也是最大的参与者之一。但那里有十几个这样的。没有办法把精灵放回瓶子里。
因此,语音克隆技术只会变得更好、更容易使用。坏人会继续利用它来敲诈勒索。我们能做些什么来阻止问题变得更糟吗?那是休息之后。
从具体的诈骗电话中退一步,您认为这种语音克隆技术的总体影响是什么?
“嗯,我确实认为,作为个人、组织和民主国家,我们必须更加小心,既要防范欺诈,也要防范正在使用这些技术的虚假信息活动。我们在这里主要讨论的是语音,但图像和视频也是如此。因此,总的来说,您会看到人工智能生成的内容被用来做各种邪恶的事情。所以现在我们必须开始从技术方面考虑,如何实施保障措施。从监管方面来看,我们如何保证消费者和组织的安全?然后从消费者的角度来看,我们如何接受教育来开始检测这些东西,并了解它并不完美?就像网络安全领域的一切一样,我们所做的一切都是为了降低风险,但并不能消除风险。
我们还应该说,这些东西也不全是坏事,对吧?就像它可以有一些有用且良性的应用程序一样。
'当然。我的意思是,几乎所有技术都可以这样说,但是对于语音克隆,我们也可以将创建听起来自然的声音与克隆人的声音分开,对吗?这些是非常不同的。因此,如果您有一项服务说,嘿,您想做一个听起来非常专业的播客吗?给我们剧本;我们将生成听起来专业的声音。这真的很酷。但这与说“我要用克莱尔的声音来做,所以听起来像克莱尔的播客”有很大不同。那是非常不同的。那么对于语音克隆来说,有积极的应用吗?当然。创造力。太棒了,对吧?如果你想用自己的声音录制播客,但你搞砸了一些事情,你可以打字,填补空白。这真的很整洁。如果您从事音乐和电影行业,那就太棒了。对于因退行性疾病而失声的人来说,这是一项非常酷的技术。但你必须平衡目前针对全国各地人民实施的数百亿美元的欺诈行为,并问我们是否采取了适当的保障措施?没有人说要消除该技术。没有人说不要开发这项技术。但你必须停止将利润私有化和成本社会化,这是一直以来的做法。过去20年一直在硅谷。
是否有任何迹象表明人工智能公司正在努力解决其技术可能被用来欺骗人们的风险?
我认为这是一个反问句,克莱尔?看,这不是一个错误。
那里有按钮。也许有一个按钮您可以单击。
'这是正确的。确切地。所以,有时候你可以原谅一家公司以不可预测的方式使用技术。我认为没有人在看到生成式人工智能的前景后会想,哦,有人在克隆声音进行欺诈?谁会想到呢?当然,这就是他们正在做的事情。当然,他们使用图像和视频来制造儿童性虐待和未经同意的性图像。当然是。这并不意外。我们知道这会发生。我们假装或明确地忽略了它,并快速行动并破坏了东西——一次又一次。我们正在做相同的模型。这就是硅谷的模式。他们之所以能够逃脱惩罚,是因为我们的监管机构再次在方向盘上睡着了,而我们作为消费者正在为欺诈造成的数百亿美元的损失付出代价。我们让美国公众陷入了一个不可接受的境地。
联邦或州一级是否正在讨论任何立法来防止这种情况发生?
事情是这样的。实际上并不需要很多立法。这是欺诈。这已经是非法的了。你需要做的是追究那些为欺诈行为提供支持的科技公司的责任。这就是你所需要的。那么在美国呢?不,在欧盟?是的。在英国?是的。在澳大利亚?是的。在美国之外,实际上正在制定一些良好的监管措施。但那是因为他们没有像美国那样的游说努力,这阻止了这种情况的发生。
在其他地方看起来是什么样子?
它要求公司对其产品造成的危害负责。看,我们在物理世界中这样做。如果你买了东西,而公司知道或应该知道它会导致伤害,你就会起诉他们回到黑暗时代,这是应该的。这就是产品变得安全的原因,我们告诉这些公司,你制造了不安全的产品,你就要付出代价。但我们还没有对硅谷说过这样的话。我们说要保持快速行动并打破常规。会没事的。因此,在我们改变这种模式之前,你必须构建设计安全的产品,而不是第三、第四、第五个事后想法,否则公司将继续做公司所做的事情。我们不应该对此感到惊讶。
“那么对于正在监听的人来说,他们是否可以听到一些线索,这些线索可能表明这些听起来很紧急的电话实际上是人工智能生成的诈骗电话?”
'是的。我担心你会问我这个问题。答案是否定的。原因如下。我现在可以告诉你一件事。我可以。但事情是这样的。三个月后,这不会是真的,六个月后,这也绝对不会是真的。这是一个快速移动的空间。所以有一段时间,当人们说话时,你听不到呼吸声。然后他们解决了这个问题。然后是节奏太规律了,这个问题得到了解决。然后,哦,你知道,他们不能,语调总是恒定的。这已经解决了。所以事情是这样的。不要试图检测真实的声音或人工智能生成的声音、图像或视频。你不会可靠地做到这一点。相反,你要做的是运用常识。如果你接到电话,你会惊慌失措,说发生了事故。挂断电话并回电。回拨电话号码。好吧?我和我妻子有一个暗语。如果有人打电话并且发生紧急情况,您会询问暗号是什么。如果他们没有,那么你就挂断电话,对吗?因此,您可以通过一些低技术含量的方法来保护自己。暗语是与家人相处最容易的。是的。并回电。就像,接到我电话的律师,他挂断电话并给我回了电话,对吗?这是明智之举。现在我们有了一个暗号,对吧?顺便说一句,现在我有两套密码。太烦人了。我有所有这些人的密码,还有我的帐户的密码。
所以这听起来确实像是现实生活中的两因素身份验证。
这是 100% 正确的思考方式。这是现实世界的两因素身份验证。不要试图成为一名纸上谈兵的法医分析师。你会失败的。这是一个非常困难的问题。我以此为生,我很擅长,但我却很难做到。所以你必须寻找其他方法来保护自己。顺便说一句,第一件事是要意识到这些诈骗正在发生,当你接到这些不寻常的电话、这些不寻常的电子邮件时,是的,你应该保持怀疑。这是解决这个问题的最简单的方法。
是的,我想问一下在这种环境下的更大的情况,我们知道这不仅仅是这些诈骗电话。正如你所说,这是网上的错误信息或诈骗短信,如何解决这一问题。但听起来这种怀疑心态是解决方案的重要组成部分。
是的,我想,我们必须小心。我们不想走得太远。我不想接到我妻子的电话,她出事了,我就挂断了她的电话。太可怕了。所以必须有一个平衡,是吗?当你在线阅读信息时也是如此。我并不是说拒绝你读到的所有内容或接受你读到的所有内容。必须有一定程度的怀疑。
好吧,我期待着我们将在六个月或一年内进行的对话,讨论我们肯定会看到的这项技术的下一种演变。
如果AI霸主允许的话,我也很期待。
哈尼,非常感谢你。真的很感激。
很高兴和你说话,克莱尔。
再次感谢汉尼·法里德。回顾一下,要记住以下三件事,以避免成为人工智能语音克隆骗局的受害者。首先,您可以与家人一起创建一个只有您知道的暗号或短语。这样,如果您接到可疑电话,您可以验证他们是否确实是他们所说的人。加里·希尔德霍恩(Gary Schildhorn),你在本集开头听到的,现在和他的家人一起这样做。
我们有一个家庭密码。如果您在处于这种情感危机情况时有足够的资金来考虑这一点,那么这是我们为此做好准备的一种方式,希望其他人也能为此做好准备。
“接下来,如果你接到一个听起来很紧急的电话,请深呼吸。挂断电话,然后给对方回电话。或者发送短信或在其他设备上联系他们。诈骗者有可能伪造您认识的人的电话号码。最后,请记住,语音克隆技术正在不断发展。情况只会变得更好。如果它很难被发现,那不是我们的错。尽最大努力保持警惕,最重要的是,确保您所爱的人也意识到此类骗局。这就是本周的服务条款集。最后一件事:我想听听你想在未来的剧集中听到什么。您对生活中的技术有什么疑问?您正在努力解决什么问题,或者您正在尝试弄清楚如何使用哪些工具?我们的联系信息位于展会备注中。我是克莱尔·达菲。下周再跟你聊。《服务条款》由 CNN Audio 和 Goat Rodeo 制作。该节目由我克莱尔·达菲 (Clare Duffy) 制作和主持。《Goat Rodeo》的首席制片人是 Rebecca Seidel,执行制片人是 Megan Nadolski 和 Ian Enright。在 CNN,Haley Thomas 是我们的高级制作人,Dan Dzula 是我们的技术总监。Steve Lickteig 是 CNN Audio 的执行制片人。在 Kyra Dahring、Emily Williams、Tayler Phillips、David Rind、Dan Bloom、Robert Mathers、Jamus Andrest、Nicole Pesaru、Alex Manasseri、Leni Steinhardt、Jon Dianora 和 Lisa Namerow 的支持下。特别感谢凯蒂·辛曼、大卫·戈德曼和温迪·布伦迪奇。感谢您的聆听。