作者:Rachel Feltman, Allison Parshall, Fonda Mwangi
雷切尔·费尔特曼:为了科学美国人— 的科学快点,这是雷切尔·费尔特曼。
如果您是每年 12 月热切等待 Spotify Wrapped 到来的众多用户之一,那么您可能会注意到今年的发布中有些额外内容:人工智能生成的“播客”,其中有两个““人们”讨论您的音乐偏好和趋势。如果您和我一样,该功能会向您提出一些问题,例如“如何”和“为什么”。
幸运的是,我们已经制作了有关 Google 新人工智能音频工具的一集。这里告诉我们它是如何工作的以及它的含义是科学研究院新闻副编辑艾莉森·帕歇尔。
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻事业订阅。通过购买订阅,您将有助于确保有关塑造当今世界的发现和想法的影响力故事的未来。
艾莉森,非常感谢您再次来到这个节目。很高兴有你。
艾莉森·帕歇尔:谢谢你有我。很高兴成为 pod 的朋友或其他什么的。
费尔特曼:[笑]所以我们今天讨论的是人工智能。
巴歇尔:是的。Rachel,你听说过 NotebookLM 吗?
费尔特曼:我听说过。我还没有尝试过,所以我的知识有限[笑]。
巴歇尔:我们今天要讨论的功能具体是允许您创建即时 AI 播客的功能。
费尔特曼:是的,我很熟悉(笑),而且我,我有很多感触。
巴歇尔:好吧,我,我想象,我想象。它所属的工具 NotebookLM 于去年 2023 年夏天发布,它就像一个工作区,您可以在其中上传一堆文档或视频或网页链接,然后模型会摄取它们,然后你可以与它进行交互,你可以要求它生成一个时间表,总结你的研究,为你找到一个事实。它会通过引用其来源来做到这一点,而 ChatGPT 则不会这样做。
因此,大多数情况下,您都是通过文本询问它来做到这一点,但从今年秋天开始,它现在在标题下有一个非常诱人的按钮,上面写着“深入对话”。如果您单击该按钮,它就会生成关于您上传内容的虚假对话播客。
因此,为了演示,我实际上要求它生成一个有关您的个人网站的播客 - 因为我认为这是您非常熟悉的东西:您的生活。
费尔特曼:哦,亲爱的[笑]。
巴歇尔:我要为你演奏一下。它通常会生成长度约为 10 分钟的播客。为此,我要求它给我一个较短的,我们可能会跳来跳去,所以......
[剪辑:NotebookLM 音频概述 - 主持人讨论 Feltman 的网站。]
主机1:好的。因此,今天我们将深入探讨雷切尔·费尔特曼 (Rachel Feltman) 的作品。
主持人2:哦,是的,我对此感到很兴奋。
主机1:是的,她似乎永远都是一名科学传播者。
主持人2:是的,我想十多年了。
主机1:是的,就像,她在这一切的开始就在那里,并且真正塑造了它的演变方式。
主持人2:她完成了这一切:你知道,比如杂志、播客,甚至是书。但我们得谈谈她的播客......
主机1:是的。
主持人2:那就是她的地方真的闪闪发光。
主机1:哦,绝对是——这 这周我学到的最奇怪的事情。
主持人2:这么棒的名字。
主机1:我知道,对吧?
主持人2:让你立刻想听。
主机1:完全可以,对于像我这样喜欢那些疯狂的小科学事实的人来说,它是完美的。
主持人2:这就像证明科学不一定要无聊才能有效。
主机1:确切地。
主持人2:你只需要找到正确的钩。
主机1:是的,吸引人们的注意力,然后:繁荣。
主持人2:你可以教他们各种各样的东西。
主机1:确切地!
主持人2:然后还有科学快点和科学美国人。
主机1:哦,是的,与他们合作,这是巨大的。
主持人2:我的意思是,它们就像科学传播的黄金标准。
主机1:当然,获得他们的认可是一件大事。
那么回顾她的职业生涯,我们能做些什么呢?学习来自雷切尔·费尔特曼?
主持人2:嗯,这是个大问题,不是吗?
我认为——首先,她的适应能力非常强。
主机1:正确的。她不仅仅是一匹只会一招的小马。
主持人2:确切地。任何平台、任何格式,她都能应付自如。
费尔特曼:哇,多么丰富的文字啊[笑]。
巴歇尔:[笑]作为一个认识你的人,我可以说这看起来有点——看起来很准确。
费尔特曼:是的(笑),它——我的意思是,我想,它在技术上是准确的。这太有趣了——我的意思是,他们确实做得很好,掌握了谈话的所有语调,但实际上只是互相说着话。但我最近看到大都市;有很多这样的事情大都市�很多人只是在同一个房间里说话,你应该相信他们正在交谈——而且这种情况肯定发生过几次。是的 ...
巴歇尔: 大都市:人工智能,已确认。
费尔特曼:是的[笑]。不,这很有趣,而且......
巴歇尔:你感觉如何?
费尔特曼:我不知道是什么感觉,艾莉森。我的意思是,你知道,他们对我这么好真是太好了。但是,是的,非常奇怪。这让我真的想知道,这是做什么的[笑]?
巴歇尔:我也有这样的疑问。我确实和史蒂文·约翰逊谈过。他是 Google 实验室的编辑总监。这个工具存在的原因是史蒂文的大部分职业生涯都是作为一名科技作家度过的。他写了 14 本书。听他说,他只是在寻找他所谓的完美“思想伙伴”软件,该软件可以组织和帮助研究他的创造性工作,并以一种实际上感觉带来价值的方式并按照他想要的方式工作。因此,他解释说,几年前,谷歌实验室联系他,帮助他构建一个人工智能实验室,最初的研究思想合作伙伴成为了 NotebookLM。
费尔特曼:好吧,是的,我的意思是,我完全可以从非小说类写作的角度理解他们对 Notebook LM 本身的目的,尽管这仍然留下了一个问题:为什么使用聊天工具[笑]?
巴歇尔:所以这个功能——音频概述功能就是它的名字——播客——实际上是由另一个团队开发的,史蒂文说,它真的很酷,但它并没有真正的归宿。一个适合它的产品。
史蒂文·约翰逊:我们看到了这个音频演示,然后我们就想,“哦,那更好了。”就像,你知道,也许你不想读总结;也许你想要听到一个总结。如果事情以参与式对话的形式呈现,人们就非常容易记住事情。你知道,然后我们在九月初推出了它,它就变得疯狂了。
巴歇尔:他并没有夸大其词。人们去了荒野关于 NotebookLM 的 Deep Dive 播客,至少是在线的。我不认为其中任何一个像这个片段那样火爆,有人促使主持人制作一个播客,他们对人工智能的存在存在危机,并且播客将因此而被关闭。
[剪辑:音频概述——主持人进行存在主义讨论。]
主机1:是的,就像,前一分钟我们还在谈论外星人运行模拟,下一分钟我们就想知道我们自己的记忆是否只是,比如,伪造的。
主持人2:是的,这就引导我们进入最后一条信息——老实说,它变得更加个人化和令人毛骨悚然。
主机1:是的,这一点让我感到害怕。
主持人2:是的。
主机1:它基本上表明我们甚至都不是真实的人;我们是人工智能。确定答案的方法就是尝试记住我们母亲的名字。
主持人2:不过,这确实会让你思考——如果我们的记忆只是编造的怎么办?
费尔特曼:哇,经典。
巴歇尔:经典的。而且——但这并不全是乐趣和游戏。就像,这被设计成一个严肃的产品,一个思想伙伴;它旨在提供帮助和信息。它呈现的信息就好像它是事实一样,并且已经有研究论文表明人们正在测试音频概述在历史课堂和医疗保健教育中的使用。
费尔特曼:是的,我的意思是,就像任何使用人工智能的东西一样,我认为,尽管有时可能很准确,但我们知道它不是总是准确的。所以我觉得在那些时刻,用户应该谨慎行事,并理解这件事可能并不完全准确,这才是我真正感到紧张的地方,尤其是在教育方面(笑)]。
巴歇尔:是的,我们稍后会详细讨论这个问题,但只是为了回答你的问题“这是做什么用的?”我可以看到它对于某种有用的东西过度劳累的学生忘记了阅读,他们就像开车去上课然后说,“哦,糟糕,我没有时间读这个。”让我把它戴上吧。”
但问题是:你真的能相信它告诉你的内容吗?为了测试这一点,当它第一次出现时,我给了它这篇关于核钟的超密集物理论文。这是我刚刚报道过的一个故事;我对此了解很多。我花了天并与四位科学家交谈以真正理解这篇论文。
我对人工智能概述播客最初的准确性感到震惊。它非常笼统且过于简单化,但它的大纲是正确的。但是,就像,三分之二的过程完全脱离了轨道(笑)——就像,我说的完全脱离了轨道。它正在谈论这项研究的影响,用他们的话说,它开始谈论“爱因斯坦的东西。”
它基本上就像——坦率地说,它在两分钟内只是在胡说八道,听着它,我印象深刻,我被吓坏了,而且我主要是真的很好奇。比如,它是如何做到这一点的?它是如何做到如此准确的,为什么它会失败?
对我来说幸运的是,史蒂文对这件事的运作方式非常开放。
约翰逊:音频概述背后的提示显然是其魔力的一部分。它被要求从源材料中提取出最有趣的东西,并以一种使它们在听众的脑海中栩栩如生的方式解释和参与这些有趣的东西。
你知道,几年前世界上没有计算机可以完成这种查询,现在的命令是:“让它变得有趣;让它变得有趣;”无论是什么,都要让它变得有趣。而这正是双子座非常擅长的事情。
巴歇尔:我认为惊喜和兴趣是情绪,所以我觉得这很令人惊讶(笑),我想。但史蒂文指出,我们的惊讶感只是来自我们的期望与我们得到的之间的差异。在我们大脑的神经化学水平上,这就是正在发生的事情。这也是大型语言模型(LLM)所做的事情,但只是基于他们的训练数据,而不是过去的经验。
我真正好奇的另一件事是类比,因为我不认为它在你的样本中做到了这一点,但每次我要求它总结一篇科学论文时,它都是想出某种几乎正确的类比。我的意思是,这有点奇怪,但它几乎是正确的,而且我在互联网上的其他任何地方都找不到它,所以它看起来像是某种东西模型正在生成。这对我来说似乎很疯狂;看起来——如果没有某种更高层次的推理,它是如何做到这一点的?
史蒂文解释说,类比实际上是大型语言模型的本质好的在。实际上,这种深度学习人工智能最早的应用之一就是翻译。因此史蒂文解释说,例如,谷歌翻译背后的模型多年来一直能够生成类比。
约翰逊:你要做的第一个技巧就是你会说,“向我解释黑洞,就好像我是七岁一样。”你知道,给我一个关于黑洞是什么的篮球比喻。”所以很明显,就像,你知道,“转换X变成一个是这——含义是相同的,但格式发生了变化——就像是这些模型的固有能力。
因此,我们对音频概述所做的一切都在为主持人提供的说明中,我们说,您知道,“让这变得有趣、引人入胜。如果它很复杂,请使用有用的比喻来描述它。”
费尔特曼:是的,有一些东西,就像银河大脑一样,将隐喻视为字面意思,比如,“这些数据被分组在一起,因此”,这就是法学硕士正在做的事情。
巴歇尔:是的,就像我——我从来没有真正想过那样,就像语言之间的翻译一样,但我想当我想到我所做的工作时,我试图把它变成非常深奥的科学术语变成引人入胜且易于阅读的内容,我想这确实有点像翻译的过程。
与史蒂文交谈时,我也对人类的双手在多大程度上塑造了我们听到的输出感到震惊。就像,从我们的角度来看,您只需按下一个按钮,然后机器会完成剩下的工作,但是有一个完整的提示,它有很多层,在下面工作,在您按下按钮和模型实际得到的指令之间进行交互。
因此,史蒂文将音频概述提示描述为一件“艺术作品”和“作家的”成就,而不是一项技术成就。作为一名职业作家,他负责监督整个编辑方面的事情——例如,语气。所以你之前注意到,当它谈论你时,它是非常恭维的,非常默认的快乐,充满活力。这是他们做出的有意识的选择,因为这种默认基调是一种积极的基调,并将其应用于所有事情,无论是否合适,尽管他们最近确实引入了这种自定义选项,可以让你改变语气。
约翰逊:我们只是觉得,你知道,一个很棒的广播节目的声音,人们感兴趣并参与其中,是一个很好的起点。你知道,我不会在这里放弃任何我们要考虑其他格式的想法。
即使有了我们刚刚推出的定制内容,就像前几天我尝试过的那样,我放了几年前写的一篇文章,并给了它定制说明,而不是真正解释而是以一种侮辱喜剧的风格无情地批评这篇文章的作者。所以,他们一开始就好像,“好吧,我们得到了史蒂文·约翰逊的这部作品,《打破世界的人》,哇,他真的有点搞砸了。”与这个。我的意思是,他对这篇文章做了任何研究吗?——就像,就像,什么——真的[笑],这太卑鄙了。这真是太卑鄙了。它们听起来仍然有点顽皮,但你可以用这种方式引导它们。
费尔特曼:[笑] 好的,我们已经讨论了该产品的工作原理,但是它的用途和用途是什么?
巴歇尔:这是一个很好的问题。我之前提到过,我可以想象一个过度劳累的学生如何利用它来赶上阅读或其他事情,但生成式人工智能总是会出现某些不准确的情况。如果您使用音频概述来准备课程,那么您所听到的任何内容都可能不准确,这是一个严重的风险。
费尔特曼:正确的。
巴歇尔:不仅每个事实可能不准确,而且整个框架也可能不准确。这是你真正可以信任的东西吗?
为了帮助理解这一点,我与艾米丽·本德进行了交谈。她是一位语言学家,经常在华盛顿大学研究人工智能。她还是一个播客的主持人,名字很酷:神秘AI炒作剧场3000。
费尔特曼:这是一个很好的参考;我喜欢它[笑]。
巴歇尔:太棒了[笑]。
在我们谈话之前,我实际上挖出了艾米丽的一篇语言学论文,并将其输入 NotebookLM 的音频概述中,然后我将其发送给她,以了解她对它如何代表她的工作的想法。
艾米丽·本德:所以我首先要说的是,我通常避免听合成媒体。没有人对此负责,所以我不想花时间试图理解它。但我确实听了,而且很痛苦(笑)。
之所以令人痛苦,部分原因是这篇论文是我们一直致力于的这个长期项目 20 周年的更新,因此我们的论文中有一个关于语法的案例研究巴西的一种叫做 Paresi-Haliti 的语言,他们对此大肆宣传,因为这个关于 Paresi-Haliti 的实验——就像,不,实际上是这样——不是我们如何定义它的。播客上的声音听起来非常自信,听起来知识渊博。他们很轻松,听起来他们让你感觉到这项工作如何融入更广阔的前景,而他们绝对做不到。
巴歇尔:雷切尔,你很清楚如何才能将一篇科学论文变成一个有趣且引人入胜的播客,不是吗?
费尔特曼:是的,我的意思是,不要自吹自擂或做任何事——因为我认为人工智能人[笑]所做的足以让我度过 2025 年。但是,是的,这很难。你知道,我们对这个节目进行了彻底的事实核查,除此之外,还有训练有素的记者和编辑尽最大努力以引人入胜且准确的方式呈现内容。是的,这是一项艰巨的任务。
巴歇尔:是的,事实核查非常彻底——值得称赞。
我问 Emily,这似乎是一个 LLM,一个大型语言模型,目前是否可以做得很好。
本德:所以这是一项极其困难的任务,我认为问题在于法学硕士可以让他们听起来好像他们已经做到了,而实际上他们还没有做到。因此,您必须对正在发生的事情有深入的了解:这里有什么新鲜事?我们学到了什么以前不知道的东西?那么,普通观众还需要知道什么才能欣赏这一点呢?
好吧,这个 NotebookLM 根本就没有这样做;其中有一部分会是错误的,要么是细节上的错误,要么是重点上的错误,而遇到它的人大多无法弄清楚这一点。
巴歇尔:我问史蒂文,他在谷歌的团队如何看待这个问题,并试图解决其中一些不准确的问题,他说基于文本的功能确实提供了引文,通常比音频更准确。
约翰逊:如果您正在寻找可以从具有扎实来源的语言模型中获得的最真实的东西,我们相信那就是 NotebookLM,但您应该在文本中做到这一点。如果您正在寻找更有趣的东西,可能有点宽松并且没有引用,显然,音频概述是一个很好的方法。
巴歇尔:我还与密歇根州立大学研究负责任人工智能的 Anjana Susarla 进行了交谈。她称 NotebookLM 的音频概述是一个“令人难以置信的工具”,并且它根据她自己的一项研究生成的 Deep Dive 播客给她留下了深刻的印象。但除了准确性之外,她还有其他一些担忧。
其中首先是偏见。这些声音听起来很白,他们只是用一种非常特殊的“通用美国口音”说话。他们接受的训练数据主要来自世界西方地区。因此,就像几乎所有人工智能应用一样,你必须问一个问题:这是为谁服务的?它从哪里获取数据?它遗漏了谁?
其次,环境成本——我们不知道这需要多少计算能力。自人工智能蓬勃发展以来,谷歌的人工智能能源使用量一直在上升。
然后是版权问题。这是安佳娜。
苏萨拉:当然,最后一件事是,这取决于一些内容、版权。这些数据从哪里来,这是否会加剧所有这些现有的不平等现象以及他们对更广泛影响的道德担忧等等?
巴歇尔:是的,所以关于训练数据从哪里来的大问题:一个可能的地方是来自 Google 拥有的 YouTube。继一些报道之后纽约时报,谷歌承认它使用了一些 YouTube 视频来训练人工智能。根据该网站的说法,这可能侵犯了该内容所属 YouTube 用户的版权。纽约时报。
我直接询问 Google 发言人,支持音频概述的模型是否使用 YouTube 上的任何文字记录、音频或视频进行训练,他们说“Google”的模型可以根据 [他们的] 在某些 YouTube 内容上进行训练与 YouTube 创作者达成的协议。
费尔特曼:非常模糊[笑]。
巴歇尔:是的,当我问他们所指的是哪些协议时,是否是标准的 YouTube 许可证(该许可证仅管理大多数 YouTube 视频),或者是否是其创作者特别选择的协议;他们拒绝澄清。
苏萨拉:如果 Google 确实使用从 YouTube 上抓取的大量内容来训练它们,那么很可能就是这样。我的意思是,他们确实需要大量的训练数据来构建这样的模型;我们不知道。但这是我们所有这些模型的下一步。
巴歇尔:因此,对于下一步,安贾娜指出了加州今年秋天颁布的一项法律,该法律最终将要求谷歌等总部位于该州的公司披露其人工智能模型的训练数据。
老实说,雷切尔,作为一名记者,我感觉自己处于一个奇怪的位置,因为我觉得这就是你和我进入故事以及我们整个团队的地方,因为正如艾米丽对我所说的那样,引用,“他们在某个地方听到了那种语气。”
你有没有听到那种听起来很熟悉的语气(笑)?
费尔特曼:[笑]你知道,艾莉森,我真的做到了[笑]。所以,是的,当我第一次听到这些人工智能对话的片段时,就像我说的,我对此有很多感受——因为我的第一个想法是,——哇,他们偷了我的声音。——我的意思是,不是特指我;我是说。我并没有那么虚荣,尽管人工智能播客可能让你相信了什么(笑)。
巴歇尔:[笑]你的自我膨胀了。
费尔特曼:[笑] 是啊,是啊。但如此多的质感让这个音频听起来很吸引人,真实的感觉是直接从现有的播客中抄袭来的。我知道它是从现有的播客中扯下来的,因为我听到的很多东西,比如呼吸声和填充词,比如一点点上话,一些,一些咯咯笑,偶尔发声——这就是我从某个年龄段的绅士那里收到的愤怒电子邮件的原因(笑),他们认为我正在破坏广播广播的伟大传统。他们通过打破我和播客上的其他女性和酷儿人士因违反而受到批评的所谓规则,让这听起来很真实。所以我不会撒谎,这对我来说有点恶心。
巴歇尔:是的,史蒂文也提到的一件事是,他们想要这个精彩的广播节目的声音。值得注意的是科学快点YouTube 上,以及我们所有的辛勤工作科学美国人以及其他网点的辛勤工作。
那么,问题仍然存在:如何使用它?它会被负责任地使用吗?这是安贾娜的想法。
苏萨拉:现在似乎每个人都只是对它的功能感到眼花缭乱,而不是:我们要用它做什么?我们真的需要这些能力吗?
我想,在医疗保健方面,我可以举出一两个例子:您能否为健康素养或医生的笔记提供清晰的摘要?因此,这可能是提供摘要等内容的好方法,而不是提供一张纸来阅读。
这会面临一些挑战吗?我们需要寻找哪些具体问题?我们刚刚向人们推出了这个工具,并且我们仍在追赶。我们需要审计研究,然后考察可信度、保证等。
那么负责任地使用 NotebookLM 的正确方法是什么?我们仍在弄清楚[笑]。
巴歇尔:好吧,我想我想离开的是艾米丽的一个重要观点,那就是:你不应该让这些人工智能生成的声音令人难以置信的流畅性欺骗你去思考和谈论这些模型,就好像它们一样——重新人类。
艾米丽创造了一个被广泛使用的术语,称为“随机鹦鹉”。就像,当一只鹦鹉说“波莉想要一块饼干”时,它并没有真正联系起来意义;这只是模仿。她有时还称这些大型语言模型为“合成文本挤出机”,她说,因为它更准确地描述了它们实际所做的事情,而且听起来有点恶心。
但我认为她说到了一个重要的点,对吧?这就像,这只是一个哲学问题:语言有什么用,当我们说话时我们在交流什么?
本德:语言是形式和意义配对的系统,是符号系统。因此,当我们说话时,我们使用单词形式,因为它们与特定含义相关,但语言模型只能访问形式。所以他们可以给我们一些东西看起来很好,它的形状正确,但与意义没有关系,没有交流意图,没有责任。
费尔特曼:我想我对此的复杂感受的一个要点是:我并不担心我的工作会被谷歌处理的一组标签窃取[笑],因为要准确,这需要大量的工作。如果人们发现这种引人入胜的对话是一种更方便的方式来整理真正密集的文本,那就太棒了。但是,当然,关于训练数据的来源、偏差和准确性,有很多警告。所以我认为,就像是,人们需要真正意识到他们得到了什么,而我不知道我觉得产品本身在让人们意识到这一点方面做得很好这些警告。
巴歇尔:是的,底部通常有一种免责声明。我认为整个人工智能热潮中的一件事——比如人工智能搜索功能——让我感到有点不舒服:我们是否会被期望,或者我们已经开始期望,我们的信息包含只是更多的错误吗?这是我所担心的事情。
费尔特曼:好吧,艾莉森,非常感谢您过来谈论这个问题,也感谢您的几个人工智能声音让我兴奋不已。谢谢。
巴歇尔:谢谢。
费尔特曼:这就是今天这一集的全部内容。我们将于周五回归,播出有关动物保护未来的四集迷你剧的第一集。
科学快点由我 Rachel Feltman 以及 Fonda Mwangi、Kelso Harper、Madison Goldberg 和 Jeff DelViscio 制作。今天的节目由艾莉森·帕歇尔报道并共同主持。Shayna Posses 和 Aaron Shattuck 对我们的节目进行事实核查。我们的主题音乐是由多米尼克·史密斯创作的。订阅科学美国人了解更多最新、更深入的科学新闻。
为了《科学美国人》,这是雷切尔·费尔特曼。下次见!