2024-10-01 15:17:00 · 英文原文

谷歌的 AI 播客工具可将您的文本免费转换为极其逼真的音频 - ZDNet

Google 的 AI 播客工具可将您的文本转换为极其逼真的音频 - 免费

我一点也不信教，但当我发现这个工具时，我想尖叫，“这就是魔鬼的杰作！”

当我向我的编辑播放下面包含的音频时，她放松了下来，“这是什么类型的巫术？”我和她一起工作了 10 年，期间我们几乎每天都在偷懒，这是我第一次看到她全大写。

另外：ChatGPT 是如何运作的在几秒钟内扫描了 17 万行代码，节省了我几个小时的工作时间

后来，她与我分享，“这 100% 是我迄今为止在生成式 AI 竞赛中见过的最可怕的事情。”

如果您对人工智能感兴趣，我的发现可能会像对我们一样震撼您。我们可能正处于一个分水岭。

在本文中，我将演示 Google 提供的一项服务。请花几分钟时间至少听听我要分享的两个音频片段中的一部分。我将向您展示它们是如何创建的以及如何制作您自己的。然后我们将深入探讨地震级别的影响。

最后，请与我一起在下面的评论中讨论这一点。我认为我们都需要对这意味着什么进行一些处理。

演示

您将听到的是关于我最近的一篇文章的播客讨论。

我所做的就是将我关于 2D 图像到 3D 的真实 VR 转换的文章的文本粘贴到 Google 的 NotebookLM 服务中，然后单击“生成”。

让我说得非常清楚：广播中的“人”并不真实。音频完全由人工智能生成。

要充分理解这项技术的含义，值得花几分钟阅读我的原始文章，然后聆听六分钟音轨中的至少一分钟。

原文：我以为这个新的 VisionOS 2 功能只是一个噱头 - 直到它让我对着 Vision Pro 哭泣
AI 生成的音轨：点击此处听着

继续吧，我等一下。

这里有几点需要注意：

两者的质量人们说话的声音保真度和自然度
使用适当的口语，如“水厂”来描述眼泪和哭泣
他们的玩笑和事实完全有机的本质甚至还有玩笑
“人类”演讲者如何理解文章中的概念，包括重温旧记忆的情感方面
总的来说，这听起来有多真实，从简介从正文到结尾，它与真实的广播没有什么区别

接下来，让我们花点时间看看它是如何生成的。

什么是 NotebookLM？

NotebookLM 是 Google Keep 和 Notion 中的 AI 的结合体。

另外：如何使用 Google 的 AI 支持的 NotebookLM 来组织您的研究

主要数据NotebookLM 中的结构是笔记本，其中包含有关给定项目的所有“笔记”。注释在 NotebookLM 中称为“源”，可以是您在 NotebookLM 中输入的文本，类似于 Keep。但它们也可以是 PDF、Google 文档或幻灯片、粘贴的文本、音频文件、YouTube 链接和 Web URL。

NotebookLM 似乎对源的格式有些挑剔，因为当我粘贴我的 URL 时文章，无法阅读。我必须复制文本并将其粘贴进去。我还发现了一个无法阅读的 PDF，即使该 PDF 并未显示为锁定或受限。

将所有源文件都保存在笔记本中后，您可以要求 NotebookLM 的 AI 使用数据执行 AI 操作。你可以得到一个总结。你可以要求它提取要点。你可以向它索要大纲等等。AI 操作仅使用给定笔记本中提供的源数据，类似于 Notion 的 AI 仅对上传到您自己的 Notion 帐户的数据起作用。

此外：令人惊讶的是，Meta 突然碾压了 Apple在创新之战中

最大的惊喜功能，也是我在本文中所热切关注的功能，是“生成”按钮，它可以在您在演示中听到的两个播客主持人之间生成现实的玩笑。

现在，NotebookLM 是测试版并且免费。

创建您自己的音频（和第二个演示）

让我们创建另一个令人惊叹的播客讨论。这次，我们将使用 Jason Perlow 关于英特尔衰落的精彩文章作为我们的来源。

另外：Google 的 NotebookLM 现在可以与您讨论您的笔记

首先，打开您的浏览器到 NotebookLM。您需要登录您的 Google 帐户。登录后，您将看到笔记本列表。此屏幕截图仅显示了我的第一个测试，即上面展示的演示，以及 Google 提供的一些示例笔记本。

单击“新建笔记本”会将我们带到“添加源”屏幕。

因为我之前发现它没有正确处理 ZDNET 文章的链接，我只是转到右下角并单击“粘贴文本”。然后，我已经从 Jason 的文章中剪切了文本，并将其粘贴到数据输入字段中。

几秒钟后，NotebookLM 打开所谓的笔记本指南，这是来源和建议的摘要。

右侧是音频概述部分。只需单击“生成”即可。生成新的播客需要几分钟的时间。这是我们这次得到的结果。

原创文章：英特尔的衰落：一代人工智能如何帮助推翻巨头并改变我们所知的计算
人工智能生成音轨：点击此处收听

如果要导出文件，可以点击三点菜单并选择下载。该网站会下载一个 WAV 文件，但您需要添加 .WAV 扩展名。就是这样。

简单说明：大约四分钟后，出现一个小错误。男声重复了一句话。我自己在网络广播和广播中也犯过同样的错误，但仍然如此。

令人震惊的影响

首先，让我们花点时间来欣赏一下结果是多么令人难以置信。这两段录音展示了理解的深度、编写相关对话的能力，以及添加与文化相关甚至敏感的新信息的能力。这就是我们讨论声音质量甚至声调之前的全部内容。

就我个人而言，我首先感到这是一记重击。作为图书作者，在做图书促销、图书巡展时，“送好广播”的能力是必不可少的。我已经磨练了超过 15 年的技术，每次出场都费了一番功夫，但我仍然不如这两个假主播。

另外：Google 的 NotebookLM 现在可以转换 YouTube 视频进入学习指南

是的，他们使用我的文章（以及后来的 Jason 的）作为他们讨论的素材。但这种质量的输出几乎让像我这样的创作者和内容制作者开始感受到热量。NotebookLM除了加快语速之外别无选择。现在想象一下，如果您可以选择扬声器、风格，甚至可以编辑一些人工智能生成的脚本。

那么，这就是什么是真实的整个问题。上周，我向您展示了 Vision Pro 如何将我早已去世的小猫 20 年前的快照真实地呈现在我眼前。现在，我将向您展示 Google 笔记本实验角落中的一个微小功能如何构成两个完全自制的扬声器，与人类没有区别。

此外：IBM 将为您提供人工智能基础知识方面的培训免费，并为您提供技能证书 - 10 小时内

多年来，我们已经有能力在 Photoshop 和其他编辑工具中扭曲现实。电影制作者在讲故事时使用特效来创造虚假的现实。即使是在胶片上拍照的行为也会稍微改变现实。

我猫的那张照片是她现实的 1/250 秒快照，你只能看到相机看到的东西，以及显影过程（仍然是胶片）如何对胶片乳剂中的光线做出反应。

所以这并不是说我们突然能够伪造真实的东西。而是我们能够将虚假进一步延伸为现实。猫的快照与亲眼所见是不同的，就好像她真的就在你面前一样。计算机生成的脚本与听到两个广播专业人士就感兴趣的话题进行动态讨论有很大不同。

还有成本和速度的问题。需要明确的是，谷歌花费了数十亿美元将我的文章变成播客。但这并没有花费我任何代价。这也需要一些时间。这极大地降低了内容制作的准入门槛。

另外：编写更好的 ChatGPT 提示的 6 种方法 - 并更快地获得您想要的结果

一些公司也担心选择使用人工智能生成的内容，而不是雇用像我和杰森这样的专业人士来做这件事。我花了两天时间写这篇文章，因为我一直在试图找到讲述这个故事的正确方式。

但是当我收到提示“写一篇关于惊人能力的文章”时当我在 ChatGPT 中使用 Google NotebookLM 创建音频播客及其影响时，不到一分钟就收到了一篇经过深思熟虑的文章。

我的文章显然更深入、更完整，借鉴了我个人风格的细微差别，以及我的经历和选择。但 ChatGPT 生成的版本还不错。它对这五个主题写了详细的想法：

内容创作的民主化
教育和知识共享的变革
对创意产业的影响
li>
新的道德问题
改变播客的经济学

这在一分钟的工作中令人印象深刻。

Google 的 NotebookLM 让我思考关于这可能预示的服务类型。我制作了很多 YouTube 视频，但说实话，我已经落后了。有一天我可以使用这样的“生成”功能来创建 YouTube 视频的头部说话部分，让我看起来像是在表演吗？

一方面，这可能会节省我大量时间并给我一个机会来处理我的积压工作。但另一方面，神圣可怕的蝙蝠侠！我是否想要一个我跑来跑去的幻影，说天知道什么，拥护我可能不同意甚至厌恶的信念？或者，如果人工智能本身出现幻觉、忽视或误解其护栏并吐出一些非常不恰当的东西怎么办？这并不是以前从未发生过。

有多少朋友、选民和客户可能会看到这样的事情，但无法辨别这是深度伪造的？如果要清理的话，会有多少混乱？这会让我失去一份工作或一段友谊，或者伤害我所关心的人的感情吗？

我一直喜欢新技术。自从我写了一篇关于人工智能社会影响的最早的学术论文以来，我就对人工智能着迷，那是在木船和铁程序员的时代。

还有：苹果、谷歌和微软是如何做到这一点的可以将我们从人工智能深度伪造中拯救出来

但我开始更好地理解卢德分子（那些反对使用自动化机械的 19 世纪纺织工人）的感受。

尽管生成式人工智能给我留下了深刻的印象，而且我个人也发现它很有用，但这种先进的功能只是不久的将来更先进的预兆，好吧，它们让我感到害怕。

当然，还有垃圾邮件的一面。该算法越来越多地向我展示有关我感兴趣的主题的狭窄 YouTube 视频，但在观看后才发现它们显然是人工智能生成的。这些视频的泛滥不仅对真实的人类创作者造成了不公平的竞争，而且浪费了观众的时间。更糟糕的是，他们正在赶走真正的专家，否则他们可能会制作有关这些主题的视频。

人类 BS 探测器的力量

但这就是问题。当这些人工智能生成的视频首次发布时，有时可能不清楚它们是否真实。但大约一年后，现在什么是人工智能垃圾，什么是人类精心制作的，现在就一目了然了。

你甚至可以通过听我提供的两个示例播客来辨别。第一个让我震惊不已。第二个非常非常好。但仔细听一听，就会发现其中存在一种非常明显的模式。我们人类大部分或一生都生活在激烈的媒体环境中，拥有微调的 BS 探测器。给我们几年的时间，我们将能够看穿最好的人工智能生成技术。

另外：我测试了 7 个人工智能内容检测器 - 它们在识别抄袭方面取得了显着的进步

最大的问题是支付创作者费用的人是否会关心。我想他们会的。毫无疑问，杰森·珀洛（Jason Perlow）以他自己的深刻视角撰写技术文章。他写的很多内容都是我们都非常了解的领域。

但我一定要阅读他的文章，因为我总是从他独特的视角中学习。我不认为人工智能可以克隆这一点，这就是为什么他拥有如此众多的真人追随者，他们珍视他独特的声音并期待他制作的每一个新作品。

所以，虽然一些出版商和媒体聚合商总是会寻求廉价的解决方案，它们都会开始融合在一起，特别是当人工智能算法开始基于通用的（如果是巨大的）训练数据块时。但是，ZDNET 拥有像 Jason 和我这样经验丰富的作家，以及我们无所畏惧的编辑，将始终重视只有我们才能带来的独特性、人性和视角深度，而这也赋予了 ZDNET 自己独特的特色。在其他顶级科技网站中脱颖而出。

这不是人工智能可以做到的事情，而且可能永远无法做到。

你觉得呢？你也和我一样担心吗？您觉得这些演示令人印象深刻吗？您自己尝试过 NotebookLM 吗？请在下面的评论中告诉我们。

您可以在社交媒体上关注我的日常项目更新。请务必订阅我的每周更新时事通讯，并在 Twitter/X 上关注我：@DavidGewirtz、Facebook 上：Facebook.com/DavidGewirtz、Instagram 上：Instagram.com/DavidGewirtz 和 YouTube 上：YouTube.com/DavidGewirtzTV。

关于《谷歌的 AI 播客工具可将您的文本免费转换为极其逼真的音频 - ZDNet》的评论

暂无评论

发表评论

摘要

谷歌的人工智能播客工具可以将您的文本转换成极其逼真的音频 - 免费我一点也不信教，但是当我发现这个工具时，我想尖叫，“这是魔鬼的作品！”当我播放下面包含的音频时，我的编辑，她放松下来，“这是什么巫术？”另外：出乎意料的是，Meta 在创新之战中突然碾压了苹果。我在本文中最感兴趣的一个大惊喜功能是“生成”按钮，它可以在您听到的两个播客主持人之间生成现实的玩笑。演示。而是我们能够将虚假进一步延伸为现实。我的文章显然更深入、更完整，体现了我个人风格的细微差别以及我的经历和选择。给我们几年的时间，我们将能够看穿最好的生成人工智能。另外：我测试了 7 个人工智能内容检测器——它们在识别抄袭方面取得了显着的进步。最大的问题是，那些付费创作者会关心的。

OC