英语轻松读发新版了,欢迎下载、更新

两个本科生建立了一个AI语音模型,以竞争NotebookLM |TechCrunch

2025-04-22 15:16:27 英文原文

作者:Kyle Wiggers

一对没有广泛AI专业知识的本科生说,他们创建了一个公开可用的AI模型,可以生成播客风格的剪辑Google的笔记本电脑

合成语音工具的市场庞大而不断增长。Elevenlabs是最大的球员之一,但不乏挑战者(请参阅Playai,,,,芝麻, 等等)。投资者认为,这些工具具有巨大的潜力。根据音调,开发Voice AI Tech的初创公司去年筹集了超过3.98亿美元的风险投资。

托比·金(Toby Kim),韩国的联合创始人之一纳里实验室新发布的模型背后的小组说,他和他的联合创始人三个月前开始学习演讲AI。受Notebooklm的启发,他们想创建一个模型,该模型对生成的声音和脚本中的自由提供了更多控制。

金说,他们使用了Google的TPU研究云计划,该计划可为研究人员免费访问该公司的TPU AI芯片,以培训Nari的模型DIA。DIA的重量为16亿个参数,可以从脚本中产生对话,使用户可以自定义扬声器和插入散布,咳嗽,笑声和其他非语言提示。

参数是用于进行预测的内部变量模型。通常,具有更多参数的模型表现更好。

可从AI开发平台获得拥抱脸github,DIA可以在大多数现代PC上使用至少10GB的VRAM运行。除非提示使用预期样式的描述,否则它会产生随机的声音,但也可以克隆一个人的声音。

在TechCrunch的DIA通过Nari的简要测试中网络演示,DIA效果很好,对任何主题的双向聊天都毫不及时地产生。声音的质量似乎与其他工具竞争,语音克隆功能是该记者尝试过的最简单的。

这里是一个样本:

像许多语音生成器一样但是,DIA几乎没有提供保障措施。在制作虚假信息或骗子录音方面,这在很容易中很容易。在DIA的项目页面上,Nari不鼓励滥用该模型,以假冒,欺骗或以其他方式进行非法运动,但该组织表示对滥用的负责不负责。

Nari还没有透露其刮擦DIA的数据。使用受版权保护的内容开发了DIA-评论者在《黑客新闻》上指出,一个样本听起来像是NPR'S“星球Money”播客的主持人。关于版权内容的培训模型是一种广泛但法律上可疑的实践。一些AI公司声称,公平使用使他们免受责任,而权利持有人则断言,公平用途不适用于培训。

无论如何,金说,纳里的计划是创建一个合成语音平台,在DIA和更大的未来模型之上,具有社会方面。Nari还打算发布DIA的技术报告,并将模型的支持扩展到英语以外的语言。

Kyle Wiggers是TechCrunch的AI编辑。他的写作出现在VentureBeat和数字趋势中,以及一系列小工具博客,包括Android警察,Android Authority,Droid-Life和XDA-Developers。他与他的伴侣,音乐治疗师一起住在曼哈顿。

关于《两个本科生建立了一个AI语音模型,以竞争NotebookLM |TechCrunch》的评论


暂无评论

发表评论

摘要

本科生开发了一种名为DIA的开源AI模型,该模型可以生成类似于Google NotebookLM的播客式音频剪辑。DIA背后的韩国初创公司Nari Labs利用Google的TPU研究云计划进行培训。DIA具有16亿个参数,允许用户自定义语音色调并添加非语言提示。该模型可在拥抱面和github上使用,并且可以在现代PC上使用至少10GB的VRAM运行。虽然DIA在产生高质量的声音和易于使用的语音克隆功能方面表现良好,但由于欺骗性目的,它缺乏防止滥用的保障措施。Nari计划在其合成语音平台中建立社会方面,并将模型的语言支持扩展到英语之外。