两个本科生建立了一个AI语音模型，以竞争NotebookLM |TechCrunch

作者：Kyle Wiggers

一对没有广泛AI专业知识的本科生说，他们创建了一个公开可用的AI模型，可以生成播客风格的剪辑Google的笔记本电脑。

合成语音工具的市场庞大而不断增长。Elevenlabs是最大的球员之一，但不乏挑战者（请参阅Playai，，，，芝麻，等等）。投资者认为，这些工具具有巨大的潜力。根据音调，开发Voice AI Tech的初创公司去年筹集了超过3.98亿美元的风险投资。

托比·金（Toby Kim），韩国的联合创始人之一纳里实验室新发布的模型背后的小组说，他和他的联合创始人三个月前开始学习演讲AI。受Notebooklm的启发，他们想创建一个模型，该模型对生成的声音和脚本中的自由提供了更多控制。

金说，他们使用了Google的TPU研究云计划，该计划可为研究人员免费访问该公司的TPU AI芯片，以培训Nari的模型DIA。DIA的重量为16亿个参数，可以从脚本中产生对话，使用户可以自定义扬声器和插入散布，咳嗽，笑声和其他非语言提示。

参数是用于进行预测的内部变量模型。通常，具有更多参数的模型表现更好。

可从AI开发平台获得拥抱脸和github，DIA可以在大多数现代PC上使用至少10GB的VRAM运行。除非提示使用预期样式的描述，否则它会产生随机的声音，但也可以克隆一个人的声音。

在TechCrunch的DIA通过Nari的简要测试中网络演示，DIA效果很好，对任何主题的双向聊天都毫不及时地产生。声音的质量似乎与其他工具竞争，语音克隆功能是该记者尝试过的最简单的。

这里是一个样本：

像许多语音生成器一样但是，DIA几乎没有提供保障措施。在制作虚假信息或骗子录音方面，这在很容易中很容易。在DIA的项目页面上，Nari不鼓励滥用该模型，以假冒，欺骗或以其他方式进行非法运动，但该组织表示对滥用的负责不负责。

Nari还没有透露其刮擦DIA的数据。使用受版权保护的内容开发了DIA-评论者在《黑客新闻》上指出，一个样本听起来像是NPR'S“星球Money”播客的主持人。关于版权内容的培训模型是一种广泛但法律上可疑的实践。一些AI公司声称，公平使用使他们免受责任，而权利持有人则断言，公平用途不适用于培训。

无论如何，金说，纳里的计划是创建一个合成语音平台，在DIA和更大的未来模型之上，具有社会方面。Nari还打算发布DIA的技术报告，并将模型的支持扩展到英语以外的语言。

Kyle Wiggers是TechCrunch的AI编辑。他的写作出现在VentureBeat和数字趋势中，以及一系列小工具博客，包括Android警察，Android Authority，Droid-Life和XDA-Developers。他与他的伴侣，音乐治疗师一起住在曼哈顿。

OC