作者:Kyle Wiggers
一对没有广泛AI专业知识的本科生说,他们创建了一个公开可用的AI模型,可以生成播客风格的剪辑Google的笔记本电脑。
合成语音工具的市场庞大而不断增长。Elevenlabs是最大的球员之一,但不乏挑战者(请参阅Playai,,,,芝麻, 等等)。投资者认为,这些工具具有巨大的潜力。根据音调,开发Voice AI Tech的初创公司去年筹集了超过3.98亿美元的风险投资。
托比·金(Toby Kim),韩国的联合创始人之一纳里实验室新发布的模型背后的小组说,他和他的联合创始人三个月前开始学习演讲AI。受Notebooklm的启发,他们想创建一个模型,该模型对生成的声音和脚本中的自由提供了更多控制。
金说,他们使用了Google的TPU研究云计划,该计划可为研究人员免费访问该公司的TPU AI芯片,以培训Nari的模型DIA。DIA的重量为16亿个参数,可以从脚本中产生对话,使用户可以自定义扬声器和插入散布,咳嗽,笑声和其他非语言提示。
参数是用于进行预测的内部变量模型。通常,具有更多参数的模型表现更好。
可从AI开发平台获得拥抱脸和github,DIA可以在大多数现代PC上使用至少10GB的VRAM运行。除非提示使用预期样式的描述,否则它会产生随机的声音,但也可以克隆一个人的声音。
在TechCrunch的DIA通过Nari的简要测试中网络演示,DIA效果很好,对任何主题的双向聊天都毫不及时地产生。声音的质量似乎与其他工具竞争,语音克隆功能是该记者尝试过的最简单的。
这里是一个样本:
像许多语音生成器一样但是,DIA几乎没有提供保障措施。在制作虚假信息或骗子录音方面,这在很容易中很容易。在DIA的项目页面上,Nari不鼓励滥用该模型,以假冒,欺骗或以其他方式进行非法运动,但该组织表示对滥用的负责不负责。
Nari还没有透露其刮擦DIA的数据。使用受版权保护的内容开发了DIA-评论者在《黑客新闻》上指出,一个样本听起来像是NPR'S“星球Money”播客的主持人。关于版权内容的培训模型是一种广泛但法律上可疑的实践。一些AI公司声称,公平使用使他们免受责任,而权利持有人则断言,公平用途不适用于培训。
无论如何,金说,纳里的计划是创建一个合成语音平台,在DIA和更大的未来模型之上,具有社会方面。Nari还打算发布DIA的技术报告,并将模型的支持扩展到英语以外的语言。
Kyle Wiggers是TechCrunch的AI编辑。他的写作出现在VentureBeat和数字趋势中,以及一系列小工具博客,包括Android警察,Android Authority,Droid-Life和XDA-Developers。他与他的伴侣,音乐治疗师一起住在曼哈顿。