研究人员开发了“ Speeksssm”,为24小时AI语音助手开辟了可能性
2025-07-04 13:20:26
博士Kaist的候选人Sejin Park开发了“ SpeechSSM”,这是一种口语模型,可以实现一致,自然的长期语音生成而无需时间限制。Speechsssm采用具有交替注意和经常性层的混合结构,使其能够有效地处理详细的语音信息。该模型将语音划分为短单元进行处理,并使用非自动性音频合成方法进行快速语音生成。引入了评估指标,例如SC-L和N-MOS-T,以评估随着时间的推移的内容连贯性和自然性,与现有模型相比,语音在长期任务中的出色表现。这项研究定于ICML 2025介绍,并与Google DeepMind合作进行。