英语轻松读发新版了,欢迎下载、更新

研究人员开发了“ Speeksssm”,为24小时AI语音助手开辟了可能性

2025-07-04 13:20:26 英文原文

作者:by The Korea Advanced Institute of Science and Technology (KAIST)

Researcher develops 'SpeechSSM,' opening up possibilities for a 24-hour AI voice assistant
(a)引导化和(b)解码长形语音以使解码长度推断的窗口策略。信用:arxiv(2024)。doi:10.48550/arxiv.2412.18603

最近,口语模型(SLM)被强调为下一代技术,它通过学习人类语音而没有文本来理解和生成语言和非语言信息,从而超过了基于文本的语言模型的局限性。

但是,现有模型在生成播客,有声读物和语音助手所需的长期内容时显示出重大局限性。

博士Yong Man Ro教授的候选人Sejin Park的韩国高级科学技术研究所(KAIST)电气工程学院的候选人成功通过开发“ Speechsssm”来克服这些局限

这项工作已经出版arxiv预印式服务器,并设置为ATICML(机器学习国际会议)2025。

SLM的一个主要优点是他们在不中间文本转换的情况下直接处理语音的能力,利用了人说的人的独特声学特征,即使在大型模型中,也可以快速生成高质量的语音。

但是,由于增加“语音令牌解决方案”和记忆消耗,现有模型在维持语义和说话者的一致性方面面临着困难,当通过将语音分解为细片段而捕获非常详细的信息时。

SpeechSSM采用了一种“混合结构”,该结构交替将“注意层”重点放在最近的信息和“经常性层”上,以记住总体叙事流(长期背景)。这使得故事可以顺利流动而不会失去连贯性,即使很长一段时间来产生语音。

此外,记忆使用和计算负载不会随输入长度而急剧增加,从而实现稳定,有效的学习以及长期语音的产生。

语音SM通过将语音数据分为短的固定单元(Windows),独立处理每个单元,然后组合以创建长语音来有效地处理无界的语音序列。

此外,在语音生成阶段,它使用“非自动回归”音频合成(Soundstorm),它一次迅速生成多个部分,而不是一次慢慢创建一个字符或一个单词,从而实现了快速生成的高质量语音。

尽管现有模型通常评估了大约10秒钟的简短语音模型,但Se Jin Park根据其自我构建的基准数据集“ Librispeech-long”创建了语音生成的新评估任务,能够产生长达16分钟的语音。

与PPL(PPL)相比,仅表示语法正确性的现有语音模型评估度量指标,她提出了新的评估指标,例如“ SC-L(语义一致)”,以评估随着时间的时间评估内容相干性,而NO-MOS-T(自然界均值均值均值均值分数)”来评估自然的时间,以实现自然性,使自然性更加有效和精确评估。

通过这些新的评估,可以证实,语音口语模型产生的语音始终在初始提示中提到的特定个人,尽管长期呈现,但新角色和事件在自然和上下文中始终如一地展现出来。

这与现有模型形成鲜明对比,现有模型往往很容易失去其主题并在长期生成期间展示重复。

Sejin Park解释说:“现有的口头语言模型长期存在局限性,因此我们的目标是开发一种能够为实际人类使用的长期演讲的口语模型。”

她补充说:“通过在长篇小说中保持一致的内容并比现有方法相比,这项研究成就有望极大地为各种类型的语音内容创建和语音AI字段(如语音助手)等效率,更有效,实时响应。”

这项研究与Se Jin Park成为第一作者,是与Google DeepMind合作进行的。

更多信息:Se Jin Park等人,带有口语模型的长篇语音生成,arxiv(2024)。doi:10.48550/arxiv.2412.18603

随附演示:SpeechSSM出版物

期刊信息: arxiv

引用:研究人员开发了“演讲”,为24小时AI语音助手开辟了可能性(2025年7月4日)检索2025年7月4日摘自https://techxplore.com/news/2025-07-speechssm-possibilities-hour-ai-voice.html

该文档具有版权。除了为私人研究或研究目的的任何公平交易外,没有未经书面许可,可以复制部分。内容仅用于信息目的。

关于《研究人员开发了“ Speeksssm”,为24小时AI语音助手开辟了可能性》的评论


暂无评论

发表评论

摘要

博士Kaist的候选人Sejin Park开发了“ SpeechSSM”,这是一种口语模型,可以实现一致,自然的长期语音生成而无需时间限制。Speechsssm采用具有交替注意和经常性层的混合结构,使其能够有效地处理详细的语音信息。该模型将语音划分为短单元进行处理,并使用非自动性音频合成方法进行快速语音生成。引入了评估指标,例如SC-L和N-MOS-T,以评估随着时间的推移的内容连贯性和自然性,与现有模型相比,语音在长期任务中的出色表现。这项研究定于ICML 2025介绍,并与Google DeepMind合作进行。