作者:Asif Razzaq
对话式人工智能现已成为技术的基石,但实现快速、高效、实时的交互仍然具有挑战性。延迟(输入和响应之间的延迟)限制了客户服务机器人和虚拟助理等应用程序,使交互感觉缓慢。现有模型通常需要强大的计算能力,这使得小型设置和独立开发人员无法实现实时人工智能。仍然需要一个易于访问、强大且高效的解决方案。
标准智能实验室最近发布了 Hertz-Dev 来解决这一差距:一个用于实时对话 AI 的开源 85 亿参数音频模型。Hertz-Dev 旨在以令人印象深刻的性能指标彻底改变实时应用程序,在单个 NVIDIA RTX 4090 GPU 上实现 80 毫秒的理论延迟和 120 毫秒的实际延迟。通过让先进的 AI 变得更容易使用,Hertz-Dev 为无需大量基础设施的开发人员和研究人员带来了高性能音频建模,从而实现了对话式 AI 领域的民主化。
Hertz-Dev 在速度和响应能力方面脱颖而出,拥有 85 亿个参数,针对最小延迟进行了优化。理论上实现 80 毫秒的延迟,在实际使用中实现 120 毫秒的延迟,可确保流畅的对话体验,并且回复感觉立即而不是延迟。它在 RTX 4090 上高效运行,利用最新的 GPU 进步,无需多 GPU 设置。这种效率使得 Hertz-Dev 对于希望在保持高性能的同时优化成本的独立开发商、初创公司和大型机构来说是可行的。核心架构采用了新颖的优化技术,减少了计算开销,同时保持了输出质量。
Hertz-Dev 的重要性不仅在于其技术能力,还在于其推动实时对话人工智能更广泛采用的潜力。实时音频处理的应用范围从客户支持自动化到交互式人工智能伴侣和残疾人辅助工具。通过将延迟保持在 120 毫秒以内(几乎与人类感知无法区分),Hertz-Dev 能够实现有机的交互,使人工智能成为人类交流的自然延伸。早期测试显示,不同用例的性能保持一致,基准测试表明,与之前的开源模型相比,响应时间缩短了 40%。这种多功能性使 Hertz-Dev 适用于广泛的应用,包括客户服务自动化和智能家居通信。
标准智能实验室发布的 Hertz-Dev 改变了实时对话人工智能的游戏规则。通过提供将经济性与尖端性能相结合的开源高参数模型,Hertz-Dev 实现了先进人工智能技术的普及。它将延迟降低到人机交互与人与人交互几乎无法区分的水平。随着越来越多的开发人员和研究人员采用 Hertz-Dev,我们可以期待新一波对话式 AI 应用程序的出现,这些应用程序响应更快、更易于访问并且无缝集成到日常生活中,从而突破了人类与 AI 交互的可能性界限。
查看 GitHub 页面和细节。这项研究的所有功劳都归功于该项目的研究人员。另外,不要忘记关注我们 叽叽喳喳并加入我们的 电报频道和 领英 集团奥普。如果您喜欢我们的工作,您就会喜欢我们的新闻通讯..不要忘记加入我们的 55k+ ML SubReddit。