语音AI正在改变我们与技术的互动方式,使对话互动比以往任何时候都更自然和直观。同时,AI代理人变得越来越复杂,能够理解复杂的查询并代表我们采取自主行动。随着这些趋势的融合,您会看到智能AI语音代理的出现,这些代理可以在执行各种任务的同时进行类似人类的对话。
在这一系列帖子中,您将学习如何使用管道,一个语音和多模式对话AI代理的开源框架,其基础模型亚马逊基岩。它包括高级参考体系结构,最佳实践和代码样本指导您的实施。
建立对话型AI代理有两种常见的方法:
AI语音代理可以处理多种用例,包括但不限于:
要使用级联模型方法构建代理语音AI应用程序,您需要精心策划涉及多个机器学习和基础模型的多个体系结构。
图1:使用PipeCat的语音AI代理的体系结构概述
这些组件包括:
Webrtc运输:启用客户端设备和应用程序服务器之间的实时音频流。
语音活动检测(VAD):检测使用语音Silero VAD具有可配置的语音启动和语音结束时间,以及抑制噪声功能,以消除背景噪声并增强音频质量。
自动语音识别(ASR):用途亚马逊转录进行准确的实时语音转换。
自然语言理解(NLU):使用用户意图使用延迟优化的推理在基岩上,带有诸如亚马逊诺瓦专业人士可选的启用提示缓存在检索增强发电(RAG)用例中优化速度和成本效率。
工具执行和API集成:通过管道流量集成后端服务和数据源来执行操作或检索抹布的信息,并利用工具使用基础模型的功能。
自然语言产生(NLG):使用亚马逊诺瓦专业人士在基岩上,提供质量和延迟的正确平衡。
文本到语音(TTS):将文本响应转换回使用栩栩如生的语音亚马逊波莉和生成的声音。
管弦乐框架:PipeCat协调这些组件,为实时,多模式AI代理应用提供了基于模块化的python框架。
开发响应式AI语音代理需要专注于延迟和效率。尽管最佳实践继续出现,但请考虑以下实施策略来实现自然,类似人类的互动:
最小化对话延迟:使用延迟优化的推理对于基础模型(FMS)亚马逊诺瓦专业人士保持自然对话流程。
选择有效的基础模型:优先考虑较小,更快的基础模型(FMS),可以在保持质量的同时提供快速响应。
实施及时缓存:利用提示缓存为了优化速度和成本效率,尤其是在需要知识检索的复杂情况下。
部署文本对语音(TTS)填充物:在密集操作之前,请使用天然填充短语(例如,让我对您进行查找),以维持用户参与度,同时系统进行工具呼叫或对基础模型的长期呼叫。
构建强大的音频输入管道:整合诸如噪声之类的组件以支持清晰的音频质量,以获得更好的语音识别结果。
启动简单而迭代:从基本的对话流开始,然后再进入可以处理多种用例的复杂代理系统。
区域可用性:低延迟和提示缓存功能只能在某些地区可用。评估这些高级功能之间的权衡,并选择一个在地理上更接近最终用户的区域。
这篇文章提供了github上的样本申请这证明了讨论的概念。它使用管道以及其随附的国家管理框架,管道流与Amazon Bedrock一起,以及Web实时通信(WEBRTC)功能日常的要创建一个工作的语音代理,您可以在几分钟内尝试。
要设置示例应用程序,您应该有以下先决条件:
git克隆https://github.com/aws-samples/build-intelligent-ineligent-iai-voice-agents-with-pipecat-and-amazon-becent
设置环境:
Python3 -M Venv Venv来源VENV/bin/Activate#Windows:VENV \ Scripts \激活pip install -r要求.txt
.env
:daily_api_key = your_daily_api_keyaws_access_key_id = your_aws_access_key_idaws_secret_access_key = your_aws_secret_access_keyaws_region = your_aws_region
Python Server.py
http:// localhost:7860
并授予麦克风访问要自定义,您可以从:
flow.py
改变对话逻辑bot.py
满足您的延迟和质量需求要了解更多,请参阅文档用于管道流并审查读书我我们在GitHub上的代码样本的内容。
上面的说明是为了在本地环境中设置应用程序。本地应用程序将通过AWS IAM和API证书每天利用AWS服务。为了安全性并避免意外成本,当您完成后,请删除这些凭据,以确保无法再访问它们。
为了加速AI语音代理实现,AWS生成AI创新中心(GAIIC)与客户合作,以识别高价值用例,并开发概念验证(POC)解决方案,这些解决方案可以迅速进入生产。
这是一个改变消费债务行业的全球金融科技,与AWS合作开发了他们的声音AI原型。我们认为,由AI驱动的语音代理代表了增强金融服务客户参与中人类触动的关键机会。
通过将支持AI的语音技术集成到我们的运营中,我们的目标是为客户提供适应其需求的支持速度,更直观的访问,并提高其体验质量和联络中心运营的表现。
说迈克周,负债累累的首席数据官。
通过与AWS合作并利用Amazon Bedrock,像债务这样的组织可以创造安全,适应性的语音AI体验,以符合监管标准,同时在最具挑战性的财务对话中产生真正的,以人为中心的影响。
通过开源框架(例如管道和强大的基础模型,延迟优化推理和提示缓存在亚马逊基岩上。
在这篇文章中,您了解了有关如何构建AI语音代理的两种常见方法,并深入研究了级联模型方法及其关键组件。这些基本组件共同创建一个智能系统,可以自然理解,处理和对人的言论做出反应。通过利用生成AI的这些快速进步,您可以创建复杂的,响应迅速的语音代理,从而为您的用户和客户带来真正的价值。
要开始您自己的语音AI项目,请尝试我们的GitHub上的代码样本或联系您的AWS帐户团队以探索与AWS生成AI创新中心(GAIIC)。
您还可以使用统一的语音到语音基础模型来了解构建AI语音代理,亚马逊诺瓦·索尼克(Amazon Nova Sonic)在第2部分中。
Adithya Suresh他是AWS生成AI创新中心的深度学习建筑师,在那里他与技术和业务团队合作,建立创新的生成AI解决方案,以应对现实世界中的挑战。
丹尼尔·沃尔乔(Daniel Wirjo)是AWS的解决方案建筑师,专注于金融科技和SaaS创业公司。作为前创业首席技术官,他喜欢与创始人和工程领导者合作,以推动AWS的增长和创新。在工作之外,丹尼尔(Daniel)喜欢手持咖啡,欣赏大自然和学习新想法。
卡兰·辛格(Karan Singh)是AWS的生产AI专家,他与顶级第三方基金会模型和代理框架提供商合作,以制定和执行联合上市策略,使客户能够有效地部署和扩展解决方案,以解决企业生成的AI挑战。
Xuefeng Liu在亚太地区的AWS生成AI创新中心领导科学团队。他的团队与AWS客户合作开展了生成AI项目,其目的是加速客户对生成AI的采用。