用管道和亚马逊基岩建造智能的AI语音代理 - 第1部分|亚马逊网络服务

2025-06-09 15:50:24 英文原文

语音AI正在改变我们与技术的互动方式，使对话互动比以往任何时候都更自然和直观。同时，AI代理人变得越来越复杂，能够理解复杂的查询并代表我们采取自主行动。随着这些趋势的融合，您会看到智能AI语音代理的出现，这些代理可以在执行各种任务的同时进行类似人类的对话。

在这一系列帖子中，您将学习如何使用管道，一个语音和多模式对话AI代理的开源框架，其基础模型亚马逊基岩。它包括高级参考体系结构，最佳实践和代码样本指导您的实施。

建立AI语音代理的方法

建立对话型AI代理有两种常见的方法：

使用级联模型：在这篇文章（第1部分）中，您将了解级联模型方法，深入研究会话AI代理的各个组件。通过这种方法，语音输入通过一系列体系结构组件，然后将语音响应发送回用户。此方法有时也称为管道或组件模型语音体系结构。
在单个体系结构中使用语音到语音基础模型：在第2部分中，您将学习如何亚马逊诺瓦·索尼克（Amazon Nova Sonic），最先进的统一语音到语音基础模型可以通过将语音理解和产生结合到单个体系结构中，从而实现实时，类似人类的语音对话。

常见用例

AI语音代理可以处理多种用例，包括但不限于：

客户支持：AI语音代理可以在24/7全天候处理客户查询，并在必要时向人类代理提供复杂的问题。
出站电话：AI特工可以进行个性化的外展活动，安排约会或跟进自然对话的线索。
虚拟助手：语音AI可以为个人助理提供动力，以帮助用户管理任务，回答问题。

架构：使用级联模型来构建AI语音代理

要使用级联模型方法构建代理语音AI应用程序，您需要精心策划涉及多个机器学习和基础模型的多个体系结构。

Reference Architecture - Pipecat

图1：使用PipeCat的语音AI代理的体系结构概述

这些组件包括：

Webrtc运输：启用客户端设备和应用程序服务器之间的实时音频流。

语音活动检测（VAD）：检测使用语音Silero VAD具有可配置的语音启动和语音结束时间，以及抑制噪声功能，以消除背景噪声并增强音频质量。

自动语音识别（ASR）：用途亚马逊转录进行准确的实时语音转换。

自然语言理解（NLU）：使用用户意图使用延迟优化的推理在基岩上，带有诸如亚马逊诺瓦专业人士可选的启用提示缓存在检索增强发电（RAG）用例中优化速度和成本效率。

工具执行和API集成：通过管道流量集成后端服务和数据源来执行操作或检索抹布的信息，并利用工具使用基础模型的功能。

自然语言产生（NLG）：使用亚马逊诺瓦专业人士在基岩上，提供质量和延迟的正确平衡。

文本到语音（TTS）：将文本响应转换回使用栩栩如生的语音亚马逊波莉和生成的声音。

管弦乐框架：PipeCat协调这些组件，为实时，多模式AI代理应用提供了基于模块化的python框架。

建立有效AI语音代理的最佳实践

开发响应式AI语音代理需要专注于延迟和效率。尽管最佳实践继续出现，但请考虑以下实施策略来实现自然，类似人类的互动：

最小化对话延迟：使用延迟优化的推理对于基础模型（FMS）亚马逊诺瓦专业人士保持自然对话流程。

选择有效的基础模型：优先考虑较小，更快的基础模型（FMS），可以在保持质量的同时提供快速响应。

实施及时缓存：利用提示缓存为了优化速度和成本效率，尤其是在需要知识检索的复杂情况下。

部署文本对语音（TTS）填充物：在密集操作之前，请使用天然填充短语（例如，让我对您进行查找），以维持用户参与度，同时系统进行工具呼叫或对基础模型的长期呼叫。

构建强大的音频输入管道：整合诸如噪声之类的组件以支持清晰的音频质量，以获得更好的语音识别结果。

启动简单而迭代：从基本的对话流开始，然后再进入可以处理多种用例的复杂代理系统。

区域可用性：低延迟和提示缓存功能只能在某些地区可用。评估这些高级功能之间的权衡，并选择一个在地理上更接近最终用户的区域。

示例实现：在几分钟内构建自己的AI语音代理

这篇文章提供了github上的样本申请这证明了讨论的概念。它使用管道以及其随附的国家管理框架，管道流与Amazon Bedrock一起，以及Web实时通信（WEBRTC）功能日常的要创建一个工作的语音代理，您可以在几分钟内尝试。

先决条件

要设置示例应用程序，您应该有以下先决条件：

Python 3.10+
一个具有适当身份和访问管理（IAM）权限的AWS帐户，可用于亚马逊基岩，亚马逊转录和亚马逊Polly使用权
到亚马逊基岩上的基础模型使用权每天的API键
现代Web浏览器（例如Google Chrome或Mozilla Firefox），并提供WEBRTC支持实施步骤
完成先决条件后，您可以开始设置示例语音代理：

克隆存储库：

git克隆https://github.com/aws-samples/build-intelligent-ineligent-iai-voice-agents-with-pipecat-and-amazon-becent

cd build-intelligent-ai-voice-agents与pipecat and-amazon-begrock/part-1
```
设置环境：
```

CD服务器

Python3 -M Venv Venv来源VENV/bin/Activate＃Windows：VENV \ Scripts \激活pip install -r要求.txt

配置API键.env：

daily_api_key = your_daily_api_keyaws_access_key_id = your_aws_access_key_idaws_secret_access_key = your_aws_secret_access_keyaws_region = your_aws_region

启动服务器：
```
Python Server.py
```
通过浏览器在http：// localhost：7860并授予麦克风访问
与您的AI语音代理开始对话

自定义您的声音AI代理

要自定义，您可以从：

修改flow.py改变对话逻辑
调整模型选择bot.py满足您的延迟和质量需求

要了解更多，请参阅文档用于管道流并审查读书我我们在GitHub上的代码样本的内容。

清理

上面的说明是为了在本地环境中设置应用程序。本地应用程序将通过AWS IAM和API证书每天利用AWS服务。为了安全性并避免意外成本，当您完成后，请删除这些凭据，以确保无法再访问它们。

加速语音AI实现

为了加速AI语音代理实现，AWS生成AI创新中心（GAIIC）与客户合作，以识别高价值用例，并开发概念验证（POC）解决方案，这些解决方案可以迅速进入生产。

客户推荐：债务负债

这是一个改变消费债务行业的全球金融科技，与AWS合作开发了他们的声音AI原型。我们认为，由AI驱动的语音代理代表了增强金融服务客户参与中人类触动的关键机会。

通过将支持AI的语音技术集成到我们的运营中，我们的目标是为客户提供适应其需求的支持速度，更直观的访问，并提高其体验质量和联络中心运营的表现。

说迈克周，负债累累的首席数据官。

通过与AWS合作并利用Amazon Bedrock，像债务这样的组织可以创造安全，适应性的语音AI体验，以符合监管标准，同时在最具挑战性的财务对话中产生真正的，以人为中心的影响。

结论

通过开源框架（例如管道和强大的基础模型，延迟优化推理和提示缓存在亚马逊基岩上。

在这篇文章中，您了解了有关如何构建AI语音代理的两种常见方法，并深入研究了级联模型方法及其关键组件。这些基本组件共同创建一个智能系统，可以自然理解，处理和对人的言论做出反应。通过利用生成AI的这些快速进步，您可以创建复杂的，响应迅速的语音代理，从而为您的用户和客户带来真正的价值。

要开始您自己的语音AI项目，请尝试我们的GitHub上的代码样本或联系您的AWS帐户团队以探索与AWS生成AI创新中心（GAIIC）。

您还可以使用统一的语音到语音基础模型来了解构建AI语音代理，亚马逊诺瓦·索尼克（Amazon Nova Sonic）在第2部分中。

关于作者

Adithya Suresh他是AWS生成AI创新中心的深度学习建筑师，在那里他与技术和业务团队合作，建立创新的生成AI解决方案，以应对现实世界中的挑战。

丹尼尔·沃尔乔（Daniel Wirjo）是AWS的解决方案建筑师，专注于金融科技和SaaS创业公司。作为前创业首席技术官，他喜欢与创始人和工程领导者合作，以推动AWS的增长和创新。在工作之外，丹尼尔（Daniel）喜欢手持咖啡，欣赏大自然和学习新想法。

卡兰·辛格（Karan Singh）是AWS的生产AI专家，他与顶级第三方基金会模型和代理框架提供商合作，以制定和执行联合上市策略，使客户能够有效地部署和扩展解决方案，以解决企业生成的AI挑战。

Xuefeng Liu在亚太地区的AWS生成AI创新中心领导科学团队。他的团队与AWS客户合作开展了生成AI项目，其目的是加速客户对生成AI的采用。

关于《用管道和亚马逊基岩建造智能的AI语音代理 - 第1部分|亚马逊网络服务》的评论

暂无评论

发表评论

摘要

语音AI通过变得更加自然和直观来改变技术的交互。该系列使用PipeCat和Amazon Bedrock探索智能语音代理，涵盖了级联模型和统一语音到语音基础模型等方法。它包括用例，例如客户支持，出站通话和虚拟助手，以及详细的体系结构和实施策略。该帖子还提供了一个GitHub示例应用程序，可以快速构建AI语音代理，并参考进一步的自定义和学习。