2024-10-17 14:35:05 · 英文原文

第二部分：多模态能力解锁垂直人工智能的新机遇

作者：Ross Matican

基于新颖的音频、语音和视觉能力诞生的垂直人工智能应用将从根本上改变我们的工作方式。

自从Chat GPT首次出现并吸引了企业家（以及全世界的注意）以来，我们见证了大量使用大型语言模型（LLM）来解决生成式AI最易实现用例的产品和服务的大规模增长：基于文本的任务——涵盖了从创建法律合同和工作描述到撰写电子邮件和网站文案的一切。

对基于文本的AI解决方案的需求仍然很高。AI可以接管诸如创建初稿等耗时的任务，从而使员工能够重新集中精力处理更复杂的职能。但是，我们日常工作的很大一部分需要不仅仅是文本类型和功能的数据及能力，例如与客户交谈以及在复杂图像和图形数据上进行推理。如今，这类用例已经不再被排除在外。

多模态模型的出现带来了机遇 для (注意：这里的“ для ”并不是中文的一部分，它出现在源文本中作为提示的一部分，但没有对应的中文词汇。因此保持原句结构，输出原文) 或者更自然的翻译为：多模态模型的出现带来了机会垂直AI以超出基于文本的任务和工作流程的方式扩展，影响比以前想象的更大的经济份额。在第二部分中，我们报告了支持多种数据类型（包括音频、视频、语音和视觉）的新模型，这些新模型预示着新的和改进的语音和视觉功能的早期应用，以及人工智能代理改变企业运营方式的潜力。

多模态架构的激动人心的发展

在过去12个月里，出现了一些新模型，在理解上下文和减少幻觉方面展示了显著的进步，并且在整体推理能力上也有提升。某些模型在语音识别、图像处理和声音生成方面的表现接近（或在某些情况下超过）人类水平，为人工智能解锁了许多新的应用场景。

语音功能

我们见证了对话语音栈的两个核心组件上的快速进展：语音转文本模型（自动语音识别）和文本转语音模型（生成式语音）。如今，数十家供应商提供了具备这些功能的模型，这导致了大量新的AI应用程序的涌现，特别是在对话语音领域。

这些应用程序大多数依赖所谓的“级联架构”，其中语音首先被转录为文本，然后将该文本输入到大型语言模型（LLM）中以生成响应，最后将输出的文本再输入到生成式语音模型中以产生音频响应。直到最近，这一直是构建对话式语音应用的最佳方式。然而，这种方法有几个缺点——主要问题是它引入了额外的延迟，并且在转录过程中会丢失一些非文字上下文（即最终用户的感情和情绪）。

截至撰写之时，新一代专为语音设计的模型正在发布，包括OpenAI的Realtime API，该API支持通过GPT-4o进行语音到语音的交互，以及一些开源项目如Kyutai的Moshi。多年来，开发能够处理和推理原始音频的模型一直是研究的一个活跃领域，并且广泛认为专为语音设计的模型最终会取代级联架构。

基于语音的模型相比之前的模型具有显著更低的延迟（小于500毫秒）。它们还可以从用户那里捕捉到更多的上下文信息（例如，语气、情感等），并生成相应的响应，使对话感觉更加自然，并提高满足用户需求的可能性。在未来几年里，随着越来越多的应用程序采用这些新的和改进的模型，我们预计会看到对话式语音应用的速度和质量发生显著的变化。

语音用例

已经在基于转录的应用程序方面取得了显著进展，其中语音到文本模型已经相对成熟。因此，在端到端对话式语音代理方面也取得了一些早期的显著进步——我们认为这是语音AI解决方案的“下一个前沿”。让我们来看四个初始用例：

转录释放了用户的时间，以便他们可以推动工作流程中的下一步骤。贝塞默portfolio公司桥牌开发了一款业内领先的医疗转录应用，能够根据临床对话生成医学记录，并识别适当的后续行动，包括开具处方、安排专科预约和参考计费代码。当医生不必手动完成这些任务时，他们可以将时间和注意力重新分配到患者护理上。
另一个很好的例子是瑞拉语音Rillavoice是一家将人工智能引入家庭服务领域的公司。Rillavoice的转录应用程序记录销售员与客户之间的对话，以便进行培训，这样销售经理无需亲自参与耗时较长的“陪同访问”，仍能提供有价值的指导反馈。
接听入站电话以捕获增量收入：我们迄今为止看到的端到端语音代理最具说服力的一个应用场景是进线销售，尤其是当解决方案是专门为特定行业（如家居服务企业或汽车经销商）设计时。语音代理可以通过接听客户在下班后或其他销售人员忙碌时打来的电话来确保企业不会错过任何有价值的潜在客户。一些解决方案甚至能够为客户预约，并与客户的记录系统互动以报价。这些能力结合了对话式语音模型相较于早期语音机器人所取得的显著改进，使得某些AI销售代理能够在无需销售代表进行干预的情况下，以令人印象深刻的速度成功转化进线潜在客户。
用人工智能提升客户成功体验：客户支持长期以来一直是自动化的目标，但许多用户发现早期版本的互动语音应答（IVR）技术使用起来相当令人沮丧。现代语音代理被证明要有效得多。传统IVR产品只能理解顾客在特定措辞下的意图，而现代语音代理无论客户如何提问或提出请求都能给出正确的回答。就像所有这些应用场景一样，自动化电话呼叫让客户服务代表有时间专注于解决复杂的客户问题和回答复杂的问题（而不是常见问题）。
自动化外呼以增加漏斗顶部流量：多个解决方案已经出现，用于自动化销售和招聘团队的外呼工作。通常，语音代理使用客户的声明标准来识别最有潜力的销售线索或候选人，然后对这些潜在客户进行首次通话，并将他们引导到与销售人员或招聘人员的下一次会议中。让人工智能接管外呼流程可以显著增加可以联系的潜在客户数量以及公司的初步筛选池。这样一来，销售人员和招聘人员有更多的时间专注于最有可能成功的潜在客户，从而提高成交的可能性。
监控这一领域中限制骚扰自动电话的监管措施将至关重要，并确保解决方案仅允许向主动选择接收销售推广联系的潜在客户和候选人发起外呼。

在所有语音应用场景中，我们预计低延迟和理解用户的情绪将成为基本要求，而更复杂的解决方案将通过其他维度进行区分，例如实时协调多个底层模型以优化成本和性能；支持全渠道通信、多种语言和实时翻译；以及构建有效的对话防护措施，特别是在高度监管的应用场景中。

视觉能力

在视觉方面，我们见证了像GPT-4V这样的模型的发展，它可以解释图像并回答关于它们的问题，以及像GPT-4o这样可以处理原始图像和视频的多模态模型。预计GPT-5也将能够在更大的上下文窗口中更准确地推理，从图像输入中得出细微见解，并且可能还会添加视频处理功能。谷歌的多模态模型Gemini 1.5 Pro已经能够理解跨图像和视频的输入，并在多达一百万个输入标记的情况下保持上下文理解。

我们预计这些以及类似的模型在性能上将继续提升，并且成本会下降——这对应用开发者来说是个好消息。

视觉和视频的应用场景

垂直应用中视觉技术的初始用例通常分为四大类：数据提取、视觉检测、设计和视频分析。尽管数据提取是迄今为止最成熟的视觉模型应用场景，我们在其他领域也看到了进展，并且刚刚开始探索所有潜在的应用场景中的冰山一角。

从图片、PDF或其它非结构化文档的图像中提取数据：AI可以缓解人类处理繁琐的数据录入任务，并通过为当前无结构的数据提供结构化来开启下游工作流程。例如，RAFT算法或 raft 算法其为货运代理行业打造的平台结合了计算机视觉和大语言模型，从PDF发票中提取关键信息，并将其填充到客户的企业资源规划系统（ERP）中，同时自动化后续任务如账单对账和海关申报文件的准备。
增强目前涉及人工视觉检查的工作：一些公司涌现出来，它们使用人工智能来帮助简化手动视觉检查流程，并提供更快的结果。人工智能构建平台构建（或 xBuild，如果这是一个特定术语或工具名称）生成住宅建设和修复项目的施工范围包，并与保险公司合作以获得报销批准。xBuild 使用受损屋顶的照片和房屋的蓝图来生成报告，概述根据当地建筑规范所需修复的工作范围。其他应用程序已使用人工智能和计算机视觉自动化工序质量保证审查过程中的图纸检查，有助于早期发现错误，从而防止在后续建设过程中产生昂贵的变更。
生成2D和3D设计：在建筑、工程和施工（AEC）行业中，提供人工智能平台的数量显著增加。一些公司正在使用AI来创建可行性评估，这些评估结合了拟建场地的视觉描绘（如建筑物、停车场等）及其相关材料成本，并通过调整前者以适应后者的限制条件，反之亦然。其他解决方案包括Snaptrude创建详细的建筑3D设计，接管结构工程师通常进行的重复性工作，让他们有更多时间专注于更高层次的设计工作（而不是处理诸如将管道放置在正确位置之类的繁琐任务）。自动化详细产品和基础设施设计的某些方面不仅为客户节省宝贵的工程时间，还可以增强销售提案并提高项目中标率。
视频分析：生成和/或理解视频的模型是视觉模型中最不成熟的，但它们正在迅速改进。例如，视频理解模型在对象跟踪、分类以及甚至自然语言搜索视频内容方面已经变得相当强大。已经在这些模型之上构建了一些引人注目的商业应用，比如在制造业或工业环境中监控视频流中的安全违规行为。但由于视频模型成熟的速度非常快，我们预计在未来几年会看到更多令人印象深刻的应用，并且应用场景将扩展到更多的领域，特别是在机器人技术中，视频理解是机器人感知的关键组成部分。

在所有视觉应用场景中，创始人应避免将复杂性误认为是价值。虽然当解决方案能够自动化特别复杂的流程时——例如创建详细的3D设计而不是2D错误检查——其防御性可能最强，但客户的价值几乎总是与自动化如何适应用户现有的工作流直接相关。

如果一个设计自动化解决方案需要与难以替代的核心系统（如Revit）进行繁琐的集成，并且初始投资回报率较低，那么无论该解决方案多么强大，都很难推动销售和采用。早期阶段的公司可能最好从一个技术上不那么复杂、范围更窄的产品开始，然后逐步扩展。当然，最佳路径会因行业和用例而异，但这些权衡是需要考虑的重要因素。

AI代理的前景

尽管早期围绕人工智能代理的炒作未能达到现实水平，但我们最近见证了真正的进展，因为团队找到了更有效地约束AI代理任务的方法，以减少多步推理中的累积错误。鉴于大量研究和资源被投入到侧重于推理的基础模型中（如OpenAI的o1），我们对代理特别乐观。大多数大语言模型仅专注于根据训练数据中的模式预测下一个标记，但像o1这样的模型在解决问题时采用了根本不同的方法。这些模型设计为在推理阶段进行更多的“思考”，使用链式思维推理来更好地规划和评估其方法，然后再得出答案。尽管还处于早期阶段，这些模型已经在更复杂的推理任务上表现出令人印象深刻的表现。

如今，代理在涉及重复性任务和沟通的文本、语音和视觉工作流程中扮演着重要角色（如下面所示）。但在未来一年内，我们预计基于新推理模型构建的应用程序将出现，并实现AI代理真正的潜力：自主处理复杂的工作流程。

销售和市场：许多公司推出了人工智能代理，这些代理能够为销售团队寻找和联系潜在客户。这些代理的前景在于它们能够进行大量研究来识别高质量的潜在客户（通过详细搜索目标公司的信息、其员工情况及相关行业新闻），然后利用这些研究成果撰写相关且高度个性化的邮件。由于代理可以有效地执行研究和接触工作的部分任务，同时保持相对较高的质量，这让销售代表可以把时间重新分配到跟进有潜力的线索上。
谈判：AI代理在跨多方自动谈判方面展现了潜力。公司如契约书我们开发了能够为供应链用例谈判法律和商业条款的AI代理。Pactum的应用程序为客户绘制价值函数，而代理则同时与供应商进行谈判以优化交易条款。我们在销售和促销领域的其他垂直AI公司中也看到了类似的方法。在这里，代理根据诸如批量购买折扣或快速付款计划等既定标准与买家和供应商进行谈判。
调查：企业网络安全团队经常被他们收到的大量安全警报所压倒，但现在有AI代理可以帮助处理警报调查的初始阶段。这包括：从多个不同的系统中收集有关事件的信息、研究可能涉及的恶意行为，并总结事件并评估其严重性。虽然大多数团队倾向于使用代理来处理低风险的工作流程，但很明显，更复杂的代理可以（并且很可能将）随着时间的推移解决越来越多需要信息收集和综合的工作流程。

我们认为，处理需要跨多种模态进行更复杂推理的任务和工作流的代理将比那些不具备这种能力的解决方案更具防御性。特别是，我们发现通过巧妙的架构设计以及将正确的模型、防护措施和反馈循环结合起来，可以在具有代理的工作流中实现更高的性能。代理的表现不仅仅基于解决问题时投入的数据和计算规模（与大型语言模型训练的情况不同），因此这对早期阶段的初创公司来说是一个更有吸引力的机会。在所有情况下，建立技术壁垒并确保灵活性以适应底层模型快速发展将是关键所在。

垂直人工智能拓展其应用领域

垂直AI的创始人已经开始利用新的能力，将这些技术应用于更广泛的实际任务和工作流程中——远超我们大多数人两年前能够想象的范围。正如文本领域的情况一样，语音和视觉领域的基础模型将越来越多地变得商品化，使得公司在强大的基础模型之上构建应用程序变得更加可持续。根据早期迹象，我们认为这一波垂直AI应用不仅会改变它们服务的行业和垂直市场的格局，还会从根本上改变我们的工作方式以及与世界的互动方式。

下一个主题：新型商业模式

大型语言模型（LLM）和生成式人工智能的进步不仅推动了产品创新，还促进了商业模式的创新。它们催生了新的软件商业模式，为以往垂直软件难以触及的行业开辟了机会，并且还促成了新用例，使现有的垂直软件提供商能够继续构建“夹层蛋糕”式的多层次产品和服务组合。在下一篇文章中，我们将深入探讨其中三种新兴的商业模式——副驾、代理和人工智能增强服务，并分析每种模式的角色、潜在应用以及定价策略。

如果你正在开发垂直领域的AI应用，我们非常希望能收到你的来信！请通过以下方式联系我们的团队：VerticalAI@bvp.com.

关于《第二部分：多模态能力解锁垂直人工智能的新机遇》的评论

暂无评论

发表评论

摘要

垂直领域的人工智能应用，基于新颖的音频、语音和视觉能力，将从根本上改变我们的工作方式。在所有语音应用场景中，我们预计低延迟以及理解用户的情绪和情感将成为基本要求，并且更复杂的技术解决方案将在其他维度上进行差异化竞争，例如实时协调多个底层模型来优化成本和性能；支持全渠道通信、多语言及实时翻译；构建有效的对话防护机制，在监管严格的使用场景中尤其如此。AI代理的前景尽管早期关于AI代理的高度期待未能达到现实水平，但最近我们见证了实际进展，因为团队找到了更有效的方法来限制AI代理的任务范围以减少多层次推理中的累积错误。这些代理有希望的地方在于它们能够进行大量研究以识别高质量的目标（通过详细搜索目标公司的信息、员工情况以及相关行业新闻），然后利用这些研究成果撰写出有针对性且高度个性化的邮件。代理的表现不仅仅取决于投入到问题上的数据和计算规模（与LLM训练不同），因此这对初创企业来说是一个更具吸引力的机会。

OC