作者:Ross Matican
自从Chat GPT首次出现并吸引了企业家(以及全世界的注意)以来,我们见证了大量使用大型语言模型(LLM)来解决生成式AI最易实现用例的产品和服务的大规模增长:基于文本的任务——涵盖了从创建法律合同和工作描述到撰写电子邮件和网站文案的一切。
对基于文本的AI解决方案的需求仍然很高。AI可以接管诸如创建初稿等耗时的任务,从而使员工能够重新集中精力处理更复杂的职能。但是,我们日常工作的很大一部分需要不仅仅是文本类型和功能的数据及能力,例如与客户交谈以及在复杂图像和图形数据上进行推理。如今,这类用例已经不再被排除在外。
多模态模型的出现带来了机遇 для (注意:这里的“ для ”并不是中文的一部分,它出现在源文本中作为提示的一部分,但没有对应的中文词汇。因此保持原句结构,输出原文) 或者更自然的翻译为: 多模态模型的出现带来了机会垂直AI以超出基于文本的任务和工作流程的方式扩展,影响比以前想象的更大的经济份额。在第二部分中,我们报告了支持多种数据类型(包括音频、视频、语音和视觉)的新模型,这些新模型预示着新的和改进的语音和视觉功能的早期应用,以及人工智能代理改变企业运营方式的潜力。
在过去12个月里,出现了一些新模型,在理解上下文和减少幻觉方面展示了显著的进步,并且在整体推理能力上也有提升。某些模型在语音识别、图像处理和声音生成方面的表现接近(或在某些情况下超过)人类水平,为人工智能解锁了许多新的应用场景。
我们见证了对话语音栈的两个核心组件上的快速进展:语音转文本模型(自动语音识别)和文本转语音模型(生成式语音)。如今,数十家供应商提供了具备这些功能的模型,这导致了大量新的AI应用程序的涌现,特别是在对话语音领域。
这些应用程序大多数依赖所谓的“级联架构”,其中语音首先被转录为文本,然后将该文本输入到大型语言模型(LLM)中以生成响应,最后将输出的文本再输入到生成式语音模型中以产生音频响应。直到最近,这一直是构建对话式语音应用的最佳方式。然而,这种方法有几个缺点——主要问题是它引入了额外的延迟,并且在转录过程中会丢失一些非文字上下文(即最终用户的感情和情绪)。
截至撰写之时,新一代专为语音设计的模型正在发布,包括OpenAI的Realtime API,该API支持通过GPT-4o进行语音到语音的交互,以及一些开源项目如Kyutai的Moshi。多年来,开发能够处理和推理原始音频的模型一直是研究的一个活跃领域,并且广泛认为专为语音设计的模型最终会取代级联架构。
基于语音的模型相比之前的模型具有显著更低的延迟(小于500毫秒)。它们还可以从用户那里捕捉到更多的上下文信息(例如,语气、情感等),并生成相应的响应,使对话感觉更加自然,并提高满足用户需求的可能性。在未来几年里,随着越来越多的应用程序采用这些新的和改进的模型,我们预计会看到对话式语音应用的速度和质量发生显著的变化。
已经在基于转录的应用程序方面取得了显著进展,其中语音到文本模型已经相对成熟。因此,在端到端对话式语音代理方面也取得了一些早期的显著进步——我们认为这是语音AI解决方案的“下一个前沿”。让我们来看四个初始用例:
另一个很好的例子是瑞拉语音Rillavoice是一家将人工智能引入家庭服务领域的公司。Rillavoice的转录应用程序记录销售员与客户之间的对话,以便进行培训,这样销售经理无需亲自参与耗时较长的“陪同访问”,仍能提供有价值的指导反馈。
监控这一领域中限制骚扰自动电话的监管措施将至关重要,并确保解决方案仅允许向主动选择接收销售推广联系的潜在客户和候选人发起外呼。
在所有语音应用场景中,我们预计低延迟和理解用户的情绪将成为基本要求,而更复杂的解决方案将通过其他维度进行区分,例如实时协调多个底层模型以优化成本和性能;支持全渠道通信、多种语言和实时翻译;以及构建有效的对话防护措施,特别是在高度监管的应用场景中。
在视觉方面,我们见证了像GPT-4V这样的模型的发展,它可以解释图像并回答关于它们的问题,以及像GPT-4o这样可以处理原始图像和视频的多模态模型。预计GPT-5也将能够在更大的上下文窗口中更准确地推理,从图像输入中得出细微见解,并且可能还会添加视频处理功能。谷歌的多模态模型Gemini 1.5 Pro已经能够理解跨图像和视频的输入,并在多达一百万个输入标记的情况下保持上下文理解。
我们预计这些以及类似的模型在性能上将继续提升,并且成本会下降——这对应用开发者来说是个好消息。
垂直应用中视觉技术的初始用例通常分为四大类:数据提取、视觉检测、设计和视频分析。尽管数据提取是迄今为止最成熟的视觉模型应用场景,我们在其他领域也看到了进展,并且刚刚开始探索所有潜在的应用场景中的冰山一角。
在所有视觉应用场景中,创始人应避免将复杂性误认为是价值。虽然当解决方案能够自动化特别复杂的流程时——例如创建详细的3D设计而不是2D错误检查——其防御性可能最强,但客户的价值几乎总是与自动化如何适应用户现有的工作流直接相关。
如果一个设计自动化解决方案需要与难以替代的核心系统(如Revit)进行繁琐的集成,并且初始投资回报率较低,那么无论该解决方案多么强大,都很难推动销售和采用。早期阶段的公司可能最好从一个技术上不那么复杂、范围更窄的产品开始,然后逐步扩展。当然,最佳路径会因行业和用例而异,但这些权衡是需要考虑的重要因素。
尽管早期围绕人工智能代理的炒作未能达到现实水平,但我们最近见证了真正的进展,因为团队找到了更有效地约束AI代理任务的方法,以减少多步推理中的累积错误。鉴于大量研究和资源被投入到侧重于推理的基础模型中(如OpenAI的o1),我们对代理特别乐观。大多数大语言模型仅专注于根据训练数据中的模式预测下一个标记,但像o1这样的模型在解决问题时采用了根本不同的方法。这些模型设计为在推理阶段进行更多的“思考”,使用链式思维推理来更好地规划和评估其方法,然后再得出答案。尽管还处于早期阶段,这些模型已经在更复杂的推理任务上表现出令人印象深刻的表现。
如今,代理在涉及重复性任务和沟通的文本、语音和视觉工作流程中扮演着重要角色(如下面所示)。但在未来一年内,我们预计基于新推理模型构建的应用程序将出现,并实现AI代理真正的潜力:自主处理复杂的工作流程。
我们认为,处理需要跨多种模态进行更复杂推理的任务和工作流的代理将比那些不具备这种能力的解决方案更具防御性。特别是,我们发现通过巧妙的架构设计以及将正确的模型、防护措施和反馈循环结合起来,可以在具有代理的工作流中实现更高的性能。代理的表现不仅仅基于解决问题时投入的数据和计算规模(与大型语言模型训练的情况不同),因此这对早期阶段的初创公司来说是一个更有吸引力的机会。在所有情况下,建立技术壁垒并确保灵活性以适应底层模型快速发展将是关键所在。
垂直AI的创始人已经开始利用新的能力,将这些技术应用于更广泛的实际任务和工作流程中——远超我们大多数人两年前能够想象的范围。正如文本领域的情况一样,语音和视觉领域的基础模型将越来越多地变得商品化,使得公司在强大的基础模型之上构建应用程序变得更加可持续。根据早期迹象,我们认为这一波垂直AI应用不仅会改变它们服务的行业和垂直市场的格局,还会从根本上改变我们的工作方式以及与世界的互动方式。
大型语言模型(LLM)和生成式人工智能的进步不仅推动了产品创新,还促进了商业模式的创新。它们催生了新的软件商业模式,为以往垂直软件难以触及的行业开辟了机会,并且还促成了新用例,使现有的垂直软件提供商能够继续构建“夹层蛋糕”式的多层次产品和服务组合。在下一篇文章中,我们将深入探讨其中三种新兴的商业模式——副驾、代理和人工智能增强服务,并分析每种模式的角色、潜在应用以及定价策略。
如果你正在开发垂直领域的AI应用,我们非常希望能收到你的来信!请通过以下方式联系我们的团队:VerticalAI@bvp.com.