英语轻松读发新版了,欢迎下载、更新

声音AI正在工作。这是首先获胜的地方

2025-05-22 14:07:06 英文原文


注意:我们在旧金山办公室举办了一项活动,为有兴趣建立声音革命的最雄心勃勃的创始人,科学家和投资者举办了活动。如果那是你注册在这里加入

每当我们想象科幻小说中的计算机时,它都会发出声音。贾维斯。C-3P0。萨曼莎(Samantha)。不管是类人的,我们对未来派的机器的想法都是对我们说话的。

声音是人类自然交流的方式。这就是我们更喜欢分享(和夸张)的方式。换句话说,声音一直被准备成为我们与计算机互动的主要方式。2024年底标志着建立引人注目的声音体验所需的基础设施的基本转变,最终成为初创企业。

经过多年的零散,昂贵的语音技术,我们现在拥有现成的解决方案。这使创业公司能够使用语音作为一种方式来解决新的客户挑战。

那么,哪些应用程序将引入新的语音优先范式?这是我们看到的。

为什么要声音?为什么现在?

现在,市场和技术都准备好语音AI。

自穴居人时代以来,市场就已经准备好了。自从我们首次开始在非正式演讲中分享信息以来。

但是,要解锁语音作为可用的界面,我们需要的系统不仅可以理解单词,还需要人类嵌入对话,意图,语气,背景的全部定性信号。

现任者花了数十年的时间为这个基础奠定了基础。他们将数十亿美元投入到文本到语音和语音识别中,将田地推进到机器可以识别口语并做出反应的程度,即使只是以僵硬的罐头方式。

Voice AI is Working NFXVoice AI is Working NFX

那个基础研发设定了舞台。但是,发生了什么变化,使2024年末的转折点是三个突破的融合:

1。型号质量和延迟(现在可以访问)

对话体验已经跨越了关键的门槛。低于300ms的往返时间和可中断的语音使对话变得真正的人类。现在2-3秒内的任何事情都感觉太慢了。我们希望声音会发出声音,并感到人性化。

现在,初创企业可以通过云API访问这些功能,而不是从头开始构建它们。

2。LLM集成(插件智能)

与需要手工响应的早期语音助手不同,现代语音AI系统利用了现有的LLM,例如GPT-4,Claude或Llama。初创企业不需要从头开始构建推理功能 - 他们可以将语音API与现有语言模型相结合,以更好地了解非结构化输入并生成响应。

3。大幅降低成本

声音AI的经济学完全改变了。现在,曾经需要大规模基础设施投资可以以一小部分成本实施。API定价暴跌了,现在可以每分钟便宜的高质量语音服务访问。

就像移动应用程序或Web应用程序的早期一样,我们即将看到实验的爆炸。建筑商将开始研究哪些应用程序在实验室外,市场上真正起作用。

语音AI公司的坡道上有什么作用?

声音将创建一代以强大的自然语言为基础的公司。这些公司将使用语音作为数据,语音作为与软件互动的手段,语音作为以前未开发的市场的楔子,以及声音作为创建全新市场的催化剂。

对于专注于声音的公司,我们看到了几个坡道。这些部分中的每个部分都有很棒的公司建设,但仍然很早就:

Voice AI is Working NFXVoice AI is Working NFX

斜坡1:AI作为劳动书的扩展

在我们2024年4月的论文中AI劳动力,我们描述了AI如何将软件转化为劳动力。软件不仅仅是使人类工人,但现在正在完成工作本身。语音AI是朝着AI作为劳动未来的又一步。

B2B语音AI应用是本文的扩展。我们看到它们的生长非常快,因为它们提供了高且可衡量的ROI。

当前的许多声音AI公司在呼叫中心优化和销售自动化领域中表现出大量集中,企业立即理解价值主张,并可以轻松量化它。客户服务,销售电话和内部培训代表了较低的水果,其中AI语音更换已经发生 - 在改善结果的同时,降低了成本。

公司喜欢史密斯举例说明了这种方法,为AI驱动的客户服务代理提供了专门用于SMB的代理商。他们的平台可以以24/7全天候响应客户的电话和消息,而成本的一小部分。

numeo ai是另一个有趣的例子。Numeo Ai的语音代理已经在物流领域中表现出色。他们的AI载体代理商更有效地谈判货运率,因为它们更快地做出决策,可以访问更多的数据点,并且可以在没有情感偏见的情况下运作。

B2B买家了解单位经济学。当您可以用每年售价4,000美元且工作24/7的软件替换呼叫中心代理商时,数学很简单。

这里的公司将快速获得市场份额。但是会有激烈的竞争。这里建造的公司现在需要快速移动。

斜坡2:对话的特洛伊木马(声音作为楔子)

在某些情况下,声音实际上是进入可能难以破解的市场的理想楔子。正如我们在我们的可堆叠的业务模型论文,初始语音解决方案通常只是更大平台游戏中的第一步。

楔形策略是这样的:

  1. 使用语音AI解决方案输入,该解决方案可以解决特定的高价值疼痛点。
  2. 在此狭窄的应用中证明了出色的ROI。
  3. 使用既定的关系和数据见解来扩展到相邻的用例中。
  4. 最终,成为整个业务职能的核心AI基础架构

也就是说,这种方法需要从第一天开始清楚的第二条。一旦竞争对手不可避免地到达,创始人必须拥有超出其初始语音解决方案的扩展计划,以建立防御能力。该领域中最成功的公司可能会使用语音作为入口点,成为工作流自动化公司,数据分析提供商,全堆栈客户参与平台或上述所有内容。

回到numeo ai例如。他们首先使用其VodicFlow产品自动化常规卡车运输调度呼叫 - 一个智能的语音代理,可处理经纪人通信,评分谈判和负载状态更新。这种语音功能是进入物流后台的楔子。

语音可以用作特洛伊木马,因为电话保留在许多卡车运输物流操作的中心。媒介拟合消息。

斜坡3:对话数据金矿

Prosumer细分市场代表B2B效率与消费者喜悦之间的桥梁。在这里,声音成为一个界面,可以解锁更好,更细微的经历,而不仅仅是替换劳动力。而且,在某些情况下,它民主化了以前被认为是在AAI之前被认为无法访问或溢价的服务的访问。

例如,这些可能是已经存在的语音本地体验,例如职业咨询,但现在可以使用AI进行大规模(和经济)的规模创建。

这个空间中一个有趣的例子是鲍迪·艾伊,这是一名超级职业顾问,使用其网络来帮助人们找到新的机会。您要做的就是跳上电话,以便鲍尔迪能够详细了解您的上下文。这是一个大规模的超级猎头。人类的同等价值根本不存在。

这种越来越大的跨度利用了语音AI的多层数据收集方面来创建更好的核心服务。与文本相比,人们更愿意在对话中提供详细或个人信息。有充分的理由:

  1. 当您与AI交谈时,您可以真正提前。谁来评判你?
  2. 当思想是原始且未过滤时,您可以随时到达AI。无需等待工作时间。
  3. 24/7可用性 +信任=潜在的高度准确的实时数据。

(实时数据具有独特的价值。实际上,我们认为这是我们看到的唯一能够维持网络效应的数据类型。详细介绍了这种思维这里•我们将在未来几周内写更多有关此的信息)。

tldr;语音启用我们从未大规模解锁的新型定性数据收集。这为AI应用程序创造了机会,这些应用程序使用对话界面实时收集更好的信息并开放新市场。

坡道4:下一个边界

第三个坡道仅适用于真实的远见者。

当语音AI开发我们所谓的声音时,最具变革性的应用程序将出现灵魂的能力不仅有效,而且令人愉悦。该软件可以流畅地理解并适应用户,预期情绪和需求。

使这一灵魂的核心价值前景有望提供全新的用户体验,我们现在甚至可以想象。

一个早期的例子是我们的Portco签名,一家建立了数字余生平台的公司通过每周轻松的电话来捕捉生活故事,然后将这些录音变成家庭可以永远访问的对话式,语音封锁的遗产。

Voice AI,我们还看到了这个主题的早期瞥见角色AI,这不是通过效用而是通过情感联系实现大量收养。但是,这里有更多的范式可以在这里解锁,尤其是如果您添加语音作为功能。

用灵魂的声音AI将在需要情绪智力的领域表现出色,例如治疗,教育和陪伴。

基础技术已经是像休ume ai正在建立善解人意的语言模型,以了解语气调制和情感上的微妙之处。我们尚未看到许多应用程序层公司真正利用情感智能的语音优先技术来解决问题并创造价值。

语音AI初创公司的框架

根据我们对当前语音AI景观和市场差距的分析,以下是我们看到最有希望的机会的关键领域:

垂直语音应用

大多数语音AI公司仍在建立水平解决方案。他们更专注于在广泛用例中启动声音AI并运行。

横向推出一直是AI的主要主题,我们认为这是我们认为正在崩溃的 - 在我们的论文中看到我们的思想,一切的垂直化。语音AI可能会遵循类似的趋势。虽然今天的大赢家是Elevenlabs或其他水平语音代理,但仍然有太多的空间来构建垂直特定的语音解决方案。

在评估语音AI的垂直机会时,我们会寻找这些特征:

  • 高沟通强度口语交流是价值交付的主要方式的行业。
  • 信息不对称专家知道没有对话很难访问的领域。
  • 情感上下文很重要语气,重点和节奏带有重要信息的领域。
  • 重复但细微的交流–遵循模式但需要理解上下文的互动才能完全有用。
  • 高昂的人工成本•需要熟练的通信者指挥保费费率或需要大量人类来满足需求的地区。

高体积,低复杂服务

目前,语音AI应用程序的最佳位置仍然是大量重复的任务,在该任务中,精度可以接受80%。约会计划,初始销售资格和基本客户支持查询代表了巨大的市场,声音AI可以比人类替代方案提供10倍的单位经济学。

我们预计AI很快就会扩展到更复杂的用例中。但这是语音AI基本上是插件的领域。

体验和创意应用

这仍然是迄今为止AI语音空间中最大的差距。无论是语音引导的健身教学,个性化的冥想还是互动的讲故事,语音AI的重要空间比效率优先考虑经验优先。

真正了解如何使用语音作为主要模块创建新市场的公司来创造全新市场的公司。

奖励想法:语音优先系统的安全性

随着声音AI变得越来越普遍,我们进入了未知的安全区域。wanding(语音网络钓鱼)已经成为一个主要威胁,而AI生成的声音与真正的人类无法区分。为了抵御这些威胁而建立的公司代表了一个巨大的,毫无疑问的市场。

我们重新跟踪该领域的几家公司,包括从事语音身份验证和欺诈检测的初创公司。随着语音接口的繁殖,这既代表了一个重大的风险,也代表了巨大的机会,确保它们的市场将成倍增长。

我们在寻找什么

语音AI的真正竞争优势将是了解客户问题和设计解决方案,使对话感觉像是神奇的提升。创始人现在可以利用一些关键优势:

领域专业知识:最成功的声音AI公司将由深深了解客户痛点并可以设计更好的体验的人们建立。您必须了解为什么语音解决方案比现有软件要好100倍并相应地构建。

痴迷于PMF:由于基础模型的速度有所改善,因此,创始人必须在竞争对手赶上竞争者之前一直不懈地寻找和完善PMF。您必须不断为您的服务增加价值o技术性能的UTSIDE。对语音优先体验的愿景

:我们对创始人感兴趣,他们只是在现有产品中添加声音,但要重新想象当声音成为主要界面时的可能性。了解声音何时是产品与楔形:

语音是您的核心产品和主要价值主张吗?还是在扩展到更广泛的平台之前获得初始牵引力是您的楔子?

这种区别塑造了从上市策略到未来产品路线图的所有内容。两者都可以起作用,但是从第1天开始需要不同的策略。

语音瓦奇需要一个明确的行为计划。您将使用什么来解锁,如何从那里构建?

语音 - 产品需要超出语音技术本身的可持续差异化。您使用语音利用哪些新服务,经验或数据,您将如何继续迭代?

声音AI革命才刚刚开始。基础架构已经准备就绪,模型有能力,并且第一波应用程序证明了语音可以提供真正的价值。

对于愿意深入探讨特定问题并不懈地关注PMF的创始人,这是一个坩埚时刻。

如果您为XYZ建造Jarvis,或者想象将您的灵魂洒给AI同伴的感觉,我们会看到您。到目前为止,我们已经建立了一个充满活力的人社区,并准备好建造。

如果是您,请加入我们参加我们的SF活动在这里注册。

关于《声音AI正在工作。这是首先获胜的地方》的评论


暂无评论

发表评论

摘要

我们正在旧金山举办一场对声音革命感兴趣的创新者。由于最近的进步,语音技术有望成为占主导地位的,这使初创企业易于访问且具有成本效益。市场准备性源于现有人类的自然沟通偏好和技术基础,现在由三个突破加速:改善模型质量和潜伏期,与LLMS的集成以及成本降低。诸如AI驱动的呼叫中心优化和对话数据收集之类的应用程序以及涉及情绪智力的潜在新领域正在出现。旨在在语音中进行创新的创始人应专注于深入了解客户需求,实现产品市场的契合度,并设想独特的语音优先体验或语音作为市场切入点的战略用途。

相关讨论