作者:Alex Konrad
一家科技公司在发布新的利用人工智能的软件三个月后,通常会接到安库尔·戈亚尔团队的帮助请求。随着越来越多的用户尝试该公司新推出的AI工具,抱怨它提供荒谬答案的问题也随之而来。
“人们擅长预测别人会如何使用一种AI工具。困难之处在于,如果你只是随便编写代码然后发布出去,它是无法正常工作的,”戈亚尔说。“这就像不量取食材就烘焙一样:你最后只会得到一团糟。”
Goyal的初创公司Braintrust致力于解决这一挑战。其软件评估和监控AI产品的性能,然后在出现问题时帮助定位问题。Goyal声称,只需几周时间将Braintrust整合进去,公司通常会看到他们的AI产品自我报告的准确性——例如事实准确性的测试得分——从低于40%跃升至超过80%。
成立仅一年的Braintrust already已被包括Airtable、Brex、Instacart和Stripe在内的几只独角兽公司使用。该公司表示,其数十名客户(在过去三个月内数量翻倍)通常支付数万美元,有时甚至超过10万美元。现在,Braintrust 在由a16z合伙人Martin Casado领投的A轮融资中筹集了3600万美元,旨在触达硅谷泡沫之外的更多公司。
据知情人士透露,这笔融资将这家总部位于旧金山的初创公司估值约为15亿美元。Braintrust和a16z拒绝就该估值置评。云领域的领导者Databricks和Datadog也参与了本轮融资。
Braintrust通过提供一个软件开发工具包(SDK),使企业能够在自己的IT基础设施内运行。最初,像Notion和Zapier这样的早期人工智能采用者在其已构建的基础上叠加了自己的评估系统(业内从业者称之为“evals”),以更好地衡量性能。它可以帮助他们了解调整,例如使用更多定制的提示或从OpenAI的GPT-4切换到Anthropic的Claude,如何帮助或影响准确性。
如今,公司在工具发布前会整合Braintrust的评估结果,然后使用其监控工具来追踪和追溯工具在多大程度上以及多频繁地提供提示。该公司还提供了称为函数的代码构建块,以帮助产品开发人员和其他较新的AI用户弥合公司核心非AI产品功能与其实验性的基于模型的附加功能之间的差距。“我们自己不是一个AI产品,尽管其中包含了一些AI组件,”戈亚尔说,“我们更像一个工具,帮助其他人构建AI软件。”
通过Braintrust,Goyal希望解决一个他曾两次参与的问题:第一次是在他创立并担任首席执行官的初创公司Impira工作时遇到的,这使得Goyal被列入了名单。福布斯三十岁以下列表对于2020年及后来在Figma的工作,Figma是一家收购了Impira的软件独角兽公司,收购时间为2023年1月。Impira使用机器学习自动从文件和发票中提取数据,这需要建立内部评估;在Figma,Goyal帮助解决类似问题,但这次是为了设计软件的功能,例如视觉搜索功能,该功能可以从用户的资产库中显示相似的结果。
Goyal在Figma只待了八个月。在他与他之前公司的一位支持者Elad Gil的长时间散步中,他意识到自己内部搭建的临时解决方案实际上解决了一个更加普遍且日益增长的问题。在与25位潜在客户交谈后,Goyal决定于2023年8月启动Braintrust项目。
吉尔告诉人们:“为了使用现代人工智能方法,企业需要一遍又一遍地构建一个通用的技术堆栈,而这个堆栈的关键切入点是评估(evals)。”福布斯“这让你能够摆脱AI开发中的浮躁氛围,真正理解正在发生的事情。”
在估值50亿美元的Zapier公司,联合创始人Bryan Helmig表示,该工作流自动化平台的AI工具现在每月处理数千万的任务。但在使用Braintrust之前,用于捕捉AI产生幻觉(即错误或不准确的信息)的控制措施是“临时性的”。该公司最初转向这家初创企业是为了对其评估工具进行测试,随后也开始利用其日志记录和数据集管理功能。“这是一系列你部署生成式AI时所需实用工具的大杂烩,”Helmig说道。
估值10亿美元的生产力软件制造商Notion也将自己视为LLM(大型语言模型)激进早期采用者。但当开发者通过文件手动分享各自的失败提示和错误时,联合创始人Simon Last表示,“感觉就像是回到了黑暗时代。”作为Braintrust最活跃的用户之一,Notion现在正推动这家初创公司能够处理越来越多的产品交互。“这让我们更有信心地构建更复杂的东西,”他说。
随着评估(evals)在人工智能社区的开发者们之间的讨论和认可越来越多(“未来属于那些进行评估的人”,X.ai联合创始人顾杨)已发布在上个月的X日),不仅Braintrust公司在寻求解决方案。一家名为Galileo的初创公司于六月宣布了其自己的模型来评估其他大型语言模型;一位大型软件独角兽公司的首席技术官表示福布斯他们的公司选择了一家基于英国的竞争对手Humanloop而不是Braintrust进行试验。模型提供商本身也不大可能置身事外,上周OpenAI宣布了自己的基本评估工具。
对于Braintrust及其支持者来说,更多地关注评估是件好事。Goyal表示(但他拒绝透露具体名称),一些知名的人工智能研究实验室都是Braintrust的重要用户,经常与团队联系,以了解客户如何使用他们的模型。作为投资者和赞助者,Braintrust还拥有Datadog的首席执行官、人工智能独角兽公司Hugging Face的首席执行官、客户Airtable和Instacart以及前Lattice首席执行官Jack Altman的支持;OpenAI的联合创始人Greg Brockman和问答网站Quora的首席执行官兼董事会董事Adam D’Angelo也是Braintrust的个人支持者。
投资者还注意到,Braintrust及其同类公司将为寻求与主要人工智能研究实验室互换合作的公司提供更多中立的基础构建模块,类似于云业务在亚马逊网络服务和微软Azure等巨头旁边蓬勃发展。Notion的联合创始人Last表示,公司将“疯了”如果把所有希望寄托在一个像OpenAI这样的模型提供商上。“没有人愿意被束缚。”他说。
“我将其视为一个新的系统层,在这个层面上,你有一个不可靠的基础——AI模型——你需要大量的代码来使编程在其之上运行,”a16z的卡萨多说。最初,他作为一名业余程序员测试了Braintrust,试图使用LLM构建游戏,然后又在他的公司进行了更正式的测试。“我认为正在出现一种新的产品开发者……这可以立即让你成为一名熟练的LLM程序员。”
根据戈亚尔的说法,Braintrust 面临的最大风险不是它可能被竞争对手超越;而是 AI 工具整体上可能无法兑现其承诺。“如果 AI 产生重大影响,Braintrust 的位置会非常有利,”首席执行官说。“如果结果证明它不是一个颠覆性的大事,那么这是我愿意承担的风险。”