英语轻松读发新版了,欢迎下载、更新

伽利略推出代理评估来修复人工智能代理错误,以免造成损失

2025-01-23 13:00:00 英文原文

作者:Michael Nuñez

Credit: VentureBeat made with Midjourney

图片来源:VentureBeat 使用 Midjourney 制作

加入我们的每日和每周时事通讯,了解有关行业领先人工智能报道的最新更新和独家内容。了解更多


伽利略一家总部位于旧金山的初创公司押注人工智能的未来取决于信任。今天,公司推出了新产品,代理评估,以应对人工智能领域日益严峻的挑战:确保日益复杂的人工智能代理系统真正按预期工作。

人工智能代理(执行生成报告或分析客户数据等多步骤任务的自主系统)正在跨行业获得关注。但它们的快速采用提出了一个关键问题:公司如何验证这些系统在部署后仍然可靠?伽利略公司首席执行官维克拉姆·查特吉 (Vikram Chatterji) 相信他的公司已经找到了答案。

“在过去的六到八个月里,我们开始看到一些客户尝试采用代理系统,”查特吉在接受采访时说。– 现在,LLM 可以用作智能路由器来挑选和选择正确的 API 调用以实际完成任务。从仅仅生成文本到实际完成任务是一个巨大的鸿沟,但已被解开。”

该图显示了伽利略如何在三个关键阶段评估人工智能代理:工具选择、错误检测和任务完成。(来源:伽利略)

人工智能代理展现出希望,但企业需要问责

各大企业如思科绘马(后者由 Coinbase 前首席产品官创立)已经采用了 Galileo 的平台。这些公司使用人工智能代理来自动化从客户支持到财务分析的任务,并报告显着的生产力提升。

– 试图进行外展和外呼的销售代表可能会花费一周的时间来完成这项工作,而对于一些支持人工智能的代理来说,他们会在两天或更短的时间内完成这项工作”Chatterji 解释道,强调了企业的投资回报。

Galileo 的新框架可评估工具选择质量、检测工具调用中的错误并跟踪整体会话成功情况。它还监控大规模人工智能部署的基本指标,包括成本和延迟。

仪表板显示伽利略如何在三个关键阶段评估人工智能代理:工具选择、错误检测和任务完成。(来源:伽利略)

6800 万美元资金推动伽利略进军企业人工智能

这次发射是建立在伽利略最近的势头之上的。公司募集4500万美元B轮融资领导者规模风险投资伙伴去年 10 月,其总资金达到 6800 万美元。行业分析师预计,到 2025 年,人工智能运营工具的市场规模可能达到 40 亿美元。

随着人工智能部署的加速,风险也很高。研究表明甚至像 GPT-4 这样的高级模型会产生幻觉大约 23% 的时间用于基本问答任务。Galileo 的工具可帮助企业在这些问题影响运营之前识别它们。

“在我们推出这个产品之前,我们真的非常需要知道它是否有效,”查特吉在描述客户担忧时说道。– 门槛确实很高。因此,这就是我们为他们提供这个工具链的地方,以便他们可以使用我们的指标作为这些测试的基础。”

解决人工智能幻觉和企业规模的挑战

该公司专注于可靠、可立即投入生产的解决方案,使其在日益关注人工智能安全的市场中占据有利地位。对于部署企业人工智能的技术领导者来说,伽利略平台提供了必要的护栏,以确保人工智能代理按预期执行,同时控制成本。

随着企业扩大人工智能代理的使用,性能监控工具成为重要的基础设施。Galileo 的最新产品旨在帮助企业负责任、有效地大规模部署人工智能。

– 2025年将是代理商年。它将非常多产,”查特吉指出。“然而,我们也看到许多公司在没有经过良好测试的情况下就推出这些药物,这会导致负面影响……比以往任何时候都更需要适当的测试和评估。”

使用 VB Daily 每日了解业务用例

如果您想给老板留下深刻印象,VB Daily 可以满足您的要求。我们为您提供有关公司在生成人工智能方面所做的事情的内幕消息,从监管转变到实际部署,以便您可以分享见解以实现最大投资回报率。

阅读我们的隐私政策

感谢您的订阅。查看更多VB 时事通讯在这里

发生错误。

关于《伽利略推出代理评估来修复人工智能代理错误,以免造成损失》的评论


暂无评论

发表评论

摘要

Galileo 是一家总部位于旧金山的初创公司,推出了 Agentic Assessments,这是一款旨在确保人工智能代理在部署后可靠运行的产品。该公司解决了人们对跨行业用于报告生成和客户数据分析等任务的自主系统验证日益增长的担忧。思科等大型企业已采用伽利略平台,生产力显着提高。最近,Galileo 在 B 轮融资中筹集了 4500 万美元,使总资金达到 6800 万美元,在预计到 2025 年将达到 40 亿美元的市场中占据有利地位。新框架在三个关键阶段评估人工智能代理:工具选择、错误检测和任务完成,帮助企业在人工智能幻觉等问题影响运营之前解决它们。