英语轻松读发新版了,欢迎下载、更新

Google启动了“隐式缓存”,以使访问其最新的AI型号便宜|TechCrunch

2025-05-08 18:20:47 英文原文

作者:Kyle Wiggers

The Google Gemini generative AI logo on a smartphone.
图片来源:Andrey Rudakov /彭博 /盖蒂图像

Google正在其双子座API中推出一项功能,该公司声称该功能将使其最新的AI车型为第三方开发人员便宜。

Google称该功能为隐性缓存,并表示可以通过Gemini API在重复的上下文上节省75%的节省。它支持Google的Gemini 2.5 Pro和2.5 Flash型号。

对于使用Frontier模型的成本,这可能是开发人员的欢迎消息继续 生长

我们刚刚在双子座API中发货的隐式缓存,在您的请求登录缓存ð¢时,可以自动使用Gemini 2.5型号节省75%的成本

我们还降低了在2.5闪光灯上以2.5 flash击中缓存所需的最小令牌,在2.5 pro上!

logan kilpatrick(@OfficialLogank)2025年5月8日

缓存是AI行业中广泛采用的实践,重用经常从模型中访问或预先计算的数据,以减少计算要求和成本。例如,缓存可以存储用户经常向模型提出的问题的答案,从而消除了模型重新创建相同请求的答案的需求。

Google以前提供了模型提示缓存,但仅显式提示缓存,这意味着开发人员必须定义其最高频率提示。尽管应该保证节省成本,但明确的提示缓存通常涉及大量的手动工作。

一些开发人员对Google的显式缓存实施如何为Gemini 2.5 Pro起作用感到满意,他们说这可能会导致令人惊讶的大型API账单。投诉在过去一周发烧,提示双子座团队道歉并保证进行更改。

与显式缓存相反,隐式缓存是自动的。默认情况下,Gemini 2.5型号启用,如果GEMINI API请求到模型命中缓存,则可以节省成本。

TechCrunch活动

加利福尼亚州伯克利 | 6月5日

立即预订

•当您向GEMINI 2.5型号之一发送请求,如果请求将共同的前缀共同作为以前的请求之一,那么它有资格获得缓存命中率。”博客文章。我们将动态地将节省成本节省回到您身边。

隐式缓存的最低及时令牌计数为1,024,对于2.5 flash,2.5 pro的2,048为2,048,根据Google的开发人员文档,这并不是一个很大的数量,这意味着它不应该触发这些自动节省。令牌是数据模型的原始位,其中一千个令牌等于约750个字。

鉴于Google的最后一项节省了缓存的成本节省的主张,因此在这项新功能中有一些买家燃料区域。首先,Google建议开发人员在请求开始时保持重复的上下文,以增加隐式缓存命中的机会。该公司表示,可能会在最终附加可能从请求变为请求的上下文。

另一方面,Google没有提供任何第三方验证,即新的隐式缓存系统将提供承诺的自动储蓄。因此,我们必须看看早期采用者的评价。

Kyle Wiggers是TechCrunch的AI编辑。他的写作出现在VentureBeat和数字趋势中,以及一系列小工具博客,包括Android警察,Android Authority,Droid-Life和XDA-Developers。他与他的伴侣,音乐治疗师一起住在曼哈顿。

关于《Google启动了“隐式缓存”,以使访问其最新的AI型号便宜|TechCrunch》的评论


暂无评论

发表评论

摘要

Google在其双子座API中引入了“隐式缓存”,以将第三方开发人员的成本降低到经AI模型的重复上下文中高达75%。默认情况下,Gemini 2.5 Pro和Flash模型启用了此自动功能,要求最小的提示令牌计数分别为1,024和2,048,才能触发节省。开发人员必须确保重复的上下文仍在最大化缓存命中的请求开始。Google先前的明确缓存面临着高度API成本的投诉,促使这种新方法旨在简化无手动干预的成本降低。