Google启动了“隐式缓存”，以使访问其最新的AI型号便宜|TechCrunch

作者：Kyle Wiggers

图片来源：Andrey Rudakov /彭博 /盖蒂图像

pdt上午11:20·2025年5月8日

Google正在其双子座API中推出一项功能，该公司声称该功能将使其最新的AI车型为第三方开发人员便宜。

Google称该功能为隐性缓存，并表示可以通过Gemini API在重复的上下文上节省75％的节省。它支持Google的Gemini 2.5 Pro和2.5 Flash型号。

对于使用Frontier模型的成本，这可能是开发人员的欢迎消息继续到生长。

我们刚刚在双子座API中发货的隐式缓存，在您的请求登录缓存ð¢时，可以自动使用Gemini 2.5型号节省75％的成本
我们还降低了在2.5闪光灯上以2.5 flash击中缓存所需的最小令牌，在2.5 pro上！
logan kilpatrick（@OfficialLogank）2025年5月8日

缓存是AI行业中广泛采用的实践，重用经常从模型中访问或预先计算的数据，以减少计算要求和成本。例如，缓存可以存储用户经常向模型提出的问题的答案，从而消除了模型重新创建相同请求的答案的需求。

Google以前提供了模型提示缓存，但仅显式提示缓存，这意味着开发人员必须定义其最高频率提示。尽管应该保证节省成本，但明确的提示缓存通常涉及大量的手动工作。

一些开发人员对Google的显式缓存实施如何为Gemini 2.5 Pro起作用感到满意，他们说这可能会导致令人惊讶的大型API账单。投诉在过去一周发烧，提示双子座团队道歉并保证进行更改。

与显式缓存相反，隐式缓存是自动的。默认情况下，Gemini 2.5型号启用，如果GEMINI API请求到模型命中缓存，则可以节省成本。

TechCrunch活动

加利福尼亚州伯克利 | 6月5日

•当您向GEMINI 2.5型号之一发送请求，如果请求将共同的前缀共同作为以前的请求之一，那么它有资格获得缓存命中率。”博客文章。我们将动态地将节省成本节省回到您身边。

隐式缓存的最低及时令牌计数为1,024，对于2.5 flash，2.5 pro的2,048为2,048，根据Google的开发人员文档，这并不是一个很大的数量，这意味着它不应该触发这些自动节省。令牌是数据模型的原始位，其中一千个令牌等于约750个字。

鉴于Google的最后一项节省了缓存的成本节省的主张，因此在这项新功能中有一些买家燃料区域。首先，Google建议开发人员在请求开始时保持重复的上下文，以增加隐式缓存命中的机会。该公司表示，可能会在最终附加可能从请求变为请求的上下文。

另一方面，Google没有提供任何第三方验证，即新的隐式缓存系统将提供承诺的自动储蓄。因此，我们必须看看早期采用者的评价。

Kyle Wiggers是TechCrunch的AI编辑。他的写作出现在VentureBeat和数字趋势中，以及一系列小工具博客，包括Android警察，Android Authority，Droid-Life和XDA-Developers。他与他的伴侣，音乐治疗师一起住在曼哈顿。

OC