加入我们的每日和每周的新闻通讯,获取有关行业领先的AI覆盖范围的最新更新和独家内容。了解更多
随着企业AI操作的规模不断增长,获得数据的访问已不够。企业现在必须具有可靠,一致且准确的数据访问。
这是一个领域,分布式SQL数据库供应商起着关键作用,提供了一个复制的数据库平台,可以具有很高的弹性且可用。蟑螂实验室的最新更新是关于在分布式SQL量表上启用矢量搜索和代理AI。CockrocredB 25.2今天已经发布,有望获得41%的效率增长,分布式SQL量表的AI优化向量指数以及提高运营和安全性的核心数据库改进。
蟑螂是当今市场上众多分布式SQL选项之一,包括Yugabyte,,,,Amazon Aurora DSQL和Google合金。一个 自成立以来十年前,该公司的目标是通过更具弹性来区分自己与竞争对手。实际上,这个名字来自这样的想法:蟑螂真的很难杀死。这个想法在AI时代仍然很重要。
Spencer Kimball联合创始人兼Cockoach Labs的首席执行官告诉VentureBeat,人们对AI很感兴趣,但是五年前,两年前甚至今年都选择蟑螂的原因,他们需要这个数据库才能生存。AI在我们的背景下,AI与蟑螂带来的操作能力混合在一起。
企业AI面临的分布式向量索引问题
AI系统用于培训以及检索增强发电(RAG)方案,具有向量的数据库在2025年很普遍。
Kimball认为,当今的矢量数据库在单个节点上效果很好。他们倾向于在具有多个地理上分散的节点的较大部署上挣扎,这就是分布式SQL的全部内容。蟑螂的方法解决了分布式向量索引的复杂问题。公司的新C-Spann矢量指数使用SPANN算法,基于微软研究。这专门处理基于分布式的,基于磁盘的系统的数十亿个向量。
了解技术体系结构揭示了为什么这会带来如此复杂的挑战。cocklearchdb中的矢量索引不是单独的表;它是应用于现有表中列的索引类型。在没有索引的情况下,向量相似性搜索通过所有数据执行蛮力线性扫描。这对于小型数据集来说很好,但是随着桌子的增长而变得速度很慢。
蟑螂实验室工程团队必须同时解决多个问题:统一的效率大规模,自动平衡索引和保持准确性,同时迅速变化。
Kimball解释说,C-SPANN算法通过在非常高的多维空间中为向量的分区层层次来解决此问题。这种层次结构甚至可以在数十亿个向量之间进行有效的相似性搜索。
安全增强解决AI合规性挑战
AI应用程序处理越来越敏感的数据。CockrocreDB 25.2引入了增强的安全功能,包括行级安全性和可配置的密码套件。
这些功能解决了许多企业难以满足的监管要求,例如多拉和NIS2。
蟑螂实验室研究表明,有79%的技术领导者报告没有为新法规做好准备。同时,有93%的人提出了对停电的财务影响的担忧,平均每年超过222,000美元。
``安全性大大提高了,我认为安全要意识到的是,像许多事情一样,这对这种AI的东西产生了巨大影响。” Kimball观察到。
代理AI的操作大数据设置以推动大量增长
即将到来的AI驱动的工作负载浪潮创造了Kimball术语“运行大数据”与传统的大数据分析根本不同的挑战。
尽管常规的大数据侧重于批处理处理大型数据集以进行洞察力,但操作性大数据需要大规模的实时性能,以实现关键任务应用程序。
•Kimball解释说,当您真正考虑代理AI的含义时,更多的活动会击中API并最终对基础数据库产生吞吐量要求。”
区别非常重要。传统数据系统可以忍受延迟和最终的一致性,因为它们支持分析工作负载。操作大数据功能实时应用程序可能会损害重要的和一致性。
人工智能代理通过以机器速度而不是人类速度操作来驱动这一转变。当前的数据库流量主要来自具有可预测使用模式的人类。Kimball强调,AI代理人将以指数倍增此活动。
绩效突破目标AI工作量经济学
需要更好的经济学和效率来应对日益增长的数据访问规模。
蟑螂实验室声称,蟑螂25.2可提高41%的效率。发行版中有两个关键的优化将有助于提高整体数据库效率,这是通用查询计划并进行缓冲。”
缓冲写道解决了一个特定的问题,即对象相关映射(ORM)生成的查询,这些查询往往是聊天的。这些跨分布式节点的读取和写入数据效率低下。缓冲写作功能在本地SQL协调员中保持写作。这消除了不必要的网络往返行程。
Buffered写作的作品是,他们保留了您计划在本地SQL协调员中做的所有写作。”因此,如果您从刚写的东西中读到的东西,那就不必回到网络上了。
通用查询计划解决了高批量应用程序中的基本效率。大多数企业应用程序都使用有限的一组交易类型,这些类型可以用不同的参数执行数百万次。现在,CockreactDB现在可以缓存并重新使用这些计划,而不是反复重复相同的查询结构。
在分布式系统中实施通用查询计划提出了单节点数据库所面临的独特挑战。蟑螂必须确保缓存计划在地理分布的节点中保持最佳状态,并具有不同的潜伏期。
Kimball解释说,在分布式的SQL(通用查询计划)中,它们是一个稍微重的升力,因为现在您谈论的是一套潜在的地理分布的节点,具有不同的潜伏期。”您必须谨慎使用一般查询计划,即您不使用次优的东西,因为您会混淆,就像,哦,好吧,这看起来相同。”
这对规划AI和数据基础架构的企业意味着什么
当代理AI威胁到当前数据库基础架构时,企业数据负责人面临即时决策。
从人类驱动到AI驱动的工作负载的转变将引起许多组织为许多组织准备的大型数据挑战。现在准备为来自代理AI的数据流量不可避免的增长是一个强烈的当务之急。对于领导AI领导的企业,现在可以投资于分布式数据库体系结构,现在可以大规模处理传统的SQL和向量操作。”
CockrouckDB 25.2提供了一种潜在的选择,提高了分布式SQL的性能和效率,以应对AgentIC AI的数据挑战。从根本上讲,这是关于将技术扩展到矢量和传统数据检索的适当方法。