超大规模企业、云构建者、高性能计算中心控制着自己的人工智能基础设施的设计和制造。他们有很多钱,他们有能力得到他们想要的东西。对于世界其他地区,特别是那些无力从头开始、希望能够利用云和自己的基础设施相互对抗以减轻风险和降低成本的大型企业,他们需要一个人工智能平台,作品。
更准确地说,他们需要一个具有商业支持的单一平台,其中包括具有数据分析、传统人工智能和生成人工智能功能的数据湖屋,所有这些功能都集成在一个平台中,并且可以在 Amazon Web Services、Microsoft Azure 和 Google Cloud 上使用。
对于许多人来说,这意味着他们需要 Databricks 平台之类的东西,该平台基于开源 Apache Spark 内存数据库及其各种分析和机器学习扩展。
简而言之,这就是 Databricks 能够说服私募股权投资者进行令人惊叹的十轮融资的原因,本周宣布的最新一轮融资金额达到创纪录的 100 亿美元,使该公司的融资总额达到自 2013 年成立以来,其总资产近 140 亿美元。
引发数据分析革命
当我们开始的时候下一个平台2014 年底,我们非常关注 Apache Spark 内存数据库,该数据库旨在跨大型商用 X86 服务器集群运行,特别是作为面向批处理、笨重且缓慢的 MapReduce 方法的替代品由谷歌开发,被雅虎克隆并以 Hadoop 的形式商业化。围绕 Hadoop 有很多炒作,但它最终变成了廉价的深度存储,并且 SQL 接口极其缓慢。Spark 是一个非常快速的平台,旨在处理不太广泛的数据集,但可以驱动实时应用程序,因此,从这个意义上说,它更立即有用。
早在 2009 年,当 Hadoop 成为主流时,Spark 是由在加州大学伯克利分校 AMPLab 工作的 Matei Zaharia 发起的一个研究项目。Hadoop 本身当时已有三年历史,是第一个由超大规模企业构想并克隆或直接开源的大型分析平台。(谷歌没有开源谷歌文件系统的代码,也没有开源处理存储在其中的大量非结构化数据的 MapReduce 方法,但雅虎的 Doug Cutting 和 Mike Cafarella 重新创建了他们在著名的 Google MapReduce 论文。几乎立刻,每个人都想要更快、更智能的东西。MapReduce 采用与其相关的分布式存储和计算(即 Map 部分),并仔细研究数据筛选特定信息(即 Reduce 部分),然后在集群中整理结果。
相比之下,Spark 为容错数据存储中的数据实现了分布式共享内存,称为弹性分布式数据集,并允许各种算法(包括标准统计和机器学习算法)快速检索和存储分析、操作或从这些数据中学习。最初的 Spark 是用 Scala 编写的,并于 2010 年在 BSD 许可下开源。Databricks 的联合创始人希望将 Spark 商业化,并于 2013 年成立了一家公司,考虑到运营一家初创公司的困难且不想沸腾在海洋中,他们决定只销售在云中运行的 Spark,他们称之为 Databricks。如果您想在数据中心运行 Spark,您可以,并且如果您四处寻找,您也许可以通过 Hadoop 分销商或 Linux 分销商获得一些技术支持。
2015年,当时Hadoop仍然很重要,但Spark由于对HDFS运行SQL查询的速度较低而正在兴起,Databricks 告诉我们,有超过 500 家公司在生产环境中运行 Spark全球范围内安装了大约 2,000 个 Hadoop。您可以在其内存数据库上本机运行 Spark,但您也可以使用 Hadoop YARN、Kubernetes、Mesos(还记得吗?)或其他调度程序来管理 Spark 运行的集群。
Spark 的使用量不断增加,如今超过 10,000 家公司在生产中使用 Spark 的 Databricks 实现,但没有人确切知道有多少公司在生产中使用开源 Apache Spark 内存数据库。它可能是 Databricks 用户数量的 2 倍或 10 倍。还可能更多。
围绕用于数据分析和传统机器学习的 Spark 内存数据库的业务表现还不错,但生成式 AI 的出现使其收入和 Databricks 可以筹集的资金量猛增,而且其估值也超出了预期首次公开募股也是如此。
顺便说一句,Databricks 2025 财年将于 1 月份结束的本季度,将是 Databricks 第一个现金流为正的季度。
毫无疑问,促成这一财富的分水岭事件是 2023 年 6 月以 130 万美元收购 MosaicML。MosaicML 是一家机器学习模型和定制模型并将其转化为应用程序的工具的开发商。MosaicML 由 AI 芯片初创公司 Nervana Systems 联合创始人之一 Naveen Rao 和 Nervana 算法工程师 Hanlin Tang 于 2021 年初创立。你会记得 Nervana2016 年夏天被英特尔以 3.5 亿美元收购我们认为收购它是为了试图向谷歌出售加速器,谷歌当时正在推出其最初的张量处理单元(TPU)加速器。此后不久,即 2019 年 12 月,英特尔追加 20 亿美元收购竞争对手 AI 芯片制造商 Habana Labs其 Goya 和 Gaudi 系列人工智能加速器。
Databricks 收购 MosaicML 时,后者刚刚推出 MPT-30B 模型,其 MPT-7B 模型的下载量超过 330 万次。MosaicML 的秘密武器是模型训练的自动优化,而这需要专家花费很长时间才能完成。由于全球人工智能专家短缺,而且这是一项非常艰巨的任务,因此这种自动化是人工智能主流部署的关键。今年3月,Databricks 和 MosaicML 团队合并创建了 DBRX,一个具有 1320 亿个参数的混合专家模型,针对 12 万亿个令牌进行训练,上下文窗口大小为 32,000 个令牌。该 DBRX 模型与 OpenAI、Anthropic、Google 和 Mistral 的类似模型针锋相对,并在与基于 Nvidia Hopper H100 GPU 加速器的 400 Gb/秒 InfiniBand 端口互连的集群上进行训练。
Databricks 在 AWS 上运行其数据管理和计算平台的控制平面,但客户可以在 AWS、Microsoft Azure 或 Google Cloud 基础设施上部署计算和存储节点。10 月份,Databricks 和 AWS 加强了合作关系,Databricks 今年在各种 AWS 服务上消耗了超过 10 亿美元来支持其客户,我们认为这还包括其客户使用的 AWS 容量,我们认为这些容量主要部署在客户身上他们在亚马逊云上的存储和计算。(而不是在 Azure 或 GCP 上。Apache Spark 客户可以在任何地方部署,包括在他们自己的熨斗上。)
根据该合作伙伴关系,Databricks 将与 Anthropic 一起使用由亚马逊 Annapurna 部门设计的 Trainium AI 加速器来训练其模型。两家公司将共同努力将公司迁移到云端,并使用 GenAI 作为额外的诱饵来实现这一目标。
J 轮融资在科技行业并不常见,而如此大规模的上轮融资也并不常见。如果你看一下这些数字,Databericks 今年的收入将增长 1.9 倍,达到约 30 亿美元,其融资额增加了 2.5 倍,但在这轮高达 100 亿美元的融资轮结束时,其估值仅增长了 1.4 倍,达到 620 亿美元。该公司显然可以在 J 轮融资中筹集近两倍的资金但选择不这样做,为 2025 年 K 轮融资或 IPO 留出空间。
Thrive Capital 是本次 J 轮融资的领投方,Andreessen Horowitz、DST Global、GIC、Insight Partners 和 WCM Investment Management 参与了代表性投资,ICONIQ Growth、MGX、Sands Capital 和 Wellington Management 成为新投资者。
有趣的是,Databricks 将帮助现任和前任员工在首次公开募股之前将其 Databricks 股票变现,为他们提供现金购买股票以及为期权收益纳税。这看起来非常慷慨,但并非闻所未闻。
在代表员工支付这些流动性和税收问题后,剩余的资金将用于投资新的人工智能产品、进行收购以及扩大其与云和系统集成商的市场活动。世界。
也许现在已经很丰富了,Databricks 将整合其软件并创建其 Databricks 平台的可支持变体,包括名为“Photon”的 Spark 版本,该版本已从 Scala 移植到 C++,我们假设运行方式如下与开源 Apache Spark 相比,简直就是地狱般的蝙蝠。Databricks 现在已经足够大,可以通过其云端和本地的完整平台进行商业化。并不是每个人都愿意为亚马逊、微软和谷歌的云基础设施支付溢价。
订阅我们的时事通讯
我们将本周的亮点、分析和故事直接发送到您的收件箱,中间没有任何中间环节。
立即订阅