英语轻松读发新版了,欢迎下载、更新

停止构建AI平台|迈向数据科学

2025-06-14 01:26:49 英文原文

作者:Ming Gao

中型公司在构建数据和ML平台方面取得了成功,构建AI平台现在非常具有挑战性。这篇文章讨论了您应该谨慎构建AI平台的三个关键原因,并提出了我对有希望的方向的想法。

免责声明:它基于个人观点,不适用于云提供商和数据/ML SaaS公司。相反,他们应该对AI平台的研究加倍。

我来自哪里

在我上一篇文章中从数据平台到ML平台在迈向数据科学中,我分享了数据平台如何演变为ML平台。这次旅程适用于大多数中小型公司。但是,中小型公司没有明确的途径继续将其平台开发到AI平台然而。升级到AI平台,该路径分叉到两个方向:

  • AI基础架构:新的电力(AI推断)在集中产生时更有效。这是一款用于大型技术人员和大型模型提供商的游戏。
  • AI应用程序平台:无法在不断变化的地面上构建海滩房屋(AI平台)。不断发展的AI能力和新的开发范式使寻找持久的标准化具有挑战性。

但是,即使AI模型继续发展,仍然有一些方向仍然可能仍然很重要。它在这篇文章的结尾处涵盖。

AI基础设施的高障碍

尽管Databricks可能只是您自己的Spark Jobs好几倍,但DeepSeek的效率可能比LLM推论的效率高100倍。培训和服务LLM模型需要在基础架构上进行更多的投资,并且重要的是控制LLM模型的结构。

由Openai Chatgpt 4O生成的图像

这个系列,我简要分享了LLM培训的基础设施,其中包括并行培训策略,,,,拓扑设计, 和培训加速。在硬件方面,除了高性能的GPU和TPU外,大部分成本用于网络设置和高性能存储服务。群集需要一个额外的RDMA网络,以启用实例之间数据交换的非障碍物,点对点连接。编排服务必须支持复杂的工作计划,故障转移策略,硬件问题检测以及GPU资源抽象和汇总。训练SDK需要促进异步检查点,数据处理和模型量化。

关于模型服务,模型提供商通常在模型开发阶段中纳入推理效率。模型提供商可能具有更好的模型量化策略,该策略将产生相同的模型质量,并具有明显较小的模型大小。由于他们对模型结构的控制权,模型提供商可能会制定更好的模型并行策略。它可以增加LLM推理期间的批量大小,从而有效地增加了GPU利用率。此外,大型LLM玩家具有后勤优势,使他们能够访问便宜的路由器,大型机和GPU芯片。更重要的是,更强大的模型结构控制和更好的模型并行能力平均模型提供商可以利用便宜的GPU设备。对于依靠开源模型的模型消费者来说,GPU贬值可能是一个更大的问题。

以DeepSeek R1为例。可以说,您使用P5E.48xlarge AWS实例,该实例提供了8 h200芯片,并连接了NVLink。这会花你的费用每小时35美元。假设您正在做NVIDIA并实现151代币/第二个性能。要产生100万个产出代币,它将花费您64美元(100万 /(151 * 3600) * $ 35)。DeepSeek以每百万美元的价格出售其代币?仅2 $呢DeepSeek可以达到云部署效率的60倍(假设来自DeepSeek的利润率为50%)。

因此,LLM推理能力确实就像电力一样。它反映了LLMS可以提供​​的应用的多样性;这也意味着当中央生成时,它是最有效的。但是,您仍然应该为隐私敏感用例提供自助律师LLM服务,就像医院拥有紧急情况的发电机一样。

不断转移地面

投资AI基础设施是一款大胆的游戏,为AI应用程序构建轻量级平台带有其隐藏的陷阱。随着AI模型功能的快速演变,AI应用没有对齐范式;因此,缺乏建立AI应用的坚实基础。

由Openai Chatgpt 4O生成的图像

简单的答案是:要有耐心。

如果我们对数据和ML平台有整体视图,则仅在算法的功能收敛时才出现开发范例。
出现算法溶液出现大型平台出现
数据平台2004MapReduce(Google)2010年火花,flink,presto,kafka2020现在databricks,雪花
ML平台2012Imagenet(Alexnet,CNN突破)2015 2017Tensorflow,Pytorch,Scikit-Learn2018现在sagemaker,mlflow,kubeflow,databricks ml
AI平台2017变形金刚(关注您需要的一切)2020年2022年Chatgpt,Claude,Gemini,DeepSeek2023现在

经过几年的激烈竞争,一些大型模特球员仍然站在竞技场上。但是,AI功能的演变尚未融合。随着AI模型能力的发展,现有的开发范式将很快变得过时。大型玩家刚刚开始在代理开发平台上刺伤,新的解决方案像烤箱中的爆米花一样弹出。我相信,获奖者最终将出现。目前,建筑代理标准化本身对于中小型公司来说是一个棘手的呼吁。 

旧成功的路径依赖

构建AI平台的另一个挑战相当微妙。这是关于反映平台构建者的心态,是否具有构建数据和ML平台的先前成功的路径依赖性。

由Openai Chatgpt 4O生成的图像

正如我们先前分享的那样,自2017年以来,数据和ML开发范例已经很好地对准,而ML平台的最关键任务是标准化和抽象。但是,尚未建立针对AI应用程序的开发范式。如果团队遵循构建数据和ML平台的先前成功故事,他们可能最终会在错误的时间将标准化优先考虑。可能的方向是:

  • 构建AI模型网关:向LLM型号提供集中审计和记录请求。
  • 构建AI代理框架:开发一个自行构建的SDK,用于创建与内部生态系统连接增强的AI代理。
  • 标准化的抹布实践:构建标准数据索引流以降低工程师构建知识服务的标准。

这些举措确实很重要。但是ROI确实取决于您公司的规模。无论如何,您将面临以下挑战:

  • 跟上最新的AI开发。
  • 客户采用率很容易绕过您的抽象。

假设数据和ML平台的构建者就像“壁橱组织者”,AI构建者现在应该像“时装设计师”一样。它需要拥抱新的想法,进行快速实验,甚至接受一定程度的不完美。

我对有希望的方向的想法

即使面临许多挑战,请提醒,现在仍然在AI平台上工作仍然令人满意,因为您有实质性的杠杆作用,以前没有:

  • AI的转换能力比数据和机器学习的能力更为重要。
  • 采用AI的动机比以往任何时候都更有效。

如果您选择正确的方向和策略,那么您可以为组织带来的转型是重要的。以下是我对方向的一些想法,这些想法可能会随着AI模型进一步扩展而造成的干扰较小。我认为它们在AI平台上同样重要:

  • 高质量的,丰富的语义数据产品:具有高精度和问责制,丰富描述和值得信赖的指标的数据产品将对AI模型的增长产生更大的影响。
  • 多模式数据服务:MCP服务器背后的可扩展知识服务OLTP,OLAP,NOSQL和Elasticsearch可能需要多种类型的数据库来支持高性能数据服务。通过持续的反向ETL作业保持真理和绩效的单一来源是一项挑战。
  • AI DevOps:以AI为中心的软件开发,维护和分析。在过去的12个月中,代码 - 类别的准确性大大提高。
  • 实验和监测:鉴于AI应用的不确定性增加,对这些应用程序的评估和监视更为关键。

这些是我对建立AI平台的想法。请让我知道您对此的想法。干杯!

关于《停止构建AI平台|迈向数据科学》的评论


暂无评论

发表评论

摘要

由于高基础设施障碍和迅速发展的模型功能,对于中小型公司而言,建立AI平台越来越具有挑战性。作者强调了谨慎的三个关键原因:高效AI基础架构所需的重大投资,由于不断的技术转移而导致的AI应用程序缺乏标准化以及可能不适用的先前数据和ML平台成功的潜在路径依赖性。尽管有这些挑战,但有希望的方向包括专注于高质量的语义数据产品,多模式数据服务,AI DevOps实践以及增强的实验和监测框架。这些领域可能会因不断发展的AI模型而受到破坏,并为追求AI集成的组织提供了巨大的价值。