作者:Ming Gao
中型公司在构建数据和ML平台方面取得了成功,构建AI平台现在非常具有挑战性。这篇文章讨论了您应该谨慎构建AI平台的三个关键原因,并提出了我对有希望的方向的想法。
免责声明:它基于个人观点,不适用于云提供商和数据/ML SaaS公司。相反,他们应该对AI平台的研究加倍。
在我上一篇文章中从数据平台到ML平台在迈向数据科学中,我分享了数据平台如何演变为ML平台。这次旅程适用于大多数中小型公司。但是,中小型公司没有明确的途径继续将其平台开发到AI平台然而。升级到AI平台,该路径分叉到两个方向:
但是,即使AI模型继续发展,仍然有一些方向仍然可能仍然很重要。它在这篇文章的结尾处涵盖。
尽管Databricks可能只是您自己的Spark Jobs好几倍,但DeepSeek的效率可能比LLM推论的效率高100倍。培训和服务LLM模型需要在基础架构上进行更多的投资,并且重要的是控制LLM模型的结构。
在这个系列,我简要分享了LLM培训的基础设施,其中包括并行培训策略,,,,拓扑设计, 和培训加速。在硬件方面,除了高性能的GPU和TPU外,大部分成本用于网络设置和高性能存储服务。群集需要一个额外的RDMA网络,以启用实例之间数据交换的非障碍物,点对点连接。编排服务必须支持复杂的工作计划,故障转移策略,硬件问题检测以及GPU资源抽象和汇总。训练SDK需要促进异步检查点,数据处理和模型量化。
关于模型服务,模型提供商通常在模型开发阶段中纳入推理效率。模型提供商可能具有更好的模型量化策略,该策略将产生相同的模型质量,并具有明显较小的模型大小。由于他们对模型结构的控制权,模型提供商可能会制定更好的模型并行策略。它可以增加LLM推理期间的批量大小,从而有效地增加了GPU利用率。此外,大型LLM玩家具有后勤优势,使他们能够访问便宜的路由器,大型机和GPU芯片。更重要的是,更强大的模型结构控制和更好的模型并行能力平均模型提供商可以利用便宜的GPU设备。对于依靠开源模型的模型消费者来说,GPU贬值可能是一个更大的问题。
以DeepSeek R1为例。可以说,您使用P5E.48xlarge AWS实例,该实例提供了8 h200芯片,并连接了NVLink。这会花你的费用每小时35美元。假设您正在做NVIDIA并实现151代币/第二个性能。要产生100万个产出代币,它将花费您64美元(100万 /(151 * 3600) * $ 35)。DeepSeek以每百万美元的价格出售其代币?仅2 $呢DeepSeek可以达到云部署效率的60倍(假设来自DeepSeek的利润率为50%)。
因此,LLM推理能力确实就像电力一样。它反映了LLMS可以提供的应用的多样性;这也意味着当中央生成时,它是最有效的。但是,您仍然应该为隐私敏感用例提供自助律师LLM服务,就像医院拥有紧急情况的发电机一样。
投资AI基础设施是一款大胆的游戏,为AI应用程序构建轻量级平台带有其隐藏的陷阱。随着AI模型功能的快速演变,AI应用没有对齐范式;因此,缺乏建立AI应用的坚实基础。
简单的答案是:要有耐心。
域 | 出现算法 | 溶液出现 | 大型平台出现 |
数据平台 | 2004MapReduce(Google) | 2010年火花,flink,presto,kafka | 2020现在databricks,雪花 |
ML平台 | 2012Imagenet(Alexnet,CNN突破) | 2015 2017Tensorflow,Pytorch,Scikit-Learn | 2018现在sagemaker,mlflow,kubeflow,databricks ml |
AI平台 | 2017变形金刚(关注您需要的一切) | 2020年2022年Chatgpt,Claude,Gemini,DeepSeek | 2023现在? |
经过几年的激烈竞争,一些大型模特球员仍然站在竞技场上。但是,AI功能的演变尚未融合。随着AI模型能力的发展,现有的开发范式将很快变得过时。大型玩家刚刚开始在代理开发平台上刺伤,新的解决方案像烤箱中的爆米花一样弹出。我相信,获奖者最终将出现。目前,建筑代理标准化本身对于中小型公司来说是一个棘手的呼吁。
构建AI平台的另一个挑战相当微妙。这是关于反映平台构建者的心态,是否具有构建数据和ML平台的先前成功的路径依赖性。
正如我们先前分享的那样,自2017年以来,数据和ML开发范例已经很好地对准,而ML平台的最关键任务是标准化和抽象。但是,尚未建立针对AI应用程序的开发范式。如果团队遵循构建数据和ML平台的先前成功故事,他们可能最终会在错误的时间将标准化优先考虑。可能的方向是:
这些举措确实很重要。但是ROI确实取决于您公司的规模。无论如何,您将面临以下挑战:
假设数据和ML平台的构建者就像“壁橱组织者”,AI构建者现在应该像“时装设计师”一样。它需要拥抱新的想法,进行快速实验,甚至接受一定程度的不完美。
即使面临许多挑战,请提醒,现在仍然在AI平台上工作仍然令人满意,因为您有实质性的杠杆作用,以前没有:
如果您选择正确的方向和策略,那么您可以为组织带来的转型是重要的。以下是我对方向的一些想法,这些想法可能会随着AI模型进一步扩展而造成的干扰较小。我认为它们在AI平台上同样重要:
这些是我对建立AI平台的想法。请让我知道您对此的想法。干杯!