作者:Marco Mascorro
在基础模型,多模式AI,LLM和越来越多的数据集时代,对RAW Compute的访问仍然是研究人员,创始人,开发人员和工程师的最大瓶颈之一。虽然云提供可伸缩性,但个人AI工作站提供对环境,减少延迟,自定义配置和设置的完整控制,以及在本地运行所有工作负载的隐私。
这篇文章涵盖了我们的版本四-GPU工作站由新的NVIDIA提供支持RTX 6000 Pro Blackwell Max-Q GPU。此构建可以推动使用桌面AI计算的限制384GBvram(96GB每个gpu),全部都在桌子下面的外壳中。
训练,微调和对现代AI模型的推断需要大量的VRAM带宽,高CPU吞吐量和超快速存储。在云中运行这些工作负载可以引入延迟,设置开销,较慢的数据传输速度和隐私权折衷。
通过建立工作站完整PCIE 5.0 x16连接的企业级GPU,我们得到:
我们计划测试并制作有限数量的这些自定义A16Z创始人版AI工作站。
让我们分解硬件:
每个GPU都是通过自己的专用PCIE 5.0 x16,确保CPU和GPU之间的最大数据传输速率。与依靠分叉车道,多路复用器或外部桥梁的多GPU设置不同,此构建保证在较低的PCIE版本中没有妥协的车道分配或违约。
四个PCIE 5.0 NVME SSD提供读取速度的最高每个(理论)〜14.9 GB/s,扩展到〜59 GB/S突袭0中的理论0。当我们仍在全面测试过程中NVIDIA GPUDIRECT存储(GDS)兼容性,它可以允许GPU直接从NVME驱动器获取数据,从而启用直接内存访问(DMA)。
整体系统消耗1650W峰并舒适地适合家庭或办公室环境,而无需专用电路或220V接线。借助内置轮子,它设计用于在位置之间轻松运输。
集成了AST2600,这是一种底板管理控制器(BMC),可作为远程带外服务器管理的专用处理器,独立于主机CPU和OS操作,以处理关键的监视和控制任务。
借助VLLM,DeepSpeed,Sglang等图书馆,该机器是培训和服务自定义LLM,RL培训管道,多模式模型,自动型代理等的基础,没有云依赖性以及自定义设置和环境。
此RTX 6000 Pro Blackwell Workstation代表数据中心功率和桌面可访问性之间的最佳位置;一直呆在桌子下方的高端AI工作站的足迹和力量中。
无论您是一个研究人员探索新体系结构,创业的原型私人LLM部署,还是仅仅是发烧友,此构建都在您的办公桌下展示了一个高效的AI工作站。
一些温度测试: