Cerebras正在提供“即时”人工智能
Cerebras 推出了其最新的人工智能推理芯片,该芯片被誉为 Nvidia DGX100 的强大竞争对手。
该芯片配备 44GB 高速内存,使其能够处理具有数十亿到数万亿个参数的人工智能模型。
对于超过单个晶圆存储容量的模型,Cerebras 可以在层边界将它们分割,将它们分布在多个 CS-3 系统中。单个 CS-3 系统可容纳 200 亿个参数模型,而 700 亿个参数模型只需四个系统即可管理。
Cerebras 强调使用 16 位模型权重来保持准确性,而一些竞争对手将权重精度降低到 8 位,这会降低性能。根据 Cerebras 的说法,与 8 位模型相比,其 16 位模型在多轮对话、数学和推理任务中的性能提高了 5%,确保了更准确和可靠的输出。
Cerebras 推理该平台可通过聊天和 API 访问来使用,并且旨在由熟悉 OpenAIs 聊天完成格式的开发人员轻松集成。该平台能够以每秒 450 个代币的速度运行 Llama3.1 70B 模型,使其成为实现此类大型模型瞬时速度的唯一解决方案。对于开发者来说,Cerebras 在发布时每天提供 100 万个免费代币,大规模部署的定价据称明显低于流行的 GPU 云。
Cerebras 最初推出的是 Llama3.1 8B 和 70B 型号,计划在不久的将来增加对 Llama3 405B 和 Mistral Large 2 等较大型号的支持。该公司强调,快速推理能力对于实现更复杂的人工智能工作流程和增强实时 LLM 智能至关重要,特别是在脚手架等需要大量代币使用的技术中。
ServeTheHome 的 Patrick Kennedy 在在最近的 Hot Chips 2024 研讨会上,我有机会在演讲前与 Andrew Feldman(Cerebras 首席执行官)坐在一起,他向我现场展示了演示。它的速度快得令人发指。这很重要的原因不仅仅是为了人类促进互动。相反,在一个代理世界中,计算机人工智能代理与其他几个计算机人工智能代理进行对话。想象一下,如果每个代理需要几秒钟才能输出输出,并且该管道中有多个步骤。如果您考虑自动化人工智能代理管道,那么您需要快速推理来减少整个链的时间。
注册 TechRadar Pro 时事通讯,获取您的企业取得成功所需的所有热门新闻、观点、功能和指导!
Cerebras 将其平台定位为设置开放式 LLM 开发和部署的新标准,提供破纪录的性能、有竞争力的价格和广泛的 API 访问。您可以访问 inference.cerebras.ai 或扫描下面幻灯片中的二维码来尝试一下。
Wayne Williams 是一位为以下公司撰写新闻的自由职业者技术雷达专业版。30 年来,他一直在撰写有关计算机、技术和网络的文章。在此期间,他为英国大部分 PC 杂志撰稿,并创办、编辑和出版了其中一些杂志。