编者注:本文是 AI Decoded 系列的一部分,该系列通过使技术更易于使用来揭开 AI 的神秘面纱,并为 GeForce RTX PC 和 NVIDIA RTX 工作站用户展示新的硬件、软件、工具和加速。
从游戏和内容创建应用程序到软件开发和生产力工具,人工智能越来越多地集成到应用程序中,以增强用户体验并提高效率。
这些效率提升扩展到日常任务,例如网页浏览。Brave 是一款注重隐私的网络浏览器,最近推出了一款名为 Leo AI 的智能 AI 助手,除了提供搜索结果之外,它还可以帮助用户总结文章和视频、从文档中获取见解、回答问题等。
Brave 和其他人工智能工具背后的技术是硬件、库和生态系统软件的组合,这些软件针对人工智能的独特需求进行了优化。
NVIDIA GPU 的强大功能世界人工智能,无论是在数据中心还是在本地 PC 上运行。它们包含 Tensor Core,专门设计用于通过大规模并行数字运算加速 Leo AI 等人工智能应用程序,快速处理人工智能所需的大量计算,而不是一次进行一项。
但是优秀的硬件只有在应用程序能够有效利用它的情况下才重要。在 GPU 上运行的软件对于提供最快、响应速度最快的 AI 体验同样至关重要。
第一层是 AI 推理库,它就像一个翻译器,接受常见 AI 任务的请求,并将它们转换为硬件运行的特定指令。流行的推理库包括 NVIDIA TensorRT、Microsoft 的 DirectML 以及 Brave 和 Leo AI 通过 Ollama 使用的推理库(称为 llama.cpp)。
Llama.cpp 是一个开源库和框架。通过 CUDA,NVIDIA 软件应用程序编程接口使开发人员能够针对 GeForce RTX 和 NVIDIA RTX GPU 进行优化,为数百种模型提供 Tensor Core 加速,包括 Gemma、Llama 3、Mistral 和 Phi 等流行的大型语言模型 (LLM)。
在推理库之上,应用程序通常使用本地推理服务器来简化集成。推理服务器负责处理下载和配置特定 AI 模型等任务,因此应用程序无需执行这些任务。
Ollama 是一个开源项目,位于 llama.cpp 之上,提供对库功能的访问。它支持提供本地人工智能功能的应用程序生态系统。在整个技术堆栈中,NVIDIA 致力于针对 NVIDIA 硬件优化 Ollama 等工具,以便在 RTX 上提供更快、响应更灵敏的 AI 体验。
NVIDIA 专注于优化,涵盖从硬件到系统软件再到整个技术堆栈。推理库和工具,使应用程序能够在 RTX 上提供更快、响应更灵敏的 AI 体验。
Braves Leo AI 可以通过以下方式在云端或本地 PC 上运行:Ollama。
使用本地模型处理推理有很多好处。通过不向外部服务器发送提示进行处理,体验是私密的且始终可用。例如,Brave 用户无需向云端发送任何内容即可获得财务或医疗问题的帮助。在本地运行还无需为不受限制的云访问付费。借助 Ollama,用户可以利用比大多数托管服务更广泛的开源模型,而大多数托管服务通常仅支持一两种相同的 AI 模型。
用户还可以与具有以下功能的模型进行交互:不同的专业化,例如双语模型、紧凑型模型、代码生成模型等。
RTX 在本地运行 AI 时可提供快速、响应灵敏的体验。将 Llama 3 8B 模型与 llama.cpp 结合使用,用户预计每秒最多可响应 149 个令牌或每秒约 110 个单词。当将 Brave 与 Leo AI 和 Ollama 结合使用时,这意味着可以更快速地响应问题、内容摘要请求等。
安装 Ollama 非常简单从项目网站下载安装程序并让它在后台运行。从命令提示符处,用户可以下载并安装各种受支持的模型,然后从命令行与本地模型进行交互。
有关如何通过 Ollama 添加本地 LLM 支持的简单说明,请阅读公司的博客。一旦配置为指向 Ollama,Leo AI 将使用本地托管的 LLM 进行提示和查询。用户还可以随时在云端和本地模型之间切换。
开发者可以在 NVIDIA 技术博客中了解有关如何使用 Ollama 和 llama.cpp 的更多信息。
生成式 AI 正在发生变革游戏、视频会议和各种互动体验。订阅 AI Decoded 时事通讯,了解最新动态和未来动态。