美丽新世界：Leo AI 和 Ollama 为 Brave 浏览器用户带来 RTX 加速的本地大语言模型 - NVIDIA 博客

2024-10-02 13:02:29 英文原文

编者注：本文是 AI Decoded 系列的一部分，该系列通过使技术更易于使用来揭开 AI 的神秘面纱，并为 GeForce RTX PC 和 NVIDIA RTX 工作站用户展示新的硬件、软件、工具和加速。

从游戏和内容创建应用程序到软件开发和生产力工具，人工智能越来越多地集成到应用程序中，以增强用户体验并提高效率。

这些效率提升扩展到日常任务，例如网页浏览。Brave 是一款注重隐私的网络浏览器，最近推出了一款名为 Leo AI 的智能 AI 助手，除了提供搜索结果之外，它还可以帮助用户总结文章和视频、从文档中获取见解、回答问题等。

Brave 和其他人工智能工具背后的技术是硬件、库和生态系统软件的组合，这些软件针对人工智能的独特需求进行了优化。

为什么软件很重要

NVIDIA GPU 的强大功能世界人工智能，无论是在数据中心还是在本地 PC 上运行。它们包含 Tensor Core，专门设计用于通过大规模并行数字运算加速 Leo AI 等人工智能应用程序，快速处理人工智能所需的大量计算，而不是一次进行一项。

但是优秀的硬件只有在应用程序能够有效利用它的情况下才重要。在 GPU 上运行的软件对于提供最快、响应速度最快的 AI 体验同样至关重要。

第一层是 AI 推理库，它就像一个翻译器，接受常见 AI 任务的请求，并将它们转换为硬件运行的特定指令。流行的推理库包括 NVIDIA TensorRT、Microsoft 的 DirectML 以及 Brave 和 Leo AI 通过 Ollama 使用的推理库（称为 llama.cpp）。

Llama.cpp 是一个开源库和框架。通过 CUDA，NVIDIA 软件应用程序编程接口使开发人员能够针对 GeForce RTX 和 NVIDIA RTX GPU 进行优化，为数百种模型提供 Tensor Core 加速，包括 Gemma、Llama 3、Mistral 和 Phi 等流行的大型语言模型 (LLM)。

在推理库之上，应用程序通常使用本地推理服务器来简化集成。推理服务器负责处理下载和配置特定 AI 模型等任务，因此应用程序无需执行这些任务。

Ollama 是一个开源项目，位于 llama.cpp 之上，提供对库功能的访问。它支持提供本地人工智能功能的应用程序生态系统。在整个技术堆栈中，NVIDIA 致力于针对 NVIDIA 硬件优化 Ollama 等工具，以便在 RTX 上提供更快、响应更灵敏的 AI 体验。

NVIDIA 专注于优化，涵盖从硬件到系统软件再到整个技术堆栈。推理库和工具，使应用程序能够在 RTX 上提供更快、响应更灵敏的 AI 体验。

本地与云端

Braves Leo AI 可以通过以下方式在云端或本地 PC 上运行：Ollama。

使用本地模型处理推理有很多好处。通过不向外部服务器发送提示进行处理，体验是私密的且始终可用。例如，Brave 用户无需向云端发送任何内容即可获得财务或医疗问题的帮助。在本地运行还无需为不受限制的云访问付费。借助 Ollama，用户可以利用比大多数托管服务更广泛的开源模型，而大多数托管服务通常仅支持一两种相同的 AI 模型。

用户还可以与具有以下功能的模型进行交互：不同的专业化，例如双语模型、紧凑型模型、代码生成模型等。

RTX 在本地运行 AI 时可提供快速、响应灵敏的体验。将 Llama 3 8B 模型与 llama.cpp 结合使用，用户预计每秒最多可响应 149 个令牌或每秒约 110 个单词。当将 Brave 与 Leo AI 和 Ollama 结合使用时，这意味着可以更快速地响应问题、内容摘要请求等。

开始使用 Brave 与 Leo AI 和 Ollama 结合使用

安装 Ollama 非常简单从项目网站下载安装程序并让它在后台运行。从命令提示符处，用户可以下载并安装各种受支持的模型，然后从命令行与本地模型进行交互。

有关如何通过 Ollama 添加本地 LLM 支持的简单说明，请阅读公司的博客。一旦配置为指向 Ollama，Leo AI 将使用本地托管的 LLM 进行提示和查询。用户还可以随时在云端和本地模型之间切换。

开发者可以在 NVIDIA 技术博客中了解有关如何使用 Ollama 和 llama.cpp 的更多信息。

生成式 AI 正在发生变革游戏、视频会议和各种互动体验。订阅 AI Decoded 时事通讯，了解最新动态和未来动态。

关于《美丽新世界：Leo AI 和 Ollama 为 Brave 浏览器用户带来 RTX 加速的本地大语言模型 - NVIDIA 博客》的评论

暂无评论

发表评论

摘要

编者注：这篇文章是 AI Decoded 系列的一部分，该系列通过使技术更易于使用来揭开 AI 的神秘面纱，并为 GeForce RTX PC 和 NVIDIA RTX 工作站用户展示新的硬件、软件、工具和加速。从游戏和内容创建应用程序到软件开发和生产力工具，人工智能越来越多地集成到应用程序中，以增强用户体验并提高效率。通过 CUDA，NVIDIA 软件应用程序编程接口使开发人员能够针对 GeForce RTX 和 NVIDIA RTX GPU 进行优化，为数百种模型提供 Tensor Core 加速，包括 Gemma、Llama 3、Mistral 和 Phi 等流行的大型语言模型 (LLM)。在推理库之上，应用程序通常使用本地推理服务器来简化集成。有关如何通过 Ollama 添加本地 LLM 支持的简单说明，请阅读该公司的博客。