作者:Written by Jason Perlow, Senior Contributing Writer Nov. 6, 2024 at 3:00 a.m. PT
生成式人工智能(Gen AI)自诞生以来取得了显着进步两年前公开发布。该技术带来了变革性的应用程序,可以以令人印象深刻的准确性和创造力创建文本、图像和其他媒体。
开源生成模型对于想要利用的开发人员、研究人员和组织来说很有价值尖端人工智能技术不会产生高额许可费或限制性商业政策。让我们了解更多。
开源人工智能模型具有多种优势,包括定制、透明度和社区驱动的创新。这些模型允许用户根据特定需求进行定制,并从持续的增强中受益。此外,它们通常附带允许商业和非商业使用的许可证,这增强了它们在各种应用程序中的可访问性和适应性。
然而,开源解决方案并不总是最佳选择。在需要严格监管合规、数据隐私和专业支持的行业中,专有模型通常表现更好。它们提供更强大的法律框架、专门的客户支持以及根据行业要求量身定制的优化。由于专为高性能和可靠性而设计的独特功能,闭源解决方案也可能在高度专业化的任务中表现出色。
当组织需要实时更新、高级安全性或专业功能时,专有模型可以提供更强大、更安全的解决方案,有效平衡开放性与对质量和责任的严格要求。
开源倡议 (OSI) 最近推出了开源人工智能定义 (OSAID)澄清什么才是真正的开源人工智能。为了满足 OSAID 标准,模型的设计和训练数据必须完全透明,使用户能够自由地重新创建、调整和使用它。
然而,一些流行的模型,包括Meta 的 LLaMA和稳定性 AI 的稳定扩散、存在许可限制或培训数据缺乏透明度,从而阻碍了 OSAID 的完全合规性。
作为 OSAID 验证过程的一部分,OSI 评估了以下内容:
Meta LLaMA 架构不符合 OSAID,因为其仅限研究的许可证具有限制性,而且训练数据缺乏完全透明度,限制了商业用途和可重复性。派生模型,如 Mistral 的 Mixtral 和 Vicuna Team 的 MiniGPT-4,继承了这些限制,在其他项目中传播 LLaMA 的不合规性。
另外: 想从事人工智能工作吗?如何通过 5 个步骤调整你的职业生涯
除了基于 LLaMA 的模型之外,其他广泛使用的架构也面临类似的问题。例如,Stability AI 的 Stability Diffusion 采用了 Creative ML OpenRAIL-M 许可证,其中包括偏离 OSAID 无限制使用要求的道德限制。同样,xAI 的 Grok 将专有元素与使用限制相结合,挑战其与开源理念的一致性。
这些例子强调了满足 OSAID 标准的难度,因为许多人工智能开发人员在开放获取与商业和道德考虑之间取得平衡。
选择符合 OSAID 的模型可为组织提供透明度、法律安全性和全面的可定制功能,这对于负责任和灵活的 AI 使用至关重要。这些合规模型遵守道德实践,并受益于强大的社区支持,促进协作发展。
相反,不合规的模型可能会限制适应性并更加依赖专有资源。对于优先考虑灵活性和与开源价值观保持一致的组织来说,符合 OSAID 的模型是有利的。然而,当需要专有功能时,不合规的模型仍然很有价值。
开源人工智能模型是根据定义使用、修改和共享条件的许可证发布的。虽然一些许可证符合传统的开源标准,但其他许可证则包含限制或道德准则,妨碍完全遵守 OSAID。主要许可证包括:
运行开源 Gen AI 模型需要特定的硬件、软件环境和工具集来进行模型训练、微调和部署任务。具有数十亿个参数的高性能模型受益于 Nvidia A100 或 H100 等强大的 GPU 设置。
另外: 开源如何吸引一些世界顶级创新者
基本环境通常包括 Python 和机器学习库,例如 PyTorch 或TensorFlow。专业工具集,包括 Hugging Face 的 Transformers 库和 Nvidia 的 NeMo,简化了微调和部署的过程。Docker 有助于在不同系统之间保持一致的环境,同时Ollama 允许本地执行大型语言模型在兼容的系统上。
下图重点介绍了管理开源人工智能模型的基本工具集、推荐硬件及其特定功能:
工具集 | 目的 | 要求 | 使用 |
Python | 主要编程环境 | 不适用 | 对于编写脚本和配置模型至关重要 |
火炬 | 模型训练与推理 | GPU(例如 Nvidia A100、H100) | 广泛使用的深度学习模型库 |
TensorFlow | 模型训练与推理 | GPU(例如 Nvidia A100、H100) | 另类深度学习库 |
拥抱变形金刚脸 | 模型部署和微调 | GPU(首选) | 用于访问、微调和部署模型的库 |
英伟达 NeMo | 多模式模型支持和部署 | 英伟达 GPU | 针对 Nvidia 硬件和多模式任务进行了优化 |
码头工人 | 环境一致性和部署 | 支持 GPU | 将模型容器化以便于部署 |
奥拉马 | 在本地运行大型语言模型 | macOS、Linux、Windows,支持 GPU | 在兼容系统上本地运行 LLM 的平台 |
浪链 | 使用法学硕士构建应用程序 | Python 3.7+ | 用于编写和部署 LLM 支持的应用程序的框架 |
骆驼指数 | 将法学硕士与外部数据源连接 | Python 3.7+ | 将法学硕士与数据源集成的框架 |
此设置建立了一个强大的框架,用于有效管理 Gen AI 模型,从实验到生产就绪部署。每个工具集都具有独特的优势,使开发人员能够根据特定的项目需求定制其环境。
选择正确的人工智能模型取决于几个因素,包括许可要求、所需的性能和特定功能。虽然较大的模型往往具有更高的准确性和灵活性,但它们需要大量的计算资源。另一方面,较小的模型更适合资源受限的应用程序和设备。
另外: IBM 将免费为您提供人工智能基础知识培训,并在 10 小时内为您提供技能证书
值得注意的是,这里列出的大多数模型,即使是那些拥有 Apache 2.0 或 MIT 等传统开源许可证的模型,也不符合开源人工智能定义 (OSAID)。这一差距主要是由于训练数据透明度和使用限制方面的限制,OSAID 强调这对于真正的开源人工智能至关重要。然而,某些模型,例如 Bloom 和 Falcon,显示出对其许可证或透明度协议进行细微调整的合规潜力,并且随着时间的推移可能会实现完全合规。
下表提供了领先的开源生成式 AI 模型的组织概述,按类型、发行者和功能进行分类,以帮助您选择最适合您需求的选项,无论是完全透明的、社区驱动的模型还是高度自动化的模型。具有特定功能和许可要求的性能工具。
语言模型在聊天机器人、内容创建、翻译和摘要等基于文本的应用程序中至关重要。它们是自然语言处理 (NLP) 的基础,并不断提高对语言结构和上下文的理解。
著名的模型包括 Meta 的 LLaMA、EleutherAI 的 GPT-NeoX 和 Nvidia 的 NVLM 1.0 系列,每个模型都以其在多语言、大规模和多模式任务中的独特优势而闻名。
发行人及型号 | 参数 尺寸 | 执照 | 亮点 |
---|---|---|---|
谷歌T5 | 小号至 XXL 号 | 阿帕奇2.0 | 高性能语言模型,符合 OSAID |
埃柳瑟·皮提亚 | 各种各样的 | 阿帕奇2.0 | 注重可解释性,符合 OSAID |
艾伦人工智能研究所 (AI2) OLMo | 各种各样的 | 阿帕奇2.0 | 开放语言研究模型,符合 OSAID |
大科学绽放 | 176B | OpenRAIL-M | 多语言、负责任的人工智能、OSAID 潜力 |
BigCode Starcoder2 | 各种各样的 | 阿帕奇2.0 | 代码生成、OSAID 潜力 |
TII 猎鹰 | 7B、40B | 阿帕奇2.0 | 高效高性能,OSAID潜力 |
AI21 Labs Jamba 系列 | 小型到大型 | 风俗 | 语言和聊天生成 |
AI新加坡海狮 | 7B | 风俗 | 语言和文化表征 |
阿里巴巴Qwen系列 | 7B | 风俗 | 双语模型(中文、英文) |
Databricks 多莉 2.0 | 12B | 抄送-SA 3.0 | 开放数据集,商业用途 |
EleutherAI GPT-J | 6B | 阿帕奇2.0 | 通用语言模型 |
EleutherAI GPT-NeoX | 20B | 麻省理工学院 | 大规模文本生成 |
谷歌杰玛2 | 2B、9B、27B | 阿帕奇2.0 | 语言和代码生成 |
IBM花岗岩系列 | 3B、8B | 风俗 | 总结、分类、RAG |
元 LLaMA 3.2 | 1B至405B | 仅供研究 | 高级 NLP,多语言 |
微软Phi-3系列 | 迷你至中型 | 麻省理工学院 | 讲道理,性价比高 |
米斯特拉尔 AI 混合 8x22B8x22B | 阿帕奇2.0 | 稀疏模型,高效推理 | 米斯特拉尔 AI 米斯特拉尔 7B |
7B | 阿帕奇2.0 | 密集的多语言文本生成 | Nvidia NVLM 1.0 系列 |
72B | 风俗 | 高性能多模式法学硕士 | 乐天RakutenAI系列 |
7B | 风俗 | 多语言聊天、NLP | xAI Grok-1 |
314B | 阿帕奇2.0 | 大规模语言模型 | 图像生成模型 |
Stability AI 的 Stable Diffusion 因其灵活性和输出质量而被广泛采用,而 DeepFloyd 的 IF 则强调通过对语言的理解来生成逼真的视觉效果。
发行人及型号
参数 尺寸 | 执照 | 亮点 | 稳定性AI稳定扩散3.5 |
---|---|---|---|
2.5B至8B | OpenRAIL-M | 高质量图像合成 | 迪普弗洛伊德 IF |
400M转4.3B | 风俗 | 具有语言理解能力的逼真视觉效果 | OpenAI DALL-E 3 |
未透露 | 风俗 | 最先进的文本到图像合成 | 谷歌图像 |
未透露 | 风俗 | 从文本生成高保真图像 | 中途 |
未透露 | 风俗 | 艺术和风格化图像生成 | Adobe 萤火虫 |
未透露 | 风俗 | Adobe 产品中集成的 AI 图像生成 | 视觉模型 |
另外:
Claude 的新 AI 数据分析工具与 ChatGPT 的版本相比如何(提示:没有)这些技术使多个行业受益,包括医疗保健、自动驾驶汽车和媒体。
发行人及型号
参数 尺寸 | 执照 | 亮点 | 元 SAM 2.1 |
---|---|---|---|
38.9M 至 224.4M | 阿帕奇2.0 | 视频编辑、分割 | NVIDIA 一致性 |
未透露 | 风俗 | 跨视频帧的字符一致性 | NVIDIA VISTA-3D |
未透露 | 风俗 | 医学成像、解剖分割 | NVIDIA NV-DINOv2 |
未透露 | 非商业用途 | 图像嵌入生成 | 谷歌深度实验室 |
未透露 | 阿帕奇2.0 | 高质量语义图像分割 | 微软佛罗伦萨 |
0.23B、0.77B | 麻省理工学院 | 计算机视觉通用视觉模型 | OpenAI 剪辑 |
400M | 麻省理工学院 | 文本和图像理解 | 音频型号 |
发行人及型号
尺寸 | 执照 | 亮点 | Coqui.ai TTS |
---|---|---|---|
不适用 | MPL 2.0 | 文本语音合成,多语言支持 | ESPnet ESPnet |
不适用 | 阿帕奇2.0 | 端到端语音处理工具包 | Facebook 人工智能 wav2vec 2.0 |
底座(95M),大号(317M) | 阿帕奇2.0 | 自监督语音识别 | 拥抱脸部变形金刚(语音模型) |
各种各样的 | 阿帕奇2.0 | ASR 和 TTS 模型的集合 | 洋红色音乐VAE |
不适用 | 阿帕奇2.0 | 音乐生成和插值 | 元音乐生成器 |
不适用 | 麻省理工学院/CC BY-NC 4.0 | 根据文本提示生成音乐 | 元音频生成器 |
不适用 | 麻省理工学院/CC BY-NC 4.0 | 根据文字提示生成音效 | 元编码器 |
不适用 | 麻省理工学院/CC BY-NC 4.0 | 高品质音频压缩 | Mozilla 深度语音 |
不适用 | MPL 2.0 | 端到端语音转文本引擎 | NVIDIA NeMo(语音模型) |
各种各样的 | 阿帕奇2.0 | 针对 Nvidia GPU 优化的 ASR 和 TTS 模型 | OpenAI 自动点唱机 |
不适用 | 麻省理工学院 | 具有流派/艺术家调节的神经音乐生成 | OpenAI 耳语 |
39M转1.6B | 麻省理工学院 | 多语言语音识别和转录 | TensorFlow TFLite 语音模型 |
不适用 | 阿帕奇2.0 | 针对移动设备优化的语音识别模型 | 多式联运模型 |
另外:
人工智能幻觉如何帮助创造救命抗生素这些模型在需要语言、视觉和感官理解的应用中非常有效。
型号名称
参数 尺寸 | 执照 | 亮点 | 艾伦人工智能研究所 (AI2) 莫尔莫 |
---|---|---|---|
1B、70B | 阿帕奇2.0 | 处理文本和视觉输入的多模式 AI 模型,符合 OSAID | 元图像绑定 |
不适用 | 风俗 | 集成六种数据类型:文本、图像、音频、深度、热和 IMU。 | 元无缝M4T |
不适用 | 风俗 | 提供多语言翻译和转录服务。 | 元灵 LM |
不适用 | 风俗 | 结合文本和语音以产生听起来自然的输出。 | 微软佛罗伦萨-2 |
0.23B、0.77B | 麻省理工学院 | 熟练处理计算机视觉和语言任务。 | 英伟达维拉 |
不适用 | 风俗 | 有效处理视觉语言任务。 | OpenAI 剪辑 |
400M | 麻省理工学院 | 擅长文本和图像理解。 | Vicuna 团队 MiniGPT-4 |
13B | 阿帕奇2.0 | 能够理解文本和图像。 | 检索增强生成 (RAG) |
将生成式人工智能与信息检索相结合,使他们能够将广泛数据集中的相关数据合并到他们的响应中。发行人及型号
参数 尺寸 | 执照 | 亮点 | BAAI BGE-M3 |
---|---|---|---|
不适用 | 风俗 | 密集和稀疏检索优化 | IBM Granite 3.0系列 |
3B、8B | 风俗 | 高级检索、摘要、RAG | Nvidia EmbedQA 和 ReRankQA |
1B | 风俗 | 多语言 QA、GPU 加速检索 | 专业型号 |
发行人及型号
参数 尺寸 | 执照 | 亮点 | 元科德拉玛系列 |
---|---|---|---|
7B、13B、34B | 风俗 | 代码生成、多语言编程 | 米斯特拉尔 AI 曼巴-Codestral |
7B | 阿帕奇2.0 | 专注于编码和多语言能力 | 米斯特拉尔 AI Mathstral |
7B | 阿帕奇2.0 | 专门从事数学推理 | 护栏型号 |
发现并减轻偏见、不适当的内容和有害的反应。发行人及型号
参数 尺寸 | 执照 | 亮点 | NVIDIA NeMo 护栏 |
---|---|---|---|
不适用 | 阿帕奇2.0 | 用于添加可编程护栏的开源工具包 | Google ShieldGemma |
2B、9B、27B | 风俗 | 基于 Gemma 2 构建的安全分类器模型 | IBM Granite-Guardian |
8B | 风俗 | 检测不道德或有害内容 | 选择开源模型 |
生成式人工智能的格局正在迅速发展,开源模型对于让所有人都能使用先进技术至关重要。
这些模型允许定制和协作,打破了限制大公司人工智能开发的障碍。
开发者可以通过选择开源Gen AI,为全球社区做出贡献并加速技术进步,根据自己的需求定制解决方案。各种可用模型——从语言和视觉到以安全为中心的设计——确保了几乎所有应用的选择。
支持开源人工智能社区对于促进道德和创新人工智能发展、造福单个项目以及负责任地推进技术至关重要。