最好的开源人工智能模型：所有免费使用选项的解释

2024-11-06 11:00:00 英文原文

作者：Written by Jason Perlow, Senior Contributing Writer Nov. 6, 2024 at 3:00 a.m. PT

生成式人工智能（Gen AI）自诞生以来取得了显着进步两年前公开发布。该技术带来了变革性的应用程序，可以以令人印象深刻的准确性和创造力创建文本、图像和其他媒体。

另外：我们现在有了官方的开源人工智能定义

开源生成模型对于想要利用的开发人员、研究人员和组织来说很有价值尖端人工智能技术不会产生高额许可费或限制性商业政策。让我们了解更多。

开源模型与专有模型

开源人工智能模型具有多种优势，包括定制、透明度和社区驱动的创新。这些模型允许用户根据特定需求进行定制，并从持续的增强中受益。此外，它们通常附带允许商业和非商业使用的许可证，这增强了它们在各种应用程序中的可访问性和适应性。

还：2024 年最好的免费人工智能课程

然而，开源解决方案并不总是最佳选择。在需要严格监管合规、数据隐私和专业支持的行业中，专有模型通常表现更好。它们提供更强大的法律框架、专门的客户支持以及根据行业要求量身定制的优化。由于专为高性能和可靠性而设计的独特功能，闭源解决方案也可能在高度专业化的任务中表现出色。

当组织需要实时更新、高级安全性或专业功能时，专有模型可以提供更强大、更安全的解决方案，有效平衡开放性与对质量和责任的严格要求。

开源人工智能的定义

开源倡议 (OSI) 最近推出了开源人工智能定义 (OSAID)澄清什么才是真正的开源人工智能。为了满足 OSAID 标准，模型的设计和训练数据必须完全透明，使用户能够自由地重新创建、调整和使用它。

还：AI 甚至可以开源吗？情况很复杂

然而，一些流行的模型，包括Meta 的 LLaMA和稳定性 AI 的稳定扩散、存在许可限制或培训数据缺乏透明度，从而阻碍了 OSAID 的完全合规性。

作为 OSAID 验证过程的一部分，OSI 评估了以下内容：

兼容型号：Pythia (Eleuther AI)、OLMo (AI2)、Amber 和 CrystalCoder (LLM360) 以及 T5 (Google)。
潜在合规型号：Bloom (BigScience)、Starcoder2 (BigCode) 和 Falcon (TII) 可以通过对许可条款或透明度进行细微调整来满足 OSAID 标准。
不合规型号：LLaMA（元），格罗克(X/Twitter)、Phi (Microsoft) 和 Mixtral (Mistral) 缺乏必要的透明度或施加限制性许可条款。

LLaMA 和其他不兼容的架构

Meta LLaMA 架构不符合 OSAID，因为其仅限研究的许可证具有限制性，而且训练数据缺乏完全透明度，限制了商业用途和可重复性。派生模型，如 Mistral 的 Mixtral 和 Vicuna Team 的 MiniGPT-4，继承了这些限制，在其他项目中传播 LLaMA 的不合规性。

另外：想从事人工智能工作吗？如何通过 5 个步骤调整你的职业生涯

除了基于 LLaMA 的模型之外，其他广泛使用的架构也面临类似的问题。例如，Stability AI 的 Stability Diffusion 采用了 Creative ML OpenRAIL-M 许可证，其中包括偏离 OSAID 无限制使用要求的道德限制。同样，xAI 的 Grok 将专有元素与使用限制相结合，挑战其与开源理念的一致性。

这些例子强调了满足 OSAID 标准的难度，因为许多人工智能开发人员在开放获取与商业和道德考虑之间取得平衡。

对组织的影响：OSAID 合规性与不合规性

选择符合 OSAID 的模型可为组织提供透明度、法律安全性和全面的可定制功能，这对于负责任和灵活的 AI 使用至关重要。这些合规模型遵守道德实践，并受益于强大的社区支持，促进协作发展。

相反，不合规的模型可能会限制适应性并更加依赖专有资源。对于优先考虑灵活性和与开源价值观保持一致的组织来说，符合 OSAID 的模型是有利的。然而，当需要专有功能时，不合规的模型仍然很有价值。

了解开源 AI 模型中的许可

开源人工智能模型是根据定义使用、修改和共享条件的许可证发布的。虽然一些许可证符合传统的开源标准，但其他许可证则包含限制或道德准则，妨碍完全遵守 OSAID。主要许可证包括：

阿帕奇2.0:允许免费使用、修改和分发的宽松许可证以及专利授权。Apache 2.0 已获得 OSI 批准，在开源项目中很受欢迎，提供灵活性和法律保护。
麻省理工学院:另一种宽松的许可证，只需要归属即可重复使用。与 Apache 2.0 一样，MIT 已获得 OSI 批准并被广泛采用，并且提供简单性和最少的限制。
创意 ML OpenRAIL-M:专为人工智能应用程序设计的许可证，允许广泛使用，但实施道德准则以防止有害使用。OpenRAIL-M 未获得 OSI 批准，因为它包含与 OSI 的无限制自由原则相冲突的使用限制。然而，它受到旨在优先考虑人工智能道德使用的开发人员的重视。
CC BY-SA:知识共享相同方式共享许可证允许免费使用，并要求衍生作品保持开源。虽然它鼓励开放协作，但它未经 OSI 批准，并且更常用于内容而不是代码，因为它缺乏软件应用程序的灵活性。
CC BY-NC 4.0:知识共享许可证，允许免费使用但限制商业应用。该许可证用于某些模型权重（例如 Meta 的 MusicGen 和 AudioGen），限制了模型在商业环境中的可用性，并且不符合 OSI 的开源标准。
定制许可证：我们列表中的许多模型，例如 IBM 的 Granite 和 Nvidia 的 NeMo，都在专有或定制许可下运行。这些模型通常会施加特定的使用条件或修改传统的开源术语以符合商业目标，从而使其不符合开源原则。
仅研究许可证：某些模型，例如 Meta 的 LLaMA 和 Codellama 系列，仅在研究使用条款下提供。这些许可证限制用于学术或非商业目的，并阻止广泛的社区驱动的项目，因为它们不符合 OSI 的开源标准。

运行开源人工智能模型的要求

运行开源 Gen AI 模型需要特定的硬件、软件环境和工具集来进行模型训练、微调和部署任务。具有数十亿个参数的高性能模型受益于 Nvidia A100 或 H100 等强大的 GPU 设置。

另外：开源如何吸引一些世界顶级创新者

基本环境通常包括 Python 和机器学习库，例如 PyTorch 或TensorFlow。专业工具集，包括 Hugging Face 的 Transformers 库和 Nvidia 的 NeMo，简化了微调和部署的过程。Docker 有助于在不同系统之间保持一致的环境，同时Ollama 允许本地执行大型语言模型在兼容的系统上。

下图重点介绍了管理开源人工智能模型的基本工具集、推荐硬件及其特定功能：

工具集	目的	要求	使用
Python	主要编程环境	不适用	对于编写脚本和配置模型至关重要
火炬	模型训练与推理	GPU（例如 Nvidia A100、H100）	广泛使用的深度学习模型库
TensorFlow	模型训练与推理	GPU（例如 Nvidia A100、H100）	另类深度学习库
拥抱变形金刚脸	模型部署和微调	GPU（首选）	用于访问、微调和部署模型的库
英伟达 NeMo	多模式模型支持和部署	英伟达 GPU	针对 Nvidia 硬件和多模式任务进行了优化
码头工人	环境一致性和部署	支持 GPU	将模型容器化以便于部署
奥拉马	在本地运行大型语言模型	macOS、Linux、Windows，支持 GPU	在兼容系统上本地运行 LLM 的平台
浪链	使用法学硕士构建应用程序	Python 3.7+	用于编写和部署 LLM 支持的应用程序的框架
骆驼指数	将法学硕士与外部数据源连接	Python 3.7+	将法学硕士与数据源集成的框架

此设置建立了一个强大的框架，用于有效管理 Gen AI 模型，从实验到生产就绪部署。每个工具集都具有独特的优势，使开发人员能够根据特定的项目需求定制其环境。

选择正确的型号

选择正确的人工智能模型取决于几个因素，包括许可要求、所需的性能和特定功能。虽然较大的模型往往具有更高的准确性和灵活性，但它们需要大量的计算资源。另一方面，较小的模型更适合资源受限的应用程序和设备。

另外： IBM 将免费为您提供人工智能基础知识培训，并在 10 小时内为您提供技能证书

值得注意的是，这里列出的大多数模型，即使是那些拥有 Apache 2.0 或 MIT 等传统开源许可证的模型，也不符合开源人工智能定义 (OSAID)。这一差距主要是由于训练数据透明度和使用限制方面的限制，OSAID 强调这对于真正的开源人工智能至关重要。然而，某些模型，例如 Bloom 和 Falcon，显示出对其许可证或透明度协议进行细微调整的合规潜力，并且随着时间的推移可能会实现完全合规。

下表提供了领先的开源生成式 AI 模型的组织概述，按类型、发行者和功能进行分类，以帮助您选择最适合您需求的选项，无论是完全透明的、社区驱动的模型还是高度自动化的模型。具有特定功能和许可要求的性能工具。

语言模型

语言模型在聊天机器人、内容创建、翻译和摘要等基于文本的应用程序中至关重要。它们是自然语言处理 (NLP) 的基础，并不断提高对语言结构和上下文的理解。

著名的模型包括 Meta 的 LLaMA、EleutherAI 的 GPT-NeoX 和 Nvidia 的 NVLM 1.0 系列，每个模型都以其在多语言、大规模和多模式任务中的独特优势而闻名。

发行人及型号	参数尺寸	执照	亮点
谷歌T5	小号至 XXL 号	阿帕奇2.0	高性能语言模型，符合 OSAID
埃柳瑟·皮提亚	各种各样的	阿帕奇2.0	注重可解释性，符合 OSAID
艾伦人工智能研究所 (AI2) OLMo	各种各样的	阿帕奇2.0	开放语言研究模型，符合 OSAID
大科学绽放	176B	OpenRAIL-M	多语言、负责任的人工智能、OSAID 潜力
BigCode Starcoder2	各种各样的	阿帕奇2.0	代码生成、OSAID 潜力
TII 猎鹰	7B、40B	阿帕奇2.0	高效高性能，OSAID潜力
AI21 Labs Jamba 系列	小型到大型	风俗	语言和聊天生成
AI新加坡海狮	7B	风俗	语言和文化表征
阿里巴巴Qwen系列	7B	风俗	双语模型（中文、英文）
Databricks 多莉 2.0	12B	抄送-SA 3.0	开放数据集，商业用途
EleutherAI GPT-J	6B	阿帕奇2.0	通用语言模型
EleutherAI GPT-NeoX	20B	麻省理工学院	大规模文本生成
谷歌杰玛2	2B、9B、27B	阿帕奇2.0	语言和代码生成
IBM花岗岩系列	3B、8B	风俗	总结、分类、RAG
元 LLaMA 3.2	1B至405B	仅供研究	高级 NLP，多语言
微软Phi-3系列	迷你至中型	麻省理工学院	讲道理，性价比高
米斯特拉尔 AI 混合 8x22B8x22B	阿帕奇2.0	稀疏模型，高效推理	米斯特拉尔 AI 米斯特拉尔 7B
7B	阿帕奇2.0	密集的多语言文本生成	Nvidia NVLM 1.0 系列
72B	风俗	高性能多模式法学硕士	乐天RakutenAI系列
7B	风俗	多语言聊天、NLP	xAI Grok-1
314B	阿帕奇2.0	大规模语言模型	图像生成模型

图像生成模型根据文本提示创建高质量的视觉效果或艺术作品，这使得它们对于内容创建者、设计师和营销人员来说非常宝贵。

Stability AI 的 Stable Diffusion 因其灵活性和输出质量而被广泛采用，而 DeepFloyd 的 IF 则强调通过对语言的理解来生成逼真的视觉效果。

发行人及型号

参数尺寸	执照	亮点	稳定性AI稳定扩散3.5
2.5B至8B	OpenRAIL-M	高质量图像合成	迪普弗洛伊德 IF
400M转4.3B	风俗	具有语言理解能力的逼真视觉效果	OpenAI DALL-E 3
未透露	风俗	最先进的文本到图像合成	谷歌图像
未透露	风俗	从文本生成高保真图像	中途
未透露	风俗	艺术和风格化图像生成	Adobe 萤火虫
未透露	风俗	Adobe 产品中集成的 AI 图像生成	视觉模型

视觉模型分析图像和视频，支持对象检测、分割和根据文本提示生成视觉。

另外：

Claude 的新 AI 数据分析工具与 ChatGPT 的版本相比如何（提示：没有）这些技术使多个行业受益，包括医疗保健、自动驾驶汽车和媒体。

发行人及型号

参数尺寸	执照	亮点	元 SAM 2.1
38.9M 至 224.4M	阿帕奇2.0	视频编辑、分割	NVIDIA 一致性
未透露	风俗	跨视频帧的字符一致性	NVIDIA VISTA-3D
未透露	风俗	医学成像、解剖分割	NVIDIA NV-DINOv2
未透露	非商业用途	图像嵌入生成	谷歌深度实验室
未透露	阿帕奇2.0	高质量语义图像分割	微软佛罗伦萨
0.23B、0.77B	麻省理工学院	计算机视觉通用视觉模型	OpenAI 剪辑
400M	麻省理工学院	文本和图像理解	音频型号

音频模型处理并生成音频数据，从而实现语音识别、文本到语音合成、音乐创作和音频增强。

发行人及型号

尺寸	执照	亮点	Coqui.ai TTS
不适用	MPL 2.0	文本语音合成，多语言支持	ESPnet ESPnet
不适用	阿帕奇2.0	端到端语音处理工具包	Facebook 人工智能 wav2vec 2.0
底座（95M），大号（317M）	阿帕奇2.0	自监督语音识别	拥抱脸部变形金刚（语音模型）
各种各样的	阿帕奇2.0	ASR 和 TTS 模型的集合	洋红色音乐VAE
不适用	阿帕奇2.0	音乐生成和插值	元音乐生成器
不适用	麻省理工学院/CC BY-NC 4.0	根据文本提示生成音乐	元音频生成器
不适用	麻省理工学院/CC BY-NC 4.0	根据文字提示生成音效	元编码器
不适用	麻省理工学院/CC BY-NC 4.0	高品质音频压缩	Mozilla 深度语音
不适用	MPL 2.0	端到端语音转文本引擎	NVIDIA NeMo（语音模型）
各种各样的	阿帕奇2.0	针对 Nvidia GPU 优化的 ASR 和 TTS 模型	OpenAI 自动点唱机
不适用	麻省理工学院	具有流派/艺术家调节的神经音乐生成	OpenAI 耳语
39M转1.6B	麻省理工学院	多语言语音识别和转录	TensorFlow TFLite 语音模型
不适用	阿帕奇2.0	针对移动设备优化的语音识别模型	多式联运模型

多模式模型结合文本、图像、音频和其他数据类型来根据各种输入创建内容。

另外：

人工智能幻觉如何帮助创造救命抗生素这些模型在需要语言、视觉和感官理解的应用中非常有效。

型号名称

参数尺寸	执照	亮点	艾伦人工智能研究所 (AI2) 莫尔莫
1B、70B	阿帕奇2.0	处理文本和视觉输入的多模式 AI 模型，符合 OSAID	元图像绑定
不适用	风俗	集成六种数据类型：文本、图像、音频、深度、热和 IMU。	元无缝M4T
不适用	风俗	提供多语言翻译和转录服务。	元灵 LM
不适用	风俗	结合文本和语音以产生听起来自然的输出。	微软佛罗伦萨-2
0.23B、0.77B	麻省理工学院	熟练处理计算机视觉和语言任务。	英伟达维拉
不适用	风俗	有效处理视觉语言任务。	OpenAI 剪辑
400M	麻省理工学院	擅长文本和图像理解。	Vicuna 团队 MiniGPT-4
13B	阿帕奇2.0	能够理解文本和图像。	检索增强生成 (RAG)

RAG模型

将生成式人工智能与信息检索相结合，使他们能够将广泛数据集中的相关数据合并到他们的响应中。发行人及型号

参数尺寸	执照	亮点	BAAI BGE-M3
不适用	风俗	密集和稀疏检索优化	IBM Granite 3.0系列
3B、8B	风俗	高级检索、摘要、RAG	Nvidia EmbedQA 和 ReRankQA
1B	风俗	多语言 QA、GPU 加速检索	专业型号

专用模型针对特定领域（例如编程、科学研究和医疗保健）进行了优化，提供针对其领域定制的增强功能。

发行人及型号

参数尺寸	执照	亮点	元科德拉玛系列
7B、13B、34B	风俗	代码生成、多语言编程	米斯特拉尔 AI 曼巴-Codestral
7B	阿帕奇2.0	专注于编码和多语言能力	米斯特拉尔 AI Mathstral
7B	阿帕奇2.0	专门从事数学推理	护栏型号

护栏模型通过以下方式确保安全和负责任的输出

发现并减轻偏见、不适当的内容和有害的反应。发行人及型号

参数尺寸	执照	亮点	NVIDIA NeMo 护栏
不适用	阿帕奇2.0	用于添加可编程护栏的开源工具包	Google ShieldGemma
2B、9B、27B	风俗	基于 Gemma 2 构建的安全分类器模型	IBM Granite-Guardian
8B	风俗	检测不道德或有害内容	选择开源模型

生成式人工智能的格局正在迅速发展，开源模型对于让所有人都能使用先进技术至关重要。

这些模型允许定制和协作，打破了限制大公司人工智能开发的障碍。

还：将生成式人工智能实验转化为真正商业价值的 4 种方法

开发者可以通过选择开源Gen AI，为全球社区做出贡献并加速技术进步，根据自己的需求定制解决方案。各种可用模型——从语言和视觉到以安全为中心的设计——确保了几乎所有应用的选择。

支持开源人工智能社区对于促进道德和创新人工智能发展、造福单个项目以及负责任地推进技术至关重要。

关于《最好的开源人工智能模型：所有免费使用选项的解释》的评论

暂无评论

发表评论

摘要

生成式人工智能 (AI) 的前景确实广阔且发展迅速，有多种模型可以满足不同的需求和领域。以下是您提到的类别的概述，以及每个类别的主要亮点：### 语言模型语言模型因其理解和生成类人文本的能力而处于人工智能开发的最前沿。一些值得注意的例子包括：- **Meta LLaMA**：具有高效参数计数的较小模型，针对研究进行了优化。- **Anthropic Claude 2**：以其符合道德准则和用户友好界面而闻名。- **开放助手**：一个开源项目，旨在构建符合人类价值观的人工智能助手。### 视觉模型视觉模型对于涉及图像理解的应用至关重要。主要例子包括：- **DALL·E Mini**：DALL·E 的更小、更易于访问的版本，用于试验文本到图像的生成。- **StabilityAI Stable Diffusion**：以其根据文本提示生成高质量图像的能力而闻名。### 多式联运模型多模态模型集成了各种数据类型（文本、图像、音频），对于需要全面理解的应用程序至关重要：- **Meta ImageBind**：集成六种不同的数据模式，提供独特的多模式学习体验。- **Microsoft Florence**：有效处理计算机视觉和语言任务。### 检索增强生成 (RAG)这些模型将生成式人工智能与信息检索功能相结合：- **IBM Granite 3.0 系列**：检索、摘要和 RAG 技术方面的高级技术。- **Nvidia EmbedQA 和 ReRankQA**：具有 GPU 加速检索功能的多语言 QA。### 专业型号专门的模型是针对特定领域（例如编程和医疗保健）量身定制的：- **Meta Codellama 系列**：专注于代码生成和多语言编程。- **Mistral AI Mamba-Codestral & Mathstral**：分别专注于编码和数学推理。### 护栏模型这些模型侧重于通过检测偏见和有害内容来确保安全和负责任的输出：- **NVIDIA NeMo Guardrails**：用于向 AI 系统添加可编程护栏的开源工具包。- **Google Shield Gemma 2**：基于 Gemma 2 架构构建的安全分类器模型。### 选择开源模型支持开源人工智能社区对于促进道德和创新发展至关重要：- **开放助手项目**：社区驱动的项目，旨在构建符合人类价值观的人工智能助手。- **拥抱脸部变形金刚库**：各种模型的集合，鼓励协作和定制。通过根据您的特定需求（无论是语言理解、图像生成、多模式处理、专业任务还是确保道德输出）选择正确的模型，您可以利用生成式人工智能的力量来增强您的项目，同时为更广泛的创新生态系统做出贡献。

最好的开源人工智能模型：所有免费使用选项的解释

开源模型与专有模型

开源人工智能的定义

LLaMA 和其他不兼容的架构

对组织的影响：OSAID 合规性与不合规性

了解开源 AI 模型中的许可

运行开源人工智能模型的要求

选择正确的型号

语言模型

图像生成模型根据文本提示创建高质量的视觉效果或艺术作品，这使得它们对于内容创建者、设计师和营销人员来说非常宝贵。

视觉模型分析图像和视频，支持对象检测、分割和根据文本提示生成视觉。

音频模型处理并生成音频数据，从而实现语音识别、文本到语音合成、音乐创作和音频增强。

多模式模型结合文本、图像、音频和其他数据类型来根据各种输入创建内容。

RAG模型

专用模型针对特定领域（例如编程、科学研究和医疗保健）进行了优化，提供针对其领域定制的增强功能。

护栏模型通过以下方式确保安全和负责任的输出

关于《最好的开源人工智能模型：所有免费使用选项的解释》的评论

发表评论

摘要

相关新闻

相关讨论