根据新的 OSI 定义,开源 AI 必须公开其训练数据

2024-10-28 21:35:15 英文原文

发布了“开放”人工智能的官方定义,为与 Meta 等模型不符合规则的科技巨头发生冲突奠定了基础。OSI 长期以来一直为开源软件的构成制定了行业标准,但人工智能系统包含传统许可证未涵盖的元素,例如模型训练数据。

现在,要使人工智能系统被视为真正的开源,它必须提供:

  • 访问用于训练人工智能的数据的详细信息,以便其他人可以理解并重新创建它
  • 用于构建和运行人工智能的完整代码
  • 训练中的设置和权重,有助于人工智能产生结果

这一定义直接挑战了 Meta 的 Llama,后者被广泛宣传为最大的开源人工智能模型。Llama 可供公开下载和使用,但对商业用途有限制(对于应用程序拥有超过7亿用户)并且不提供对训练数据的访问,导致其不符合 OSI 无限制自由使用、修改和共享的标准。

Meta 发言人 Faith Eischen 表示边缘虽然“我们在很多事情上与我们的合作伙伴 OSI 意见一致”,但该公司不同意这个定义。– 没有单一的开源人工智能定义,定义它是一个挑战,因为以前的开源定义不包含当今快速发展的人工智能模型的复杂性。 –

“无论技术定义如何,我们将继续与 OSI 和其他行业组织合作,负责任地让 AI 更易于使用且免费,”Eischen 补充道。

25 年来,OSI 对开源软件的定义已被那些希望在彼此的工作成果上进行构建而不必担心诉讼或许可陷阱的开发人员广泛接受。现在,随着人工智能重塑格局,科技巨头面临着一个关键选择:接受这些既定原则还是拒绝它们。Linux 基金会还最近做了一次尝试定义“开源人工智能”,标志着关于传统开源价值观如何适应人工智能时代的争论日益激烈。

“既然我们已经有了一个强有力的定义,也许我们可以更积极地抵制那些‘公开清洗’并宣称他们的工作实际上不是开源的公司,”Simon Willison,一位独立研究员和开源多工具 Datasette 的创建者告诉我们边缘

Hugging Face 首席执行官克莱门特·德兰格 (Clément Delangue) 称 OSI 的定义“对于围绕人工智能开放性展开对话有巨大帮助,尤其是在涉及训练数据的关键作用时。”

OSI 执行董事 Stefano Maffulli 表示,该公司花了两年时间咨询全球专家,通过协作流程完善了这一定义。这涉及与机器学习和自然语言处理学术界的专家、哲学家、知识共享世界的内容创作者等合作。

虽然 Meta 出于安全考虑限制对其训练数据的访问,但批评者看到了一个更简单的动机:最大限度地减少其法律责任并维护其竞争优势。许多人工智能模型几乎肯定是在受版权保护的材料上进行训练的;四月,纽约时报 报道Meta 内部承认其训练数据中存在受版权保护的内容——因为我们没有办法不收集这些内容。——针对 Meta、OpenAI、Perplexity、Anthropic 和其他公司涉嫌侵权的诉讼一连串。但除了极少数例外情况(例如公开其训练数据的稳定扩散),原告目前必须依靠间接证据来证明他们的工作已被抄袭。

与此同时,Maffulli 看到开源历史正在重演。Maffulli 表示,“Meta 提出了与 20 世纪 90 年代微软相同的论点,当时微软将开源视为对其商业模式的威胁”边缘。他记得 Meta 告诉他对 Llama 的大量投资,并问他“你认为谁能够做同样的事情?”Maffulli 看到了一个熟悉的模式:一家科技巨头利用成本和复杂性来证明其合理性锁定其技术。“我们回到了早期,”他说。

“这就是他们的秘密武器,”马富利谈到训练数据时说道。– 这是有价值的知识产权。 –

关于《根据新的 OSI 定义,开源 AI 必须公开其训练数据》的评论


暂无评论

发表评论

摘要

开源倡议 (OSI) 发布了开放人工智能的官方定义,要求访问训练数据、完整代码和训练设置/权重。这对 Meta 的 Llama 模型提出了挑战,该模型的训练数据缺乏完全透明度,并限制商业使用,达不到 OSI 的新标准。Meta 对 OSI 的定义提出异议,指出人工智能模型涉及的复杂性,而 OSI 则强调遵守开源原则的重要性。这场辩论凸显了对法律责任和竞争优势的担忧,随着人工智能重塑行业格局,科技巨头面临着接受还是拒绝既定开源价值观的选择。开源倡议 (OSI) 已