作者:Kyle Wiggers
开源人工智能终于有了“官方”定义。
开源倡议 (OSI)长期运行的机构旨在定义和“管理”所有开源事物,今天发布了其开源人工智能定义 (OSAID) 1.0 版本。OSAID 是与学术界和工业界多年合作的产物,旨在提供一个标准,任何人都可以通过该标准确定人工智能是否开源。
您可能想知道(就像这位记者一样)为什么共识对于开源人工智能的定义很重要。OSI 执行副总裁 Stefano Maffulli 表示,一个很大的动机是让政策制定者和人工智能开发人员达成共识。
“监管机构已经在关注这个领域,”Maffulli 告诉 TechCrunch,并指出欧盟委员会等机构已寻求对开源给予特别认可。– 我们与不同的利益相关者和社区进行了明确的接触,而不仅仅是科技领域的常见嫌疑人。我们甚至试图联系最常与监管机构交谈的组织,以获得他们的早期反馈。”
要在 OSAID 下被视为开源,人工智能模型必须提供有关其设计的足够信息,以便人们可以“基本上”重新创建它。该模型还必须披露有关其训练数据的任何相关细节,包括来源、数据的处理方式以及如何获取或许可数据。
“开源人工智能是一种人工智能模型,可以让你充分理解它是如何构建的,”Maffulli 说。– 这意味着您可以访问所有组件,例如用于训练和数据过滤的完整代码。 –
OSAID 还规定了开发人员应享有的开源 AI 的使用权利,例如可以出于任何目的自由使用该模型并对其进行修改,而无需征求任何人的许可。“最重要的是,你应该能够在此之上进行构建,”Maffulli 补充道。
OSI 没有任何执行机制可言。它不能迫使开发人员遵守或遵循 OSAID。但它确实打算标记被描述为“开源”但不符合定义的模型。
“我们希望,当有人试图滥用这个术语时,人工智能社区会说,“我们不承认这是开源的,”并且它会得到纠正,”Maffulli 说。从历史上看,这产生了好坏参半的结果,但并非完全没有影响。
许多初创公司和大型科技公司(尤其是 Meta)都使用“开源”一词来描述其 AI 模型发布策略,但很少有公司符合 OSAID 的标准。例如,Meta 要求每月活跃用户超过 7 亿的平台需要特殊许可证才能使用其骆驼模型。
马富利已公开批评Meta 决定将其模型称为“开源”。在与 OSI 讨论后,Google 和 Microsoft 同意放弃对未完全开放的模型使用该术语,但 Meta 并未这样做。是的,他说。
Stability AI 长期以来一直将其模型宣传为“开放”,它要求收入超过 100 万美元的企业获得企业许可证。法国人工智能新贵 Mistral 的许可证禁止商业企业使用某些模型和输出。
A 学习去年 8 月,信号基金会、非营利性 AI Now 研究所和卡内基梅隆大学的研究人员发现,许多“开源”模型基本上只是名义上的开源。训练模型所需的数据是保密的,运行模型所需的计算能力超出了许多开发人员的能力范围,并且微调模型的技术极其复杂。
该研究的作者总结道,这些“开源”项目并没有使人工智能民主化,而是倾向于巩固和扩大集权权力。事实上,Meta 的 Llama 模型已经架起来数亿次下载,稳定索赔其模型支持高达 80% 的人工智能生成图像。
毫不奇怪,Meta 不同意这一评估,并对书面的 OSAID 提出质疑(尽管参与了起草过程)。一位发言人为该公司的 Llama 许可证进行了辩护,认为这些条款以及随附的可接受的使用政策可以作为防止有害部署的护栏。
Meta 还表示,它正在采取“谨慎的态度”来共享模型详细信息,包括有关训练数据的详细信息,因为诸如加州培训透明度法发展。
“我们在很多事情上都同意我们的合作伙伴 OSI 的观点,但我们和整个行业的其他人一样,不同意他们的新定义,”该发言人表示。– 没有单一的开源人工智能定义,定义它是一个挑战,因为以前的开源定义不包含当今快速发展的人工智能模型的复杂性。我们免费且公开地提供 Llama,我们的许可和可接受的使用政策通过实施一些限制来帮助确保人们的安全。我们将继续与 OSI 和其他行业组织合作,以负责任的方式让 AI 更易于使用且免费,无论技术定义如何。 –
该发言人指出了其他将“开源”人工智能编纂成法的努力,例如 Linux 基金会的建议定义,自由软件基金会标准对于“免费的机器学习应用程序”,以及提案来自其他人工智能研究人员。
十分不协调的是,Meta 是 OSI 工作的资助公司之一,其他公司还有亚马逊、谷歌、微软、思科、英特尔和 Salesforce 等科技巨头。(OSI 最近获得了非营利性斯隆基金会的资助,以减少对科技行业支持者的依赖。)
Meta 不愿透露训练数据可能与其 — 以及大多数 — 人工智能模型的开发方式有关。
人工智能公司从社交媒体和网站上获取大量图像、音频、视频等,并根据这些通常所说的“公开数据”来训练他们的模型。在当今竞争激烈的市场中,公司组装和完善数据集的方法被认为是一种竞争优势,并且公司 引用这个作为他们不披露的主要原因之一。
但训练数据细节也可以为开发人员描绘一个合法的目标。作者和出版商 宣称Meta 使用受版权保护的书籍进行培训。艺术家们有 提起诉讼反对 Stability 抄袭他们的作品并在没有信用的情况下复制它,他们将这种行为比作盗窃。
不难看出,OSAID 对于试图顺利解决诉讼的公司来说可能会带来问题,特别是如果原告和法官认为该定义足以在法庭上使用的话。
一些人认为这个定义还不够深入,例如在如何处理专有训练数据许可方面。Lightning AI 的首席技术官卢卡·安提加 (Luca Antiga) 指出,模型可以满足 OSAID 的所有要求,尽管用于训练模型的数据并不是免费提供的。如果你必须支付数千美元才能检查模特创作者付费授权的私人图像存储,这是否是“开放的”?
– 为了具有实用价值,特别是对于企业而言,开源人工智能的任何定义都需要对正在获得许可的内容给予合理的信心 能获得组织使用它的方式的许可,”Antiga 告诉 TechCrunch。– 由于忽视了训练数据许可的处理,OSI 留下了一个巨大的漏洞,这将使条款在确定 OSI 许可的人工智能模型是否可以在现实世界中采用时变得不那么有效。 –
在 OSAID 1.0 版本中,OSI 也没有解决与 AI 模型相关的版权问题,以及授予版权许可是否足以确保模型满足开源定义。目前尚不清楚是模型 — 还是模型的组件 —能根据现行知识产权法受版权保护。但如果法院认为可以,OSI建议可能需要新的“法律手段”来正确开源受知识产权保护的模型。
马富利同意该定义需要更新——也许迟早会更新。为此,OSI 成立了一个委员会,负责监督 OSAID 的应用方式,并为未来版本提出修订建议。
“这不是地下室里孤独天才的作品,”他说。“这项工作是与广泛的利益相关者和不同利益群体公开进行的。”
TechCrunch 有一份以人工智能为中心的时事通讯! 在这里注册每周三将其发送到您的收件箱。