到目前为止,当人工智能公司对 YouTube 上宝贵的视频、字幕和其他内容进行训练时,他们都是在未经许可的情况下进行的。一家名为 Calliope Networks 的专注于人工智能的内容许可初创公司希望通过其新的 License to Scrape(一项直接针对 YouTube 明星的计划)来改变这一状况。
人工智能公司对抓取 YouTube 内容有着明显的需求。我们从他们的行动中看到了这一点。Calliope Networks 首席执行官戴夫·戴维斯 (Dave Davis) 表示,“因此,我们正在尝试创建一种工具,让其变得合法且简单”。与 Reddit 等其他大型社交平台不同,YouTube 尚未与人工智能大佬达成协议来抓取其视频。Scrape 许可证的吸引力在于,它通过召集一群创作者并谈判一揽子许可证,避开了公司本身一次性提供大量 YouTube 内容的情况。
戴维斯拥有传统媒体许可方面的背景;他辞去了电影授权公司的工作,创办了 Calliope,并押注人工智能行业最终将摆脱未经许可的抓取,转向以许可为常态。他并不是唯一一个持有这种信念的人。这是人工智能数据许可初创公司的繁荣时期。Calliope Networks 是数据集提供商联盟的创始成员,该联盟是一个贸易组织,要求所有创作者和权利持有者选择进行抓取。
戴维斯希望它的运作方式是这样的:想要获得数据许可的 YouTube 创作者将与 Calliope 签订合同,然后 Calliope 将再许可他们的工作成果,用于训练生成式 AI 基础模型。首先,它需要大量的内容才能使该交易对 AI 玩家具有足够的吸引力,因此该计划需要先让 YouTube 用户加入,然后才能正常启动和运行。Calliope 将从人工智能公司支付的许可费中抽取一定比例。
尽管人工智能世界中还没有这样的东西,但戴维斯模仿了娱乐行业其他部分的抓取许可格式,例如广播音乐公司(BMI)和美国作曲家、作家和出版商协会(ASCAP)),两者都使用音乐的一揽子许可证。戴维斯说,现在还处于招聘过程的早期阶段。他估计 Calliope 需要提供至少 25,000 到 50,000 小时的 YouTube 内容才能得到人工智能行业的重视。这个数量的镜头可能是获得一揽子许可的门槛,这说明了为什么联合起来可能是一些创作者在这个行业中通过人工智能培训赚钱的最佳选择,数量很重要,而且视频生成器是由大量数据提供支持的。
目前还没有任何知名人士支持该许可,但 Calliope 已经起草了一些有影响力的营销机构,例如 Viral Nation 来吸引客户加入。Viral Nations 内容授权主管比安卡·塞拉菲尼 (Bianca Serafini) 表示,我从创作者那里得到了非常好的反馈。她相信公司的大量客户(近 900 名 YouTube 用户)将会参与其中。以前没有人向我们展示过这样的东西。
YouTube 对这一切有何看法?戴维斯尚未直接与该公司合作开展这个项目,但他相信这符合视频巨头的愿望。戴维斯说,我的看法是 YouTube 希望给予创作者更多的控制权。
虽然 YouTube 不会对特定的许可公司发表评论,但它确实支持用户达成自己的协议。YouTube 发言人 Jack Malon 表示,一般来说,创作者可以就他们在我们平台上的内容与第三方公司达成交易。他指出,该公司最近发表了一篇博文,强调其意图让 YouTube 用户在人工智能时代拥有更多控制权。对于 YouTube 而言,最重要的是授权或获得明确许可:YouTube 的服务条款禁止未经授权访问创作者内容,我们将继续采取措施确保第三方尊重这些条款。
License to Scrape 计划是否成功不仅仅取决于能否吸引大牌 YouTube 主播。人工智能公司需要对基础培训方式进行重大转变。美国法院审理了 30 多起涉及未经许可的数据抓取的版权案件,这种类型的转变最终可能会受到法律强制。然而,由于文本到视频生成工具通常需要大量高质量数据才能正常工作,因此寻找更多所述数据源可能需要采取不同的方法。
不过,在此之前,还不清楚人工智能巨头是否计划停止从 YouTube 等网站抓取他们所谓的公开数据。(当他们确实达成包括基础模型训练的协议时,例如专注于视频的人工智能初创公司 Runway 与电影制片厂 Lionsgate 签署协议,所涉及的数据通常不会公开。)他们与平台和发行商达成的大多数交易都集中在为 SearchGPT 等人工智能搜索产品提供内容,而不是基础模型训练。最近,在收到来自英国热门育儿论坛 Mumsnet 的法律威胁后,OpenAI 告诉《连线》,它主要对未公开提供的大型数据集的许可感兴趣。
与此同时,该项目的支持者认为是时候继续前进,而不是等待人工智能公司表示兴趣。塞拉菲尼说,我们必须抢先一步。