OC

Knowledge OS
鹦鹉螺口语
微软删除了告诉用户在盗版哈利波特书籍上训练人工智能的博客
2026-02-20 12:11:28 · 英文原文

微软删除了告诉用户在盗版哈利波特书籍上训练人工智能的博客

魔法世界的AI斜坡

现已删除的《哈利·波特》数据集被“错误地”标记为公共领域。

继强烈反对之后黑客新闻主题,微软删除了一篇博文,批评者称该博文鼓励开发人员盗版《哈利·波特》书籍来训练人工智能模型,然后使用这些模型来创建人工智能垃圾。

博客已存档这里,由高级产品经理 Pooja Kamath 于 2024 年 11 月撰写。根据她的 LinkedIn 信息,卡马斯已经在微软工作了十多年,并且仍然留在公司。2024 年,微软聘请她推广一项新功能,该博客称该功能可以更轻松地“使用 Azure SQL DB、LangChain 和 LLM,只需几行代码即可将生成式 AI 功能添加到您自己的应用程序中。”

该博客称,还有什么比“使用哈利·波特书籍等知名数据集”更好的方式来展示微软新功能的“引人入胜且相关的例子”,从而“引起广大受众的共鸣”。

该博客指出,这些书是“文学史上最著名、最受珍视的系列之一”,粉丝们可以通过两种有趣的方式使用他们培训的法学硕士:构建问答系统,提供“上下文丰富的答案”,并生成“新的人工智能驱动的哈利·波特同人小说”,这“一定会让波特迷们高兴”。

为了帮助 Microsoft 客户实现这一愿景,该博客链接到了一个 Kaggle 数据集,其中包括所有七本《哈利·波特》书籍,经 Ars 验证,该数据集已在网上提供多年,并被错误地标记为“公共领域”。条款据称,版权所有者可以发送侵权内容通知,屡犯者将面临被暂停的风险,但 Hacker News 评论者推测,哈利·波特数据集并未受到关注,随着时间的推移,下载量仅为 10,000 次,并未引起 J.K. 的注意。罗琳以牢牢掌握《哈利·波特》的版权而闻名。周四,Ars 联系了上传者 Shubham Maindola(一位与微软没有明显联系的印度数据科学家)后,该数据集立即被删除。

Maindola 告诉 Ars,“数据集被错误地标记为公共领域”。无意歪曲作品的许可状态。”

目前尚不清楚卡马斯是否被指示在博客中链接到哈利波特图书数据集,或者是否是个人选择。芝加哥肯特法学院知识产权法项目联合主任、法学教授 Cathay Y. N. Smith 告诉 Ars,卡马斯可能没有意识到这些书太新了,无法进入公共领域。

“有人可能真正了解书籍和技术,但不一定了解版权条款及其持续时间,”史密斯说。“尤其是当她发现某物被另一家信誉良好的公司标记为公共领域时。”

微软拒绝了 Ars 的置评请求。Kaggle 没有回应 Ars 的置评请求。

微软撤下博客“可能很聪明”

在《黑客新闻》上,评论者表示,熟悉这本热门系列的人不太可能相信《哈利·波特》系列书籍属于公共领域。他们争论微软的博客是否“存在版权问题”,因为微软不仅鼓励客户下载侵权材料,还利用这些书籍本身创建哈利·波特人工智能模型,这些模型依靠深受喜爱的角色来宣传微软的产品。

微软的博客发布于一年多前,当时人工智能公司开始面临有关人工智能模型的诉讼,据称这些模型通过使用盗版材料进行培训和逐字反驳作品而侵犯了版权。

该博客建议用户通过下载哈利波特数据集然后将文本文件上传到 Azure Blob 存储来学习训练自己的 AI 模型。它包括基于 Microsoft 似乎上传到 Azure Blob Storage 的数据集的示例模型,其中仅包括第一本书,哈利·波特与魔法石

通过在文本文件上训练大型语言模型 (LLM),《哈利·波特》粉丝可以创建能够提取相关书籍摘录的问答系统。提供的示例查询是“Wizarding World小吃”,它检索了来自的摘录魔法石哈利对伯蒂·博塔的百味豆和巧克力青蛙等奇怪的食物感到惊叹不已。另一个提示询问“哈利第一次得知自己是巫师时感觉如何?”生成的输出指向书中的各种早期摘录。

但卡马斯建议,也许一个更令人兴奋的用例是生成同人小说,以“探索新的冒险”,甚至创造替代的结局。该模型可以快速梳理数据集,寻找“上下文相似”的摘录,这些摘录可用于输出与现有叙述相符的新鲜故事,并纳入“检索到的元素”。段落,”博客说。

举个例子,卡马斯训练了一个模型来写一个哈利·波特故事,她可以用它来推销她在博客中介绍的功能。她要求模型写一个故事,故事中哈利在霍格沃茨特快列车上遇到了一位新朋友,他向他讲述了有关 Microsoft 在 SQL 中的原生矢量支持(在麻瓜世界)的一切。

部分绘图魔法石在哈利了解魁地奇并结识赫敏格兰杰的过程中,同人小说中一个男孩向哈利兜售微软“令人惊叹”的新功能。为了做到这一点,他将其比作一个咒语,可以帮助您立即从数千个选项中准确找到您需要的东西,同时宣称它非常适合机器学习、人工智能和推荐系统。

卡马斯还生成了一张显示哈利和他的新朋友的图像,上面印有微软的标志,这进一步模糊了微软和哈利波特品牌之间的界限。

史密斯告诉 Ars,这两种用例都可能会让权利持有者感到沮丧,具体取决于模型输出的内容。

“我认为同人小说的反流和创作都可能标志着版权问题,因为同人小说通常必须取材于表达元素、受版权保护的角色、足够出名、受版权法或情节故事或序列保护的角色,”史密斯说。– 如果这些内容被复制和复制,那么该输出可能会侵权。 –

但这仍然是一个灰色地带。史密斯看着博客说,“我会担心,”但是“我不会说这是自动侵权。”

史密斯告诉 Ars,微软撤下该博客“可能很聪明”,因为法院只是普遍认为在受版权保护的书籍上训练人工智能属于合理使用。但法院仍在继续调查有关盗版人工智能培训材料的问题。

在删除的 Kaggle 数据集页面上,Maindola 之前解释说,为了获取数据,他“下载了电子书,然后将它们转换为 txt 文件。”

微软可能侵犯版权

史密斯说,如果微软曾经面临过该公司是否故意使用盗版书籍来训练示例模型的问题,那么合理使用“可能是一个困难的论点”。

黑客新闻评论者认为该博客可以被视为合理使用,因为培训指南是出于“教育目的”,史密斯表示微软可以提出一些“好的论据”来为其辩护。

不过,她还表示,在博客关闭一年后,微软可能会被视为在某种程度上承担侵权责任。在被删除之前,Kaggle 数据集的下载次数已超过 10,000 次。

“最终的结果是通过说“嘿,给你,抓住那些侵权的东西并在我们的系统中使用它”来创造侵权的东西,”史密斯说。“他们可能对版权侵权承担某种次要责任,下载它,然后使用它来鼓励其他人将其用于培训目的。”

在 Hacker News 上,评论者猛烈抨击了该博客,其中包括一位自称是前微软员工的人,他声称微软允许员工“无需经过某些批准或编辑过程即可发布博客”。

“看起来有人对在公司博客文章中添加什么内容(也许什么构成道德活动)做出了错误的判断,并且在有人注意到后立即将其删除,”这位前员工说。

其他人则认为责任完全在于 Kaggle 上传者 Maindola,他告诉 Ars,该数据集永远不应该被标记为“公共领域”。但微软的批评者反驳道,他们指出 Kaggle 页面明确表示没有授予任何特殊许可,微软的员工应该更清楚这一点。“他们不需要知道任何细节就知道这些财产属于大公司,并且不是可以免费拿走的,”一位评论者说。

该帖子指出,《哈利·波特》书籍并不是唯一的目标书籍,链接到一个单独的 Azure样品包含艾萨克·阿西莫夫的基金会系列,该系列也不属于公共领域。

“微软可以在他们的博客中使用任何数据集,他们甚至可以选择使用实际的公共领域小说,”另一位《黑客新闻》评论者写道。— 相反,他们选择使用 J.K.尚未发布到公共领域(除非用户“Shubham Maindola”是 J.K. 的另一个自我)。

史密斯表示,微软本可以通过更仔细地审查博客来避免本周的强烈反对,并指出“如果一家公司规避风险,这可能会被标记出来。”但她也理解卡马斯对哈利·波特的偏爱,而不是公共领域中存在的许多长期被遗忘的角色。在《黑客新闻》上,一些评论者为卡马斯的博客辩护,敦促其应被视为合理使用,因为非营利组织和教育机构可以在教学环境中毫无问题地做同样的事情。

“如果我是为微软清除此事的人,我会很担心,但与此同时,我完全理解这名员工在做什么,”史密斯说。“没有人愿意写有关公共领域书籍的同人小说。”

Photo of Ashley Belanger

阿什利 (Ashley) 是 Ars Technica 的高级政策记者,致力于追踪新兴政策和新技术的社会影响。她是一位拥有 20 年经验的芝加哥记者。

关于《微软删除了告诉用户在盗版哈利波特书籍上训练人工智能的博客》的评论

暂无评论

发表评论

摘要

微软因鼓励开发者使用盗版《哈利·波特》书籍训练人工智能模型而受到批评后,删除了一篇博文。现在已删除的数据集在 Kaggle 上被错误地标记为公共域,Microsoft 于 2024 年 11 月链接了该数据集,以展示将生成式 AI 功能与 Azure SQL DB 和 LLM 集成的轻松性。批评者认为这侵犯了版权并可能导致侵权。法律专家表示,虽然合理使用的论点可能适用,但将博客保留一年会引发责任担忧。该事件凸显了有关人工智能培训材料版权问题的持续争论。