Facebook父母 - 汤塔(Facebook Parent-Company Meta)目前正在抗议一项集体诉讼,指控其侵犯版权和不公平的竞争,以及其他竞争方式,涉及其训练骆驼的方式。根据X(以前为Twitter)帖子vx-underground,法院记录显示,这家社交媒体公司使用盗版的洪流从阴影库中下载81.7TB的数据,包括Anna的档案,Z-Library和Libgen。然后,它使用此信息来训练其AI模型。
以书面交流的形式证据表明,研究人员对梅塔使用盗版材料的关注。一位高级AI研究员早在2022年10月说,我认为我们应该使用盗版材料。我真的需要在这里画一条线。虽然另一位说,使用盗版材料应该超出我们的道德阈值,然后他们补充说,scihub,researchgate,Libgen基本上像Piratebay或这样的东西,他们正在分发受版权保护的内容,并侵犯它。
然后,在2023年1月,马克·扎克伯格(Mark Zuckerberg)本人参加了一次会议,他说:“我们需要向前推进这些东西...我们需要找到一种解开所有这些的方法。大约三个月后,一个meta员工向另一个人发送了一条消息,说他们担心用海盗内容加载的元IP地址。然后大声笑出表情符号。
除了这些消息外,文件还显示,该公司采取了步骤,因此在这些下载和种子操作中不使用其基础架构,因此该活动不会追溯到Meta。法院文件显示,这构成了元非法活动的证据,这似乎采取了故意的步骤来规避版权法。
但是,这不是第一次被指控AI培训模型从互联网上窃取信息。Openai已被小说家起诉早在2023年6月,他使用书籍来培训其大型语言模型,纽约时报在十二月诉讼之后。Nvidia也一直在接受作家提起的诉讼的末端使用196,640本书来训练其NEMO模型,此后已被删除。去年8月,一名前NVIDIA员工在公司上吹口哨,说每天刮擦超过4.26千小时的视频用于AI培训。最近,Openai正在调查DeepSeek是否非法从Chatgpt获得数据,这仅显示了讽刺性的能力。
针对META的案件仍在进行中,因此我们将不得不等到法院释放其决定,以说该公司是否施加直接侵权。即使作者赢得了此案,梅塔(Meta)以其巨大的金融战争箱可能会提出决定,这意味着我们将不得不等待几个月(即使不是几年)才能看到最终的法院判决。