该公司悄悄向人工智能开发者提供付费文章
2025-11-04 12:00:00
Common Crawl Foundation 是一家总部位于硅谷的非营利组织,在过去十年中一直在抓取数十亿个网页,以创建可供研究的广泛互联网档案。然而,这些数据现在被 OpenAI 和 Google 等主要人工智能公司用来训练语言模型,而没有得到出版商的适当同意。尽管声称他们只抓取免费内容,Common Crawl 也一直在收集付费文章。要求 Common Crawl 删除其内容的出版商报告部分合规或不合规。该基金会的执行董事 Rich Skrenta 认为,人工智能模型应该能够自由访问所有互联网数据,无视版权问题和出版商的删除要求。这种做法在人工智能行业和新闻出版商中引起了重大争议。