作者:Aaron J. Snoswell
人工智能(AI)先知们以及新闻贩子正在预测生成式人工智能的炒作即将结束,有人谈论即将到来的灾难性的“模型崩溃”。
但这些预测有多大的现实性呢?模型崩溃又是什么意思呢?
讨论了2023但流行起来最近一段时间以来“模型坍塌”指的是一个假设的场景,在这个场景中,由于互联网上人工智能生成的数据增多,未来的AI系统会变得越来越笨拙。
现代的人工智能系统是基于机器学习构建的。程序员设置底层的数学结构,但实际的“智能”来自于训练系统来模仿数据中的模式。
但是不仅仅是任何数据。当前一代生成式AI系统需要的是特定的数据。高质量大量的数据。
为了获取这些数据,像OpenAI、谷歌、Meta和英伟达这样的大型科技公司不断在网络上搜寻,搜集大量的信息和数据。数太字节的内容喂养机器。但自从……出现以来广泛可用和有用的在2022年,人们越来越多地上传和分享由AI全部或部分生成的内容。
2023年,研究人员开始考虑是否可以仅依靠AI生成的数据进行训练,而不使用人类生成的数据。
有巨大的动力来使这件事成功。除了在互联网上广泛传播外,AI生成的内容是便宜得多比人类数据来源的还要少。它也不是伦理上 并且 合法地 可疑的大批收集
然而,研究人员发现,在没有高质量的人类数据的情况下,使用人工智能生成的数据训练的AI系统变得越来越愚蠢就像每个模型从前一个模型学习一样。这像是近亲繁殖的数字版本。
这“反刍训练“似乎导致模型行为的质量和多样性降低。这里的质量大致意味着有用、无害和诚实的结合。多样性指的是回应的变化性,以及人们的文化和社会视角在AI输出中的体现。”
简而言之:通过过度使用人工智能系统,我们可能会污染那些本来需要用来使这些系统有用的宝贵数据来源。
大科技公司不能简单地过滤掉AI生成的内容吗?其实并不能。科技公司已经在清理和过滤他们抓取的数据上花费了大量的时间和金钱,据一位业内人士最近透露,有时他们会丢弃高达90%他们最初收集的数据用于训练模型。
这些努力可能会随着专门删除AI生成内容的需求增加而变得更加艰巨。但更重要的是,从长期来看,区分AI内容将会变得越来越难。这将使得过滤和移除合成数据的游戏收益递减(财务收益减少)。
最终,迄今为止的研究表明,我们根本无法完全摆脱人类数据。毕竟,这是人工智能中“智能”的来源。
开发人员已经开始更努力地寻找高质量的数据。例如,文档伴随GPT-4的发布,项目中涉及数据相关部分的工作人员数量创下了历史新高。
我们也可能快要用完新的人类数据了。一些估计数值说人类生成的文本数据池可能在2026年就被耗尽。
这很可能就是为什么OpenAI和其他公司也是加紧巩固独家合作与行业巨头 such as 例如 Shutterstock, 美联社以及新闻集团他们拥有大量私人的、在公共互联网上无法轻易获取的人类数据集。
然而,关于灾难性模型崩溃的前景可能被夸大了。迄今为止大多数研究都集中在合成数据取代人类数据的情况上。实际上,人类数据和AI生成的数据很可能会并行累积,这减少坍塌的可能性.
最有可能的未来情景将是多种多样的生成式人工智能平台被用来创建和发布内容,而不是一个单一的大模型。这也有助于增强系统的抗崩溃能力。
这是监管机构促进健康竞争的好理由之一限制垄断在人工智能领域,以及提供资金支持公共利益技术开发.
也有过多的人工智能生成内容带来的更微妙的风险。
大量的合成内容可能并不会对人工智能的发展构成生存威胁,但它确实威胁到了人类互联网的数字公共利益。
例如,研究人员发现下降了16%在发布ChatGPT一年后,在编码网站Stack Overflow上的活动。这表明AI辅助可能已经在某些在线社区中减少了人与人之间的互动。
超产量由人工智能驱动的内容农场所产生的内容也使得寻找没有经过人工智能生成的内容变得更加困难。充满广告的点击诱饵.
区分人类生成和人工智能生成的内容正变得越来越不可靠。一种解决方法是为人工智能生成的内容添加水印或标签,就像我和其他许多人之前讨论过的那样。最近强调的,反映在最近澳大利亚政府发布的临时立法.
还有一个风险。随着人工智能生成的内容变得系统性同质化,我们有失去的风险。社会文化多样性而某些人群甚至可能会经历文化抹杀我们迫切需要跨学科研究在社会和文化挑战由AI系统引发的。
人类互动和人类数据很重要,我们应该保护它们。为了我们自身的利益,也可能为了避免未来模型崩溃的潜在风险。