英语轻松读发新版了,欢迎下载、更新

Chatgpt永远污染了世界,就像第一个原子炸弹一样

2025-06-15 10:32:00 英文原文

特征对于人工智能研究人员而言,2022年11月30日Openai的Chatgpt推出,以类似于第一个原子弹的爆炸方式改变了世界。

三位一体测试,1945年7月16日在新墨西哥州,标志着原子时代的开始。那一刻的一种表现是在该日期之后生产的金属的污染,因为从三位一体剩下的空中颗粒物和其他核武器渗透到了环境中。

每个参与生成AI的人都在污染每个人的数据供应

中毒金属干扰了敏感的医疗和技术设备的功能。所以直到最近,参与这些设备生产的科学家寻求未经背景辐射污染的金属,被称为低背景钢,低背景线, 等等。

低背景钢的一种来源是德国海军舰队,海军上将路德维希·冯·鲁特破裂1919年,将船只留在英国。

稍后会有更多信息。

在Chatgpt首次亮相后不久,学者和技术人员开始怀疑AI模型中最近的爆炸是否也造成了污染。

他们关注的是,正在使用AI模型创建的合成数据培训AI模型。因此,随后的AI模型的后代可能变得越来越少,一种称为AI模型崩溃的状态。

2023年3月,当时的Cloudflare首席技术官John Graham-Cumming,现在是董事会成员,注册了Web域名lowbackgroundsteel.ai并开始在2022 AI爆炸之前发布有关各种数据源的发布,例如北极代码库(从02/02/2020的GitHub存储库快照)。

寄存器问格雷厄姆·卡姆(Graham-Cumming),他是否想到了低背钢的类比,但他说他不记得。

他通过电子邮件回答:“我从阅读它上读到了低背景钢。”“而且我在2000年代初完成了一些机器学习操作,以用于[自动电子邮件分类工具]popfile。这是一个类比,刚刚突然出现在我的脑海中,我喜欢一个已知的人类创建的东西的存储库的想法。因此,网站。”

崩溃是真正的危机吗?

Graham-Cumming肯定不是污染的AI Copsuses是一个问题。

他问:“有趣的问题是'这重要吗?'”

一些人工智能研究人员认为确实如此,并且AI模型崩溃了。Chatgpt首次亮相后的那一年一些 学术的 文件探索了模型崩溃的潜在后果或模型自噬障碍(疯狂),正如一组作者所说的那样。寄存器 采访这些论文的作者之一伊莉亚·舒马洛夫(Ilia Shumailov)于2024年初。

尽管AI从业者认为模型崩溃了可以缓解,这是真的的程度仍然是持续辩论的问题

就在上周,苹果研究人员通过分析大型推理模型中的模型崩溃(例如Openai的O1/O3,DeepSeek-R1,Claude 3.7十四行诗和双子座思考),只有要挑战他们的结论在AI Model Claude Opus的帮助下,由公开慈善事业的高级计划助理Alex Laveen撰写。

从本质上讲,农业人士认为,苹果的推理评估测试发现推理模型在一定程度的复杂性上失败了,因此存在缺陷,因为它们迫使模型撰写的令牌比他们所能容纳的更多。

2024年12月,学者隶属于几所大学,重申了对模型崩溃的担忧标题为“获得人为培训的人类生成数据和其他基本输入的法律方面”。

他们争辩说,世界需要清洁数据的来源,类似于低背景钢,以维持AI模型的功能并保持竞争。

“我经常说,世界上对核医学的最大贡献是德国海军上将,他于1919年对舰队进行了扫描,”剑桥大学研究中心的研究助理莫里斯·乔多(Maurice Chiodo寄存器。“因为这使我们能够拥有这种几乎无限的低背景钢的供应。如果不是这样,我们就会被困。

“因此,类比在这里起作用,因为您需要在特定日期之前发生的事情。现在,日期更加灵活,可以说2022年。但是,如果您要在2022年之前收集数据,那么您会相当有信心它的污染物(如果有的话)受到生成ai的污染。

Chiodo和他的合着者John Burden,Henning Grosse Ruse-Khan,Lisa Markschies,DennisMã¼ller,SeounthounthounthounthounthounthountuntuntunthâhâhâhâigeArtaigh,Rupprecht Podszun和Herbert Zech的担忧并不是要为自己的产品提供的竞争能力,但要付出了不错的竞争能力,但是可以访问自己的产品。参赛者。

随着AI模型制造商每天都在越来越多地发出生成的AI数据,AI初创公司将很难获取高质量的培训数据,从而产生锁定效果,从而使他们的模型更容易崩溃并增强了优势参与者的力量。无论如何,这就是他们的理论。

您可以构建一个非常可用的模型。您可以建立一个无用的模型,说明真相

Chioodo说:“因此,这不仅涉及信息的认知安全性,而且我们看到的是真实的,而且是建立生成型AI,一个大型模型所需的,因此它会产生可理解的输出,并且以某种方式可用。”“您可以构建一个非常可用的模型。您可以构建一个毫无用处的模型,说明真相。”

Heinrich Heine Universitydã¼sSseldorf的民事和竞争法教授Rupprecht Podszun兼共同作者说:“如果您查看您的电子邮件数据或人类通信数据,哪些是真正的数据 - 实际上是由人类的人类键入的数据,并且对他们的交流风格进行了反思,而不是在聊天的方式中进行宣传。

Podszun说,内容的准确性比实际人类互动期间思想的样式和创造力小。

Chiodo说,参与生成AI的每个人都在为每个人污染数据供应,即关注甚至当前的模型制造商。

清洁AI污染

那么我们如何清理AI环境呢?

Chiodo承认:“就政策建议而言,这很困难。”“我们首先提出诸如强迫标记AI内容之类的东西,但即使如此艰难,因为很难标记文本,并且很容易清理水印。”

Chiodo补充说,当涉及不同的司法管辖区时,将图片和视频的标签变得复杂。他说:“任何人都可以在Internet上的任何地方部署数据,因此由于数据的刮擦,很难强迫所有操作的LLM始终为其拥有的水印输出。”

本文讨论了其他政策选择,例如促进联合学习,持有未经污染数据的人可能会允许第三方训练该数据而无需直接提供数据。这个想法是限制那些访问未经补充数据集的人的竞争优势,因此我们不会最终获得AI模型垄断。

但是,正如Chiodo所指出的那样,拥有集中式政府维护未经污染的数据的储存还有其他风险。

他说:“您对这些大量数据有隐私和安全风险,因此您保留什么,不保留什么,如何谨慎对待自己的保留,如何确保其安全,如何保持政治上的稳定。”“您可能会把它交给一些今天还可以的政府,但明天不是。”

Podszun认为,管理未污染数据的竞争可以帮助减轻风险。他说:“这显然是反对政治影响力,反对技术错误,反对商业集中的堡垒。”

我们正在通过模型崩溃确定的问题是,这个问题将影响AI本身的发展

Chiodo说:“我们正在通过模型崩溃确定的问题是,这个问题将影响AI本身的发展。”如果政府关心AI,大型服务模型的长期良好,富有成效,竞争性的发展,那么它应该非常关心模型崩溃以及制定护栏,法规,指南数据集将发生的事情,我们如何使一些数据集保持清洁,我们如何授予数据访问,我们可能会授予数据访问。”

在美国,政府对AI的监管不多。英国也在追求轻型监管制度因为担心落后于竞争对手。欧洲,与AI行为,似乎更愿意制定一些基本规则。

Podszun说:“目前,我们正处于监管的第一阶段,因为我们认为我们必须是创新的,因为我们认为我们必须有所了解。”“这对于我们提出的任何创新都是非常典型的。

但是他希望监管机构将变得更加活跃,以防止重复不采取行动,从而使一些平台能够主导数字世界。他说,数字革命的教训是不要等到为时已晚,市场已经集中。

Chiodo说:“我们的关注,以及为什么我们现在提出的原因是,存在相当多的不可逆性。如果您完全污染了所有数据集,所有数据环境,并且会有几个数据集,那么如果它们完全污染,那么很难撤消。

“现在,尚不清楚模型崩溃在多大程度上是一个问题,但是如果这是一个问题,并且我们已经污染了此数据环境,那么清洁将非常昂贵,可能是不可能的。”®

关于《Chatgpt永远污染了世界,就像第一个原子炸弹一样》的评论


暂无评论

发表评论

摘要

2022年11月,OpenAI的Chatgpt推出标志着AI景观的重大转变,引起了人们对用于培训随后的AI模型的数据集的污染的担忧。这种现象比作核试验后的放射性污染,构成了模型崩溃和新AI系统可靠性降低的风险。研究人员倡导访问未经污染的2022年前数据(称为“低背景钢”),以确保可靠的模型开发并维持AI行业的竞争。由于对隐私,安全和地缘政治稳定的担忧,决策者在规范此问题方面面临挑战。数据集污染的潜在不可逆性突出了积极措施的紧迫性,以防止AI模型培训和部署中的未来问题。