溺水溺水 - 纽约杂志

2024-09-25 09:00:34 英文原文

Slop 于 2022 年底开始渗透到尼尔·克拉克 (Neil Clarke) 的生活中。《克拉克世界》(Clarkesworld) 发生了一些奇怪的事情,克拉克于 2006 年创办了这本杂志,并已成为推理小说世界的支柱。他最近告诉我,提交的内容正在迅速增加,但其中有些不对劲。他总结了一个典型的例子:通常,它以“2250年左右”开头,然后说地球环境正在崩溃,只有三位科学家可以拯救我们。然后它非常详细地描述了它们,每一个都有自己的段落。然后他们就解决了!你知道,它跳过了一个主要的情节元素,最后的场景是庆祝《星球大战》的结局。克拉克说,他收到了几十个不同版本的此类故事。

这些是现在所谓的垃圾邮件的主要例子:一个艺术术语,类似于垃圾邮件,指的是由垃圾邮件产生的低租金、诈骗性垃圾。人工智能在互联网及其他领域日益流行。从他们怪异的叙事本能和惰性的散文中,克拉克意识到这些故事直接来自 ChatGPT。有时,他们会附带原始提示,这通常就像写一个 1,000 字的科幻故事一样简单。

识别人工智能生成的提交内容相对容易,但这需要阅读数千字(噪音墙)并手动对它们进行排序。克拉克将这个问题比作关闭垃圾邮件过滤器并尝试阅读您的电子邮件:好的,现在将其乘以十,因为这就是我们得到的比率。几周之内,问题就变得难以控制。克拉克告诉我,我们已经达到了这样的程度:我们有望收到与合法提交一样多的生成提交。最终,2月20日,他做出了暂时停止提交的决定。Clarkesworld 已成为 AI 溢出的第一批受害者之一。

在此后的近两年里,不断上涨的溢出浪潮已经开始淹没我们所认为的互联网的大部分内容,淹没了最大的平台。廉价的假货和胡言乱语,似乎用奇怪的人工智能垃圾挤出了人类的创造力和意图。在 Facebook 上,神秘的页面发布了残害儿童和外星人耶稣的令人不安的图像;在 Twitter 上,成千上万的机器人聚集在一起,互相支持地发布语无伦次的陈词滥调;在 Spotify 上,由极其相似且完全虚构的乡村音乐和电子艺术家组成的网络充斥着奇异而毫无生气的歌曲的播放列表;在 Kindle 上,带有生硬且错误百出的标题的劣质书籍(《着迷的探索:学生纠正错误的危险之旅》)在闲置的锁定屏幕上刊登广告,并配有平淡而诡异的插图。

如果这一切只是一个小小的更有效的垃圾邮件形式,分散注意力并欺骗沉迷于 Facebook 的祖父母,那是一回事。但这种浪潮威胁到了网络的一些关键功能,用无意义的内容堵塞了搜索结果,压垮了克拉克斯世界这样的小型机构,并普遍污染了互联网本已脆弱的信息生态系统。上周,在线跟踪词频数据库 WordFreq 的创建者 Robyn Speer 宣布,由于大量的垃圾内容,她将不再更新该数据库。斯佩尔写道,我认为没有人掌握有关 2021 年后人类语言使用情况的可靠信息。人们担心,随着垃圾的出现,基于互联网文本训练的大型语言模型(LLM)将崩溃,变得无效,垃圾进,垃圾出。但即使这个恐怖故事也是一种一厢情愿的想法:最近的研究表明,只要 LLM 训练语料库包含至少 10% 的非合成(即人类输出),它就可以永远继续产生废液。

比它在互联网上造成的破坏更糟糕的是,slop 很容易逃脱计算机的限制,并以令人恼火、麻烦和危险的方式进入屏幕外的系统。六月,研究人员发表了一项研究,得出的结论是,他们检查的学术论文中有十分之一是由大语言模型处理的,这不仅对那些个别论文提出了质疑,而且对科学知识所依赖的整个引用和参考网络提出了质疑。宾夕法尼亚州公共图书馆系统的编目员德里克·沙利文 (Derek Sullivan) 告诉我,人工智能生成的书籍已经开始定期出现在他的办公桌上。尽管他第一次注意到这个问题要归功于一位不存在的作者写的一本食谱书,其中有一个膳食计划,告诉你午餐直接吃马里纳拉酱,但他看到的那些杂七杂八的书经常涵盖一些非常重要的主题,比如患有纤维肌痛或抚养患有多动症的孩子。在最糟糕的未来版本中,你的当地图书馆不堪重负且资金不足,一半充满了这些未经检查、未经审查、未经编辑的人工智能生成的文物,分发幻觉的事实和不人道的建议,只有通过不断的努力才能与人类创作的竞争对手区分开来。

幸运的是,克拉克斯世界只是因洪水泛滥而暂时瘫痪。2023 年 3 月,在志愿者的帮助下,克拉克建立了一个非常基本的垃圾邮件过滤器,到月底该杂志能够重新开放投稿。克拉克不愿描述过滤器的工作原理,因为担心向垃圾邮件发送者泄露太多信息,但他说,它可以阻止事情的发生。不过,他在一篇描述该问题的博客文章中写道,很明显,一切照旧不会持续下去。如果该领域无法找到解决这种情况的方法,事情就会开始崩溃。

信息高速公路:这就是互联网应有的样子。虽然很难将我们现在所拥有的互联网视为集体智慧的完全有益的进步,但连接数十亿人所提供的商业机会与一些网络先驱的公民愿望格格不入,但很难否认信息高速公路,一些收费站、广告牌和坑洼,或多或少都是我们所拥有的。它仍然是我们大多数人回答问题、了解正在发生的事情以及学习新事物的第一个地方。

自从消费级生成人工智能广泛出现以来,这些任务变得越来越困难。现在通过谷歌回答问题需要与一些搜索页面顶部人工智能编写的概述模块进行竞争,这些模块提供了不正确的摘要非洲 54 个公认的国家没有一个以字母 K 开头,一个概述声称经常足以使它们不值得信任。现在,尝试在线阅读新闻很可能会消耗未经编辑的人工智能生成的流言蜚语:CNET、BuzzFeed、《今日美国》和《体育画报》都发表了生硬且常常不正确的人工智能生成的文章,或使用了虚假的图像和作者传记。/p>

想象一下,您正在寻找食物,并想要将一份指南下载到您的 Kindle 上,以区分可食用蘑菇和有毒蘑菇。如果您查看亚马逊,您会发现一些明显合法的书籍。但在搜索结果的早期,您还会发现一些看似人工智能生成的指南,例如 Diane Wells 的《Foragers Harvest 101:识别、保存和准备野生食用植物、蘑菇、浆果和水果的综合指南》。纽约真菌学会秘书 Elan Trybuch 最近写了一篇博文,警告蘑菇采集者注意这些危险的不充分指南:《Foragers Harvest 101》可能完全准确且可以安全使用,但几乎可以肯定它未经审查和检查,并且由正如 Trybuch 所描述的技术那样,人工智能不知道有毒蘑菇与无毒蘑菇之间的细微差别。

区分人工智能生成的指南和无毒蘑菇之间的区别并不是特别容易。那些是专家写的。《Foragers Harvest 101》的封面设计清晰易懂(如果廉价的话),散文清晰易读(如果流畅无声),作者传记上有一张微笑的中年妇女的照片。这是一个完全由人工智能生成的对象、一本自行出版的小册子,还是一本来自最近削减了营销和编辑预算的出版社的书?事实上,我可以放心地说它是人工智能生成的,只是因为黛安丝作者照片上的水印将其归功于为假肖像网站 ThisPersonDoesNotExist.com 提供支持的人工智能。

像这样盯着一堆书的经历由人工智能撰写、计算机生成的作者照片以及机器人撰写和发布的数十条评论,对许多人来说已经成为死亡互联网理论的证据,这是唯一有点半开玩笑的想法,其灵感来自于越来越多的虚假、可疑的内容,以及简单的奇怪内容,人类在网上只是极少数,而互联网的大部分内容是由人工智能机器人创建的,为机器人追随者创建机器人内容,这些机器人追随者与其他机器人发表评论和争论。泔水的兴起恰如其分地呈现出一部优秀的科幻小说的形象:不知从何而来的神秘噪音波,半相干计算机的外星人入侵,从某个巨大的电子世界中发出类似人类的声音。

<但认为人工智能已经悄然排挤人类的想法并不完全正确。污水需要人工干预,否则就不会存在。在机器生成的大量奇怪而令人疏远的内容的泛滥之下,在死亡互联网理论的非人类寓言的背后,是一种绝对是人类的东西:一个由垃圾邮件发送者和企业家组成的欣欣向荣的全球灰市经济,他们寻找并出售致富的东西。- 快速计划和套利机会,由生成式人工智能增强。

我们知道这些东西的最初来源是副业骗局,克拉克告诉我。人们在 YouTube 或 TikTok 视频上挥舞着一大笔钱说,哦,你可以通过这样做来通过 ChatGPT 赚钱。克拉克甚至可以追踪特定视频提交量的峰值:这并不是某个新兴的超级人工智能,甚至不是一群特别老练的骗子袭击了克拉克世界;而是某个视频的数量激增。相反,它的受众是 Hanna Getachew 等有影响力的人士。Hanna Getachew 是一名会计师和技术采购经理,运营着一个阿姆哈拉语 YouTube 帐户,致力于教授副业和在线工作,最近还发布了一段名为“通过克拉克斯世界杂志获得报酬”的视频。(Clarkesworld 为提交 1,000 至 22,000 字的内容支付每个字 12 美分的费用。Getachew 声称观众可以获得 250 至 2,460 美元的收入。)

所涉及的经济学很简单。一方面是需求:对 Facebook 和 TikTok 等网站内容的实际上无限的、不加区别的胃口,这些网站需要吸引用户,也需要吸引广告商。另一方面,供应:ChatGPT、Midjourney 或 Microsoft Image Creator 等生成型人工智能应用程序的惊人充足且取之不尽的产出,受到投资者的大力补贴,并以低成本或免费提供给消费者。

数十亿大量的资金在这种动态的两边的许多公司之间流动,对于任何潜在的人工智能骗子来说,问题是如何进入中间,找到一个角度,并从中分一杯羹。最简单、最直接的选择就是成为一名马虎:使用人工智能大规模生成内容并操纵或利用平台从中赚钱的人。懒惰者可能会尝试将他们的内容直接出售给主要市场上的人们,例如,通过自动化制作食谱书籍,然后将其出售给亚马逊上毫无戒心(也许是不加区别的)客户。或者他们可能会建立一个网站,里面装满了大语言模型生成的文章,用广告装饰它们,并试图让它们在谷歌新闻上获得很高的排名。也许,最直接的是,许多人只是争夺人工智能生成的文本、图像和视频平台的直接付款:Facebook、TikTok 和 Twitter 都为引人入胜的内容提供奖金。(从某种意义上说,Spotify 也是如此,尽管我们将这些付款称为版税。)

以 Facebook 为例,作为劣质经济的案例研究。自今年年初以来,显然人工智能从匿名管理页面生成的图像已变得不可避免。一开始只是对已经疯传的图像的重复,现在已经演变成奇异的、自成一体的梦境,其中出现了难以解释和不相关的主题和话题:多头、胸大的农家女孩;空姐在泥泞的河流中涉水;截肢乞丐举着写着“今天是我的生日”的牌子。这些图像中最著名的一个是虾耶稣,这是一个像雕像一样的耶稣形象,在水下漂浮,他的四肢和躯干完全由虾的毛茸茸的几丁质身体制成。对于这些页面中的大多数,没有明显的骗局,没有广告或外部链接,根本没有商业模式,只有奇怪的无上下文页面,将疯狂的废话发布到虚空。

这些图像来自哪里?至少部分答案是肯尼亚一个名叫斯蒂芬·姆旺吉的人。(至少,我认为那是他的名字和他住的地方。)Stevo 通过 WhatsApp 向我介绍了自己,他是 5 个 YouTube 频道和大约 170 个 Facebook 页面的版主,这些页面主要涉及人工智能生成的图像,这是最大的 Facebook 页面。拥有 400 万粉丝。他同意向我展示他的方法,但要付出一定的代价。“如果你需要我的信息,请付钱给我,”他写道。没有免费信息。我总共花费了 105 美元,参加了一个成为马虎的速成课程。

他告诉我,他创建帖子的过程非常简单且人工智能密集型:我使用 ChatGPT 来请求最佳图像这可以在 Facebook 上产生大量人气和参与度,重点关注圣经、上帝、美国陆军、野生动物和曼联等主题。给我写 10 张耶稣的提示图片,它将在 Facebook 上带来很高的参与度,请阅读他与我分享的一张屏幕截图中的 ChatGPT 提示。然后,您按照提示访问图像生成程序 Leonardo.ai 和 Midjourney。Voil:slop。

这些页面通过 Facebook 的绩效奖励计划赚钱,根据社交网络的描述,该计划为创作者提供了根据其内容的覆盖范围、反应、分享和评论来赚钱的机会。帖子。实际上,这是一种污油补贴。Stevos 页面上生成的人工智能图像是耶稣的洛可可式照片;海滩上站着肌肉发达的警察,手里拿着大本圣经;奇形怪状的巨型武装直升机既不是骗局,也不是​​诱惑,甚至对 Facebook 来说也不是垃圾。它们正是公司想要的:高度吸引人的内容。

在 Facebook 这样的网站上,图像越奇特,就越有可能吸引注意力和参与;关注度和参与度越高,Facebook 的排序机制就越能推广和再传播该图像。另一位人工智能内容创作者,一位名叫 Charles 的法国财务审计师,为 TikTok 制作了一些关于猫的奇怪图画故事,他告诉我,他总是让自己的内容有点 WTF,以此来让内容更具病毒性,或者至少最大限度地提高其传播机会。变得病毒式传播。或者正如 Stevo 所说,你添加一些夸张的内容以使其具有参与度。

Stevo 坚称他不会使用机器人来增加关注者数量或为参与度付费,他分享了一张屏幕截图,显示了 500 美元的奖金收入支付今年5月中旬至6月中旬的活动。(肯尼亚的最低工资约为每月 120 美元至 270 美元。)这也不是真正的被动收入。他说,他每天花大约六个小时管理他的 Facebook 页面,但他的工作受到网站不透明的审核和决策流程的摆布。当我与他交谈时,上帝爱好者受到某种限制,无法为他赚钱。他不确定问题出在哪里,但并不是那些图像是假的。“我还有其他拥有超过 100,000 名粉丝的页面,这些页面使用了人工智能图像,”他说。Facebook 没有透露如何计算奖金的价值,并且只有美国、英国和印度等某些国家的创作者才有资格享受奖金计划,这有助于解释为什么斯蒂芬在我们的采访中多次坚称他是实际上是一位名叫雅各布的英国网络安全学生。

这一切背后都有一个斯蒂芬(通常是雅各布):一个真实的人上传了类似的维京小说,封面似乎是人工智能生成的,所有这些都被称为“愤怒”《北方人:扣人心弦的维京复仇与荣誉故事》(该故事由苏拉·厄本特、苏拉·厄本兹和苏拉·厄本尔等作家分别出版)。乱七八糟的人聚集在留言板、聊天应用程序和社交媒体上交换技巧和窍门。在 Facebook 上,一个由 13 万名越南人组成的名为 Twitter Academy Make Money on X 的小组讨论了促使 ChatGPT 编写 X 线程的方法: 你是一位拥有大量追随者的 Twitter 影响者。你的语气很有趣。你有一种创造性的写作风格。请勿自行参考。不要解释你在做什么。

互联网上还有数十万个视频,提供了与斯蒂芬给我的类似的详细说明。杰森·科伯勒 (Jason Koebler) 是 404 Media 的联合创始人,这是一个独立的科技新闻团体,负责发布污水世界的记录,他在 YouTube 上观看了数十场印地语污水研讨会,其中许多都提供了示例提示:美国退伍军人举着纸板标语,上面写着今天是我的生日,请像在战争老兵战争中受伤的美国国旗一样,一位美国老妇人正在用花椰菜制作森林狮子,她的邻居们正在看着它。保持详细。

这类研讨会的创建者,配备了淘金热剧本中的销售铲子,通常比马虎自己有更可靠的收入。他们向私人 Discord 和 Telegram 聊天室出售课程计划和会员资格,并充当中间人,帮助国际浪人建立美国账户。如果说泔水者是泔水经济的制造业,那么这些大师、代金券和工具制造商就代表了服务业。

这个生态系统并不新鲜。几十年来,有影响力的人一直在兜售依赖平台的网络营销计划。改变的是所涉及的工作和投资水平。一段时间以来,企业家将内容的实际制作外包已经很常见:一位美国 Facebook 页面运营商​​在 2016 年告诉《纽约时报》杂志,我在菲律宾有两个人为我发帖。一台自动化后期制作机器,在菲律宾谁需要两个人?就此而言,考虑到人工智能的复杂性,菲律宾人为什么需要美国人?

没有明确的方法来说明生成式人工智能应用程序在短短几年内已经产生了多少垃圾。广泛可用,但有一些方法可以一睹其风采。纪尧姆·卡巴纳克 (Guillaume Cabanac) 是图卢兹第三大学的计算机科学教授保罗·萨巴蒂尔 (Paul Sabatier),他在过去的几年里一直试图找出主要科学期刊中存在的欺诈、抄袭和使用计算机生成文本的情况。他的方法之一是专注于他所谓的“确凿证据”短语,这些短语明确地显示了像 ChatGPT 这样的人工智能文本生成器的使用。其中之一是重新生成响应,它出现在 ChatGPT 答案的末尾。卡巴纳克说,这些人做了所有的复制粘贴,甚至不关心删除泄露信息的短语。其他的是作为人工智能语言模型,就我的知识范围而言,我无法满足这个要求,ChatGPT 和其他聊天机器人经常使用的短语。

Cabanac 已经发现了近 100 个明显由人工智能生成的科学论文案例,他称之为只是冰山一角。图书馆员安德鲁·格雷 (Andrew Gray) 最近的一项研究使用了 ChatGPT 生成的文本中出现频率过高的单词,其中包括值得赞扬的、错综复杂的和细致的单词,据此估计,到 2023 年,60,000 篇学术论文至少部分是由人工智能生成的。

您可以在家做这些实验的您自己的版本。根据我的知识范围或在 Google 图书中搜索人工智能语言模型,会发现数百本人工智能生成的书籍,其标题包括《好莱坞 100 位主要演员》和《如果我身上的女人:布兰妮·斯皮尔斯回忆录指南》等书名。在亚马逊上,快速搜索发现了一些(大概是真实的)内衣的列表,其描述为“据我所知,2023 年初截止,为女性时尚性感休闲独立日印花内裤提供特定购买选项将是我的能力,因为我无法浏览或”访问来自互联网的实时数据,包括来自或私人卖家的当前库存。

Twitter Elon Musks X 可能是此类搜索最富有成效的平台,这要归功于其能力不强的审核服务。一月份,作家兼编辑克里斯·莫尼 (Chris Mohney) 发现了一条推文,该推文似乎是人工智能生成的图像描述,但没有附加任何图像:这张照片捕捉到了一对夫妇在日落时交换誓言。它唤起的情感是爱、幸福和充满承诺的特殊日子的记忆。数百个经过验证的账号纷纷在回复中称赞这张失踪的照片:这张照片散发着纯粹的爱和欢乐,真是一个神奇的时刻!,这张照片真实地概括了真爱的美丽和神奇,如此美丽的时刻被及时捕捉,充满了爱和快乐。

卡巴纳克相信大语言模型可以成为一个伟大的工具,如果得到适当的认可,对科学家来说是一个非常有效的工具。一些研究人员,特别是那些英语不是第一语言的研究人员,使用 ChatGPT 和其他人工智能程序来帮助翻译和编辑。但许多人利用大语言模型来生产更多的东西,这降低了所发表和制作的科学的质量。即使是无害的滥用也会对整个科学事业产生连锁反应,因为被撤回的论文会对引用它们的其他论文产生怀疑。错误会传播,对吗?他说。它就像一种病毒。卡巴纳克认为,人工智能生成的论文经常被用来用更多的出版物和引用来填充学术简历:你购买一篇关于你选择的主题的论文,然后购买一套500 次引用。然后你去你的教员那里说,看,我是一个天才,我应该得到这个正教授的职位。换句话说,就像 Facebook slop 一样,内容的内容并不真正重要,重要的是它的存在,或更准确地说,它的可衡量性。

这是生成人工智能应用程序迄今为止最广泛的用途:创建可以占用空间并且可以计数的东西。当你浏览互联网上的大量内容时,人工智能似乎不太像一个可怕的世界末日机器神,准备将我们拖入一个新的科技时代,而更像是智能手机时代的典范——完美的互联网营销工具、精准度- 专为满足无限滚动的一次性、最低公分母需求而设计。

想到如果您可以简单地关闭手机和计算机,就可以避免所有这些丑陋的创作,真是太好了。但污水有办法泄漏出去。在《真探》的最新一季中,一个场景背景中的一张重金属海报显然是由人工智能廉价生成的。(制作人坚称海报是人工智能生成的。)在地铁上,二手家具网站 Kaiyo 的广告中出现了一些奇怪的漂浮行人的图像,以及用图像生成器尝试文本时典型的梦幻字形书写的标志。

将设计工作外包给生成式人工智能应用程序对于某些企业来说可能是一种有效的成本削减和生产力措施,但实际上它只是将工作转移到其他地方。沙利文说,图书馆的浪费成本是严重的,不仅是图书成本,还有劳动力成本:当编目员在大量无价值的产品中跋涉时,他们需要更长的时间来完成他们的工作。人类艺术家、作家、记者、音乐家,甚至 TikTokers 也有更多的工作要做,不仅要与其他人类竞争,还要与自动化系统的过得去的产品竞争。

我们读者和观察者还有更多的工作要做内容消费者也是如此。过去两年预示的未来是我们所有人都成为编目员,尼尔·克拉克斯从噪音中筛选出一点信号。即使是经过的东西也是一种负担;未经精炼、未经编辑的废话从定义上来说需要更多的阅读、观看、解释和理解工作。

但这似乎也是我们想要的。泼妇经济的其他重要参与者,除了泼妇、网红、平台之外,都是我们。每个在手机上闲逛的 Facebook、TikTok 或 Twitter、将 Spotify 设置为自动播放的人,​​或者在亚马逊上购买最便宜的食谱书的人都在创造需求。

十五年前,《连线》杂志预示着这一美好的未来。-低成本技术的足够革命:廉价、快速、简单的工具突然无处不在我们现在更喜欢灵活性而不是高保真度,喜欢方便而不是功能,喜欢快速而肮脏而不是缓慢而精致。生成式人工智能作为一种技术存在于这个谱系中。它可以创建足够的文本和图像,这是机器学习领域的一个惊人的飞跃,但文本和图像仍然只是足够、足够好、足够便宜,足以让人们在手机上翻阅。“Slop”这个词最适合形容它所产生的东西,因为尽管它看起来令人恶心、令人倒胃口,但我们仍然吃它。它就在槽里。

关于《溺水溺水 - 纽约杂志》
暂无评论

摘要

Slop 于 2022 年底开始渗透到 Neil Clarke 的生活中。Clarke 不喜欢描述过滤器的工作原理,因为担心向垃圾邮件发送者泄露太多信息,但他说它可以阻止事情发生。虽然很难将我们现在所拥有的互联网视为集体智慧的完全有益的进步,但连接数十亿人所提供的商业机会与一些网络先驱的公民愿望格格不入,但很难否认信息高速公路,一些收费站、广告牌和坑洼,或多或少都是我们所拥有的。他告诉我,他创建帖子的过程非常简单,而且人工智能密集:我使用 ChatGPT 来请求可以在 Facebook 上产生大量人气和参与度的最佳图像,重点关注圣经、上帝、美国陆军等主题、野生动物和曼联。他的方法之一是专注于他所谓的“确凿证据”短语,这些短语明确地显示了像 ChatGPT 这样的人工智能文本生成器的使用。