人类隐藏的痕迹:人工智能图像揭示了我们的世界 - 卫报

2024-10-01 04:00:00 英文原文

当遇到一点空闲时间时,我的许多朋友都会转向同一个聚会游戏。它基于超现实主义游戏《精致的尸体》,涉及将简短的书面描述翻译成快速绘制的图画,然后再翻译回来。一组将其称为“电话图画”;另一组将其称为“电话图画”。另一个将其称为 Writey-Drawey。互联网告诉我,它也被称为“Eat Poop You Cat”,这一系列单词肯定是受到其中一个游戏结果的启发。

就在三年前,日常生活中还很少遇到文字转图像或图像转文字的误译,这让游戏的离谱结果显得格外新奇。但我们从此进入了图像制作的新时代。借助 Dall-E 3、Stable Diffusion 和 Midjourney 等 AI 图像生成器以及集成到 Adob​​e Creative Cloud 程序中的生成功能,您现在可以在几秒钟内将句子或短语转换为高度详细的图像。同样,图像几乎可以立即翻译成描述性文本。今天,您可以独自在房间里玩“Eat Poop You Cat”,与算法嬉戏。

早在 2023 年夏天,我就尝试过,使用基于浏览器的 Stable Diffusion 版本和名为 Clip Interrogator 的 AI 应用程序,该应用程序可将任何图像转换为文本提示。比赛进行了两轮,耗时约三分钟。我通过在鼓励我输入提示的字段中输入 Eat Poop You Cat(为什么不?)来开始事情。然后我单击“生成图像”。

稳定扩散会根据任何提示生成四个图像;我只是选择了我最喜欢的继续进行,这有点作弊。画面中央,一只相当逼真的虎斑猫俯视着我,绿色的眼睛睁得大大的,嘴巴张开,露出鲑鱼粉色的舌头。背景是脏灰色,没有太多细节;图像下三分之一处有一些气泡状的白色文字:EAT EAT POOOOP POOP YU NOU SOME YOU!

我把这张图片拖到 Clip Interrogator 中,它弹出了提示:一只绿眼睛的猫的特写,蓝色文字写着 3kliksphilip,史诗般的城市 bakground,便便,白色边框和背景,舔出,史诗般的海报,办公室隔间背景、金色厕所、有趣的卡通、艾琳、经典宝石、凌乱的食客、可利用的形象、离开、励志、动人的诗歌、厕所。

随着生成人工智能 (genAI) 工具的发展,出现了一种细致入微的图像生成提示语法,剪辑询问器提示模仿了样式、细节和描述符的附加分层,尽管这个列表感觉有些过分,就像对图像,我很高兴知道它已经是一个经典的宝石。

经过几次来回,我最终得到了一张黑棕色猫躺在马桶上的图像,这可能是弗兰克·劳埃德·赖特设计的。上面的一卷卫生纸掉到了猫的头上,看起来像一顶帽子。图像是平面的,看起来像是画出来的。风格是不是感觉很熟悉的表现主义?德国表现主义?假的?当然,受到莫迪利亚尼、早期毕加索的影响,以及波兰立体派亨利·海登后来的一些静物画的影响。

Clip Interrogator 将这一画面描述为一幅坐在马桶上的猫的画,PlayStation 2 游戏玩法仍然是波普艺术风格,由 Ignacy Witkiewicz 创作,傻瓜塔罗牌,灵感来自 Phil Foglio、朋克无人机、分子美食、应用程序、bong、角色5、文字:roborock、毁灭孤独、狗、ASCII、1 8 2 4、塔罗牌设计。我了解到,“毁灭孤独”并不是一个命令,而是一个来自亚特兰大的陷阱艺术家。Roborock 是一款类似 Roomba 的自动吸尘器。Phil Foglio 是一位漫画家,以非常规愚蠢的《万智牌》插图而闻名。19 世纪末作家兼画家斯坦尼索·伊格纳西·维特凯维奇 (Stanisaw Ignacy Witkiewicz) 的加入证实了我的直觉,即这幅图像带有某种隐约的波兰色彩。

稳定扩散通过将语言映射到大量视觉变量来制作图像,而剪辑询问器则执行反函数。看似随机的专有名词和短语名词和形容词字符串是神经网络读取图像并评估像素部分以寻找线索的结果,然后将这些线索与术语相关联,无论多么不透明。(虽然转化为猫坐在马桶上的像素配置足够清晰,但那些发出朋克无人机或傻瓜塔罗牌信号的像素配置就不那么清晰了。)

因为有很多方法可以在最简单的场景中描绘即使是最简单的猫,所以文本到图像和图像到文本模型远非一对一的翻译过程。如果是的话,算法和我就无法玩这个游戏。但是,仔细阅读即使是这样一组不严肃的提示和图像,也可以提供有关这些操作背后的脚手架的线索,以及对人类在尝试描述图像时倾向于使用笨拙的、随手抓包的方式的更广泛的见解。

如何创造不存在的人

尽管有很多先驱,但直到 2021 年 1 月,随着人们开始了解图像生成平台 Dall-E,有关 AI 艺术家的讨论才成为大新闻。那时,对人工智能艺术家的描述仍然感觉像是儿童读物中的内容:输入一句话,计算机就会神奇地吐出一张图像!

这项技术听起来太先进了,不太真实,但它已经酝酿了几十年。第一个神经网络于 1943 年提出,该技术的发展在整个 20 世纪断断续续。早在 1989 年,神经网络就可以破译打字和手写字符,计算机视觉应用随着硬件容量的增加而迅速扩展。很快,光学字符识别使我们能够将 PDF 转换为可编辑文本,现在我们可以复制手机拍摄的照片中的文本片段。光学字符识别依赖于自然语言处理,该领域涉及使算法能够以人类语言而不是编程语言输出和接收消息。自然语言处理将计算语言学与统计建模和算法结合起来,现在通常是神经网络,通过分解句子、标记词性、评估句子中最常见的单词位置以及突出显示最常用的单词等方法来处理和生成自然语言突出的含义(通常是名词和动词)。

到 2015 年,算法过程能够形成简单的句子或短语来描述图像。被识别为猫或杯子的像素图案与语言标签相匹配,然后将其翻译成自然语言的自动图像说明。很快,研究人员意识到他们可以翻转这些操作的顺序:输入标签甚至自然语言并要求神经网络生成图像作为响应会是什么样子?但事实证明,反转图像到文本的操作并不那么简单,因为基本短语的复杂性与即使是最简单的图像之间也存在巨大差异。(虽然几乎所有大型猫科动物的图像都可以被描述为猫的特写,但有无数种可能的方式来描述这个短语。)人们还必须收集大量的视觉数据来建立对猫的理解。可以用语言描述的近乎无限的视觉符号。

图像生成的一些早期尝试通过限制图像的风格及其主题来解决复杂性和数据集大小的问题。2016 年关键论文《生成对抗性文本到图像合成》的作者首先在有限的图像库上训练他们的模型,特别是 Oxford-102 Flowers 和 Caltech-UCSD Birds 数据集。

鸟类数据集包含 11,788 张鸟类摄影图像,分为 200 个主要是北美物种,并用嘴形状、腹部图案和下体颜色等附加属性进行注释。数据集图像是从 Flickr 下载的,然后由亚马逊 Mechanical Turk(一个通常被称为人工智能的众包平台)上雇用的工作人员进行分类和注释。虽然人们可能会认为今天的文本到图像工具已经完全自动化,但它们的架构和维护依赖于大量的人力,无论是主要在南半球由每项任务支付几美分的工人执行的重复点击工作,还是您每次填写验证码时所提供的自愿日常劳动。为了学习,神经网络需要一组初始的标记和分类图像,在这种情况下,人需要进行初始标记和排序,识别部位(背部、喙、腹部、乳房)和属性(has_bill_length::about_the_same_as_head) 获取代表灰翅鸥的 59 张照片。(Oxford-102 花的信息量有点少,是通过搜索网络和拍照获得的。)

通过在这些有限的标记图像数据集上训练生成对抗网络,论文作者能够从短语中生成独特的、有些可信的鸟类图像,例如“这只小鸟有一个短而尖的橙色喙和白色腹部”和“这个伟大的家伙”几乎全黑,带有红色冠和白色脸颊斑块。

几年后,即 2019 年初,美国芯片制造商 Nvidia 发布了 StyleGAN 的开源版本,这是一种生成式人工智能,可以生成近乎无限的独特合成面部图像,允许用户控制功能比如脸型和发型。(这个 AI 还接受了来自 Flickr 的数千张图像的训练,Nvidia 声称只收集经过许可的图像。)不久之后,软件工程师 Phillip Wang 创建了 thispersondoesnotexist.com,这是一个发布新的、随机的、合成的网站每次刷新时的肖像。从那里开始,一大群模仿者紧随其后:这匹马不存在,这座城市不存在,这把椅子不存在,等等。

尽管一年多来,对深度造假的担忧一直占据头条新闻并引发愤怒,但“不存在的人”图像的突然冲击似乎在更广泛的集体意识中触动了一根电线。这些假脸很快被认为是对民主的威胁,人们呼吁采用算法来捕捉和标记生成的图像。与此同时,StyleGAN 又开始涉足动漫肖像领域。虽然图像类型发生了变化,但主题仍然受到限制。

相比之下,ImageNet 是由计算机科学家李飞飞于 2006 年发起的一个项目,其不谦虚的目标是绘制出整个物体世界。该数据集包含超过 1400 万张带注释的图像,被组织成超过 100,000 个有意义的类别。它还通过 Mechanical Turk 雇佣了超过 25,000 名工人。虽然 100,000 个类别的数量令人震惊,但当您考虑到世界的视觉复杂性时,它就显得非常小了。

分类减少和过度简化从来都不是好兆头,尤其是在给人类贴标签时。ImageNet 利用了 20 世纪 80 年代开发的现有词汇分类法,并借鉴了几个早期的词汇集。当一个数据集建立在另一个数据集之上时,每个数据集都继承了前一组的逻辑和层次结构,即使不是它的所有术语。正如研究人员 Kate Crawford 和艺术家 Trevor Paglen 所强调的那样,原始 ImageNet 数据集包含一张被标记为失败者的儿童的图像;包括荡妇、妓女和黑人等类别;奇怪的是,雌雄同体被列为双性恋的一个子类别,而双性恋又被列为肉欲主义者的一个子类别,与混蛋和享乐者并列。2019 年,ImageNet 删除了超过 600,000 张标记有不安全、攻击性或敏感类别的图像,修补了一个存在根本缺陷的框架中最明显的裂缝。尽管如此,与它的后继者相比,ImageNets 类别看起来还是受控且谨慎的。

GenAI 成为主流

2021 年 1 月 5 日,旧金山研究实验室 OpenAI 发布 Dall-E 时,还发布了 Clip,一种图像分类神经网络,已集成到 Dall-E 流程中。在一篇吹嘘的博客文章中,OpenAI 嘲笑 ImageNet 数据集在时间和劳动力方面的成本高昂,以及其内容范围有限。相比之下,帖子作者声称,Clip 从互联网上公开的文本图像对中学习。(我们仍然不知道互联网上的具体位置。但考虑到训练数据集的规模惊人,超过 4 亿个图像-文本对,答案可能几乎无处不在。)

我们确信 Clip 包含艺术家、插画家、摄影师和平面设计师的数千幅作品,因为您可以使用 Dall-E 做的事情之一(我们鼓励您做的事情之一)就是要求它生成一个具有特定艺术家风格的图像。2022 年夏天,也就是名为 Dall-E Mini 的公开版本发布近一年后,社交媒体上充斥着遵循 A 但 B 公式的图像,将一个主题与意想不到的风格或背景并置:萨尔瓦多·达尔 (Salvador Dal) 画的金·卡戴珊 (Kim Kardashian)(当然),R2-D2 接受洗礼,以及(个人最喜欢的)花生酱三明治魔方。

这些生成的图像不仅仅是由从网络上收集的各种图像片段组装而成的弗兰肯斯坦怪物。相反,genAI 模型创建了与可能的像素模式相关的符号、能指、图像类型和风格的通用概念。Dall-E 的深度学习算法将数字图像像素排列解码为数百个变量轴,然后使用这些变量来评估图像及其组成部分,从而在未来创建类似但独特的排列。当您要求 Dall-E 或 Stable Diffusion 等 genAI 工具按照特定艺术家的风格设计图像时,与其说它是在复制艺术家的作品,不如说是在解释和再现艺术家的主题、构图决策和色彩使用的模式、线条和形状。

互联网上可用图像的数量和范围以及它们的标记方式会影响 genAI 工具生成特定主题图像的能力。特定艺术家不同作品的数字图像越多,genAI 就能更好地复制他们的风格;视觉创意出现得越多,它就会被复制得越多。例如,考虑到互联网上白人外科医生的图像和描述过多,当你要求 genAI 工具生成一名外科医生时,大约 2023 年的 genAI 工具几乎总是会生成一个白人。

这些工具开发人员并没有解决数据集中的基本问题,而是试图通过去偏见或编码保障措施来掩盖它们,以确保多样性,这就是我们获得 Gemini(谷歌最近重新命名的 genAI 工具)的方式,它可以生成有色纳粹的图像当提示生成 1943 年德国士兵的图像时。

哦,人性!

随着文本到图像的 genAI 工具变得越来越复杂,周围的讨论也越来越令人震惊:生成式 AI 正在改变一切;图片生成人工智能会让艺术家过时吗?人工智能会结束你的设计生涯吗?艺术已死,我们已经杀死了它。

其中许多宣言来自人工智能支持者阵营,其他则来自技术恐惧者和视觉艺术家本身。2023 年 5 月上旬,艺术调查与报告中心网站上出现了一封题为《限制人工智能插图出版》的公开信兼宣言,由该中心主任 Marisa Mazria Katz 和著名左翼插画家 Molly Crabapple 撰写。这封信概述了新闻和插画之间的童话般的关系,它不仅讲述了与新闻密切相关的事情,而且还讲述了故事本身的人性本质。另一方面,生成工具只需几秒钟就可以制作出以前由人手绘制的插图的精美、详细的拟像,生成的图像要么完全免费,要么花费几美分。这封信的最后呼吁人们做出人类价值观的承诺,反对使用生成人工智能图像来取代人造艺术。超过 4,000 名知名作家、记者、艺术家和名人签名。

有很多理由对使用 genAI 进行新闻图像制作持谨慎态度,其中最主要的是该技术嵌入的偏见和巨大的能源足迹。截至 2023 年末,《稳定扩散》向我们表明,伊拉克看起来只是一个军事占领区,而且从事社会服务的人员并不是白人,尽管高效的人员通常是且始终是男性,而清洁工则始终是女性。《旅程中途》将印度人解释为穿着橙色帕格里车、留着胡须的老人,将尼日利亚的房屋解释为带有锡制或茅草屋顶的破旧结构。与此同时,2023 年 11 月的一项研究发现,使用 genAI 生成单个图像所消耗的能量与为智能手机充电一半所需的能量相比生成文本所需的能量要多得多,并且随着模型变得更加强大和复杂,它们也变得越来越强大更加能源密集。

然而,对人类价值观和艺术人性的威胁在我看来有些言过其实。人类产生的生成式人工智能不仅是技术背后的脚本和机制,而且是每个阶段的基础设施:Mechanical Turk 工人标记加州理工学院-加州大学圣地亚哥分校的鸟类;匿名者在 X 上发表胡言乱语;肯尼亚内容版主每小时支付 2 美元来审查无尽的恐怖事件,这样人们就不会意外制作 Dall-E 儿童性虐待图片。人类的选择、弱点和偏见是这些工具的基础。我更害怕 genAI 的人性,通过他们的训练图像继承的所有假设和奇怪之处,在标签集中体现和自动化的每一个代表性偏见,工资低的劳动者的每一次疲惫的冲动,比 genAI 的大多数其他方面尽可能快地点击和分类。

但是艺术家的生计又如何呢?正如马兹里亚·卡茨(Mazria Katz)和海棠(Crabapple)所写,确实没有人类插画师能够足够快地工作或足够便宜地与这些机器人替代品竞争。但如果说这项技术如果不加以控制,它将从根本上重塑新闻领域,那就是为这个领域描绘了一幅相当乐观的图景。如果 genAI 不受控制,只有极少数艺术家精英才能继续经营下去,Mazria Katz 和 Crabapple 担心的反乌托邦未来将会成为现实,不幸的是,他们的作品已经作为一种奢侈品地位的象征出售。许多甚至大多数出版物都认为,为制作定制图像所需的大量劳动力支付公平的市场工资是不合理的费用。当您可以超便宜地购买大量库存照片和插图、可以右键单击并复制的模因、可以从维基媒体下载的开源图像、可以拖放的剪贴画以及预置的图像时,为什么还要花钱购买图像呢?很多插画家的现有作品只是截图并窃取?在仍然委托原创作品的出版物和企业中,许多人长期以来都通过 Fiverr 等在线零工平台外包设计和插图,该平台是以 Mechanical Turk 的总体概念为蓝本的。

劳动保护的最佳途径可能是确保那些已经接受过制作交际性、引人注目的图像培训的插画家、艺术家、摄影师、照片编辑者能够最擅长使用这些系统。(《连线》是美国第一家采用官方人工智能政策的出版物,已经将这一想法纳入指导方针。该政策指出,一些艺术家现在正在将生成式人工智能融入他们的创作过程,就像他们使用其他数字工具一样。《连线》将委托这些艺术家创作作品,只要该作品涉及艺术家的大量创意投入,并且不公然模仿现有作品或侵犯版权,在这种情况下,我们将披露使用生成人工智能的事实,该杂志明确表示不会。使用 genAI 图像而不是库存摄影,因为许多职业摄影师通过将图像出售给库存档案来维持收支平衡,可以在此处阅读《卫报》关于其生成人工智能方法的声明。)

就像笔记本电脑、相机和画笔一样,genAI 模型也是工具,其真正功效取决于使用它们的技能和知识。当然,它们也是人类精心制作和积极维护的工具,值得在图像生产劳动链中可见,并在生计讨论中得到考虑。因此,我更愿意将这些算法、神经网络驱动的工具称为疏远智能或异化智能,而不是人工智能。智慧就是人类!不是假的或伪造的;它只是被隐藏、外包和离岸、重新混合和聚合、转化为算法,然后默默地进行改进和训练。

但我知道 Mazria Katz 和 Crabapple 的意思。让你来之不易的风格被算法窃取是一种侮辱。我愿意相信,人工智能生成的图像中丢失了一些清晰可见的东西,我们所说的手,所有微妙的、神圣的缺陷和残留在人造物上的人工制品都明显消失了。但我参加了许多在线测验,声称是为了测试人们区分人工智能生成的图像和通过其他方式制作的照片、绘画和图画的能力,但我必须说实话:我在这些测试中表现不佳。当然,它们是为了树桩而建造的,将生成器的最佳输出与其他方式制作的不可思议的作品进行比较,但考虑到我曾担任过平面设计师、设计教育家和艺术出版物的编辑,我想我已经有点挑剔的眼睛。那么,缺席的人性说明了什么?

在 Dall-E、Stable Diffusion 和 Midjourney 的早期,发电机的明显抽动弱点包括手部破损、重复习惯、对居中构图的偏好、物理错误更容易暴露出它们作为人工智能产品的输出,而也使得区分每个生成器生成的图像变得相当容易。但随着每一代生成器的出现,这些迹象都变得越来越不明显。

即时工程时代

虽然文本到图像(和图像到文本)genAI 工具是建立在自然语言处理的基础上的,但往往会产生最佳结果的语言读起来却很不自然。提示的语法非常独特,以至于所谓的提示工程师市场已经出现,而涉及提示写作 101 的博客和视频博客比比皆是。

大多数提示写作指南都建议采用三重形式:主题、描述和图像的风格/美学。描述通常是指现在分词短语,例如一只喝咖啡的猫或一只在海里游泳的斗牛犬。然而,当谈到图像的风格/美学时,不太清楚什么适用。史诗海报是一种风格,就像有趣的卡通和可利用的图像一样,它指的是人们可以通过添加自己的文本或补充图像来定制的任何类型的模因。但这些并不是人们在想象视觉风格时通常会用到的描述符。

流行的提示速记术语包括复古、产品摄影、食品摄影、高度详细、数字艺术杰作、C4d 渲染、Octane 渲染以及 ArtStation 上的趋势。专有软件和平台的名称,例如 3D 建模软件 Cinema4D,简称 C4D;Octane,一款公正的图形渲染软件;而ArtStation,一个展示游戏设计师和动画师作品的平台,一夜之间就变成了形容词。同样,艺术家的名字更常被用来实现视觉风格,而不是直接模仿艺术家的作品。我们已经有了使用专有名词作为时期和风格的同名词的文化习惯(路易十四、包豪斯、Studio 54),但即时语言加速了这一趋势。现在有一些网站按艺术家姓名索引了数千种图像样式,其中大部分是数字艺术家和概念设计师的姓名。

快速创作依赖于学习这些术语并理解与主题、视觉属性、媒体和构图风格相关的大量视觉现象。虽然即时写作正在迅速成为一项有市场的技能,但即使是最先进的工程师也不能完全理解深度学习算法的最内部工作原理。纽约大学人工智能研究实验室的负责人萨姆·鲍曼 (Sam Bowman) 表示,即使是像他这样的专家也无法辨别大多数复杂系统使用的概念或推理规则。鲍曼承认,我们建造了它,我们训练了它,但我们不知道它在做什么。

在翻译中找到

大约在 2022 年 10 月,Dall-E 2 在上下文线索和排序方面遇到了困难,特别是在处理形容词或描述性短语如何应用于名词或动词时。如果你告诉 Dall-E 2 生成一条鱼和一块金锭,它通常会给你一条也是金子的鱼,通常是金鱼,就好像在尝试一种文字游戏。

Dall-E 2 也热衷于异名。学者 Royi Rassin、Shauli Ravfogel 和 Yoav Goldberg 阐述的一个例子是,提示一只球棒飞过棒球场,这产生了一个活泼的、卡通化的、类似矢量的棒球场插图,上面有一个棒球和一个棒球。棒球棒和我们所知的蝙蝠蝇动物。问题在于,标签 bat 与两种不同类型的像素模式相关,而 genAI 不确定选择哪一种。对冲它的赌注,它把两者都投入了。

Rassin 等人将这些语言到视觉翻译中潜伏的混乱描述为实体之间属性的语义泄漏。在图像中,两种蝙蝠似乎在串联翱翔。也许蝙蝠(动物)实际上正在挥舞球棒(棒球)。白色的泪滴形状似乎是在尝试微笑,表明我们的朋友蝙蝠(动物)正在玩得很开心。在蝙蝠的左边,一片平坦的灰色云和一道闪电中断了蓝天。论文作者没有提供明确的语言原因来解释闪电如何潜入其中,但我未经测试的图像关联猜测是蝙蝠(动物)经常出现在女巫的图像中,而女巫很容易施咒语和攻击东西。

闪电是 Rassin 等人所说的二阶刺激的一个很好的例子:嵌入语言和图像中的网络关联很少被意识到。当你向 Dall-E 2 询问海边的犰狳时,它通常也会扔一些贝壳。为什么?好吧,想想犰狳词云中的术语,或者李飞飞所说的视觉概念社交网络:哺乳动物、盔甲、球和……贝壳。(作为比较,在海边请求狗会生成海滩,但不会生成贝壳。)这种联想特征的泄漏可能会为这些图像增添更深层次的荒谬性,这通常被认为是生成工具缺乏复杂性的证据,他们的成绩不佳。

不过,将语义泄漏视为技术笨拙而不是其敏锐敏感性的证明是错误的。一只高大、长腿、长颈的鸟和一个建筑工地吐出一幅图像,其中既包括起重机(鸟),也包括起重机(建筑设备)。虽然这最初会被视为一个错误,并且软件工程师肯定正在努力解决该错误,但它实际上是一个复杂的语言从属关系,通过代理返回异名问题,因为“crane”一词从未出现在提示中。

对于它们表现出的所有偏见和模式,genAI 工具还继承并描绘了语言的细微差别和歧义,例如英语中过多的异名和同音异名,以及它们可能的混淆。新的图像制作技术,无论是印刷机、相机还是卫星成像,都改变了我们对世界的看法,进而改变了我们的行为。现在的问题是:这些算法图像教我们看、说和做什么?

截至 2024 年 1 月,genAI 文本转图像工具每天生成约 3400 万张图像。这个数字与每日数码照片的数量相比仍然相形见绌,但能持续多久呢?从现在开始,最安全的做法是假设您遇到的任何图像都可能生成。这些图像的与众不同之处不是它们缺乏人性,而是它们的人性极其丰富:所有异化的智慧、历史阶层和语言抽搐都嵌入并再现在它们之中。每个提示者都引发了与艺术家、学者、点击工作者和随机互联网用户的巨大网络合作链,跨越时间和空间,参与一场大规模的、持续多个世纪的“吃你的猫便便”游戏。不管你喜欢与否,我们所有人,无论是前算法图像制作者还是自称为人工智能艺术家的人都必须学会玩耍。

本文的较长版本首次发表于 n 1 杂志。

关于《人类隐藏的痕迹:人工智能图像揭示了我们的世界 - 卫报》
暂无评论

摘要

当遇到一点空闲时间时,我的许多朋友都会转向同一个聚会游戏。经过几次来回之后,我最终得到了一张黑棕色猫躺在马桶上的图像,这可能是弗兰克·劳埃德·赖特设计的。如何创造不存在的人尽管有很多先行者,但直到 2021 年 1 月,随着人们开始了解图像生成平台 Dall-E,有关 AI 艺术家的讨论才成为大新闻。那时,对人工智能艺术家的描述仍然感觉像是儿童读物中的东西:输入一句话,计算机就会神奇地吐出一张图像!例如,考虑到互联网上白人外科医生的图像和描述过多,当你要求 genAI 工具生成外科医生时,大约在 2023 年,它们几乎总是会生成一个白人。这些工具开发人员并没有解决数据集中的基本问题,而是试图通过去偏差或编码保护措施来模糊它们,以确保多样性,这就是我们获得 Gemini(谷歌最近重新命名的 genAI 工具)的方式,在提示时生成有色纳粹的图像。生成 1943 年德国士兵的图像。