人工智能无法企及的人类技能

以某种奇怪的方式，七年前，随着 OpenAI 的 GPT-2 的出现，生成式 AI 达到了顶峰。GPT-2 擅长给出意想不到的答案，但科技圈之外的人鲜为人知。这是有创意的。– 你可能会这样， – 继续这个故事：男人决定去洗澡，— 而 GPT-2 则类似于，—淋浴时，他一边吃着柠檬，一边想着他的妻子”——Katy Gero 告诉我，她是一位诗人兼计算机科学家，自 2017 年以来一直在尝试语言模型。“模型不会再这样做了。”

人工智能领导者夸耀他们的模型——超人的技术能力。该技术可以预测蛋白质结构，创建逼真的视频，并通过单一提示构建应用程序。但这些高管和研究人员也欣然承认，他们还没有发布一个写得好的模型。OpenAI 首席执行官 Sam Altman 表示预测的大型语言模型很快将能够“修复气候、建立太空殖民地以及发现所有物理学”，但在 10 月份采访他与经济学家泰勒·考恩 (Tyler Cowen) 合作，猜测即使是未来的模型（最终的 GPT-6 或 GPT-7）也可能只能挤出相当于“真正诗人的好诗”的东西。

如今人工智能生成的散文充满了缺陷。聊天机器人产生无意义的隐喻，无穷无尽——这不是这个，但是那个——结构，以及令人厌烦的阿谀奉承的语气——当然，他们过度使用了我心爱的破折号。（只有从 11 月份发布的 GPT-5.1 开始，ChatGPT 才能可靠地遵循指令避免陷入困境的标点符号。）我想了解这是为什么——为什么大型语言模型，毕竟，记住了几个世纪的伟大的文学，可以展示令人难以置信的新兴能力，但完全无法写出一篇我想读的文章。

阅读：无限会让我们成为更好的作家吗？

因此，我与认识的人进行了交谈：在法学硕士公司、人工智能数据供应商、学术计算机科学部门和人工智能写作初创公司工作的人。（有些人在匿名的情况下与我交谈，因为他们的雇主禁止他们公开谈论他们的工作。）我了解到的是，现代法学硕士的建立方式与伟大的写作是对立的;它们被设计成遵守规则的老师的宠物，并且总是有正确的答案。在许多方面，它们与 GPT-2 相比已经有了很大的进步，但它们也失去了一些使它们更宽松、更引人注目的东西。L

LM 开始他们的生活作为不分青红皂白的读者。在预训练阶段，他们会吸收整个互联网的内容——Reddit 帖子、YouTube 文字记录、SEO 污泥——并将其压缩成模式。大多数写作都不是很好。但重要的是这些数据的数量，而不是质量。预训练教授人工智能语法规则和单词关联，从而实现所谓的“下一个标记预测”：模型一遍又一遍地确定单词的哪个部分在另一个单词后面的过程。

然后在训练后阶段打磨粗糙的边缘。这是法学硕士公司为人工智能模型定义理想“特征”的时候（例如“乐于助人、诚实且无害”），为人工智能提供示例对话以供学习，并应用安全过滤器来尝试阻止非法请求。通过“利用人类反馈进行强化学习”等流程，让人们根据评分标准对人工智能输出进行评分，模型被引导做出能够体现所需特征的反应。

阅读：人工智能的记忆危机

人工智能研究是一门实证科学，人们可以验证某些东西何时有效，并在某些东西不起作用时进行调整。但艺术抵制规则和量化。没有客观的衡量标准可以证明巴勃罗·聂鲁达的作品是否比加布里埃拉·米斯特拉尔的作品更好。新手作家学习惯例；伟大的作家发明了它们。受过模仿品味训练的法学硕士只能走这么远。在某种程度上，人工智能工程师和研究人员必须知道这一点。尽管他们尝试（但失败了）使这项工作自动化，但与我交谈的许多人显然都崇尚优秀的写作。“写小说是人类所能进行的最强烈的认知活动之一，”小说作者人工智能助手 Sudowrite 的联合创始人 James Yu 告诉我。当我问起他们最喜欢的书时，我的消息来源脸上露出了笑容，其中三人提到了科幻小说作家特德·蒋，尽管他们似乎也对他已成为一名科幻小说家感到沮丧。生成式人工智能的直言不讳的批评者。评估写作的难度并不妨碍人工智能实验室的尝试。他们的部分动机是在我的采访中一次又一次出现的一个问题：如果法学硕士不能写出令人费解的论文或深刻的十四行诗，那么他们通常是否聪明？

因此，实验室试图通过各种标准来评估人工智能写作。培训后团队根据个人品味对模型输出进行氛围检查，公司与领域专家签订合同，以接收有关模型生成的写作的反馈。一个职位列表对于 xAI 的“创意写作专家”来说，其要求包括“小说销量超过 50,000 份”和“在柯克斯获得星级评论”（起价为每小时 40 美元）。

我采访了两位最近在大型人工智能实验室担任写作评估员的人。第一个是 Scale AI 的承包商，他亲口描述了这项任务的荒谬之处：为了将“语气”这样难以捉摸的东西转化为离散的标准，规则中包含了诸如“答案最多应使用两个感叹号”之类的规则。承包商告诉我，“在很多情况下，尽管感觉 B 总体上是更好的答案，但你最终还是给出了评级”我更喜欢A——因为它有三个感叹号。”他说，有一次，他被要求根据同人小说的“真实性”来评分。

阅读：写作的未来很像嘻哈

我采访的第二个人是一位直接与前沿实验室技术研究团队合作的作者。该公司经常要求他分解使一部文学作品变得伟大的具体元素。“这种想法完全无法解决，”他告诉我。他以英语十四行诗为例：从技术上讲，它们是最模板化的形式之一，但仅仅因为十四行诗包含 14 行并且是用抑扬格五音步写的，并不意味着它就是好的。– 即使莎士比亚非常有条理，他也不断地试图不遵循规则，或者颠覆它，或者重新发明它。我不知道死记硬背的诗人和莎士比亚之间的区别是什么。我只知道这两者永远不能混淆。”S

o 法学硕士注定要失败吗永远创作二年级散文？一种理论认为，这只是一个优先级问题。在某些方面，创造力与人工智能公司的其他目标直接不一致。一般来说，聊天机器人经过训练可以避免错误信息、政治偏见、儿童性虐待材料、侵犯版权等。它们还根据 SWE-bench（用于编码任务）和 GPQA（自然科学）等基准进行评分，这些基准极大地影响了公众对哪家公司赢得比赛的看法。如果大多数用户使用 ChatGPT 起草公司电子邮件，那么粗体文本和简短的要点可能正是他们想要的。“你对这些特征的控制越多，艾伦人工智能研究所的培训后领导内森·兰伯特告诉我，“你就越会抑制创造力。”

当你告诉一个模特是一位才华横溢的散文文体家，同时也是一位博士级数学家，而且严格来说是 PG-13 时，它会变得僵化、守口如瓶，就像面试时紧张的候选人生怕出错一样。同样的异想天开让 GPT-2 的声音变得新鲜，也使它容易出现其他不可预测的行为。– 如果您是 Google 或 OpenAI 这样的大公司，您就会想要一个能够赚钱的聊天机器人。聊天机器人是不能帮你赚钱的人就是个怪人，”杰罗说。

阅读：伟大的语言扁平化

我开始假设，只要我们将人工智能从训练后过程的限制中解放出来，并建立专门的写作模型，人工智能就可能能够创作出屡获殊荣的文学散文。但当我反思我最喜欢的作家时，这似乎也不对。

当一位经验丰富的人类作家尝试使用特定的措辞时，他们并不是以某种单一的伟大写作标准为目标。相反，最好的隐喻来自作者特定的经验或专业知识的融合。作家的措辞、引文以及分享的故事都反映了独特的、不可复制的视角。作者的声音源于生活的特殊性。

这些模型虽然技术精湛、语法原始，但无法生存、感觉不到、闻不到、尝不到、感知不到。他们无法将原始情感倾注在纸上，也无法将抽象概念置于丰富的物理环境中。仔细阅读人工智能写作的读者会注意到这些隐喻是不可思议的：法学硕士分配工作日的品味并给镜子接缝。他们通常似乎对生物学感到恐惧：他们不喜欢谈论血液、性和死亡，即使是隐喻。正如一位创意写作老师可能会说的那样，他们的产出缺乏风险。

尽管 Yu 对 GPT-2 以来法学硕士所取得的技术飞跃印象深刻，但他也不会阅读完整的人工智能生成的故事。我问他人工智能还缺少什么来独自创作一部伟大的小说。余停顿了一下，然后回答说：“大多数人的好第一个故事都是自传体的。也许您需要一个可以活下去、甚至可以死去的模型。”L

LM 可能永远没有能力伟大的写作本身。但这并不意味着它们不能帮助人类。最近，我把AI变成了编辑器。不适用于本文 –大西洋报“编辑都是人”，但对于我在我的网站上写的几篇文章个人子栈。我的理念是，我应该提供散文和观点，人工智能应该提供反馈——鼓励我写得更像我自己。

首先，我向聊天机器人克劳德提供了我过去写作的档案，以及每篇文章的有效和无效的注释。我用它根据我的声音创建了一个自定义编辑规则。有些标准是通用的，有些则是个性化的：有人会说，“这符合你在硅谷的内部人类学家的地位吗？”另一个问题是论文是否出现在前 500 个字中。我将此指导转入克劳德项目，并提醒其作用：“你不是合著者。你无法感知。你的角色是帮助 Jasmine 写出最好的自己。 –我不想失去技能，我提醒机器了。你唯一的工作就是让我变得更聪明。

阅读：为什么这么多人被 ChatGPT 所吸引

这个人工智能编辑器已经成为我的流程中很有价值的一部分。与任何读者一样，它并不总是正确的。我小心翼翼地不让它把我困在一条狭窄的风格道路上。但克劳德督促我比我一个人更快地迭代和改进，并指出我的执行力未能达到我自己品味的标准。“不要试图把结局写成一篇论文，而要把它写成一个场景，”它在编辑最近的一篇文章时告诉我。你的努力被机器人拒绝有点丢脸，但我不得不承认它的批评是公平的。我重新起草了四次结论。最后，克劳德批准了。

OC

人工智能无法企及的人类技能

关于《人工智能无法企及的人类技能》的评论

发表评论

摘要

相关新闻

相关讨论