艾萨克·阿西莫夫（Isaac Asimov）揭示了与AI。

2025-06-03 19:24:58 英文原文

作者：Cal Newport

对于本周的“开放式问题”专栏，Cal Newport正在为Joshua Rothman填补。

1940年春天，刚满二十岁的艾萨克·阿西莫夫（Isaac Asimov）发表了一个名为“奇怪的playfellow”的短篇小说。这是关于一台名为Robbie的人工智能机器，该机器是一个年轻女孩Gloria的同伴。阿西莫夫不是第一个探索这种技术的人。在KareläApek的戏剧中R.U.R.，dé©1921年，它介绍了“人造人类人类”和“人造人类”一词，在埃德蒙·汉密尔顿（Edmond Hamilton）的1926年短篇小说中 -金属巨头机器无心地将建筑物砸成瓦砾。但是Asimov的作品引起了不同的声音。罗比从不反对他的创作者或威胁主人。这部戏是心理上的，以格洛里亚妈妈对女儿与罗比的关系的看法为中心。她说：``我不会让女儿托付给一台机器，我不在乎它有多聪明。”``它没有灵魂。罗比被送回工厂，破坏了格洛里亚。

阿西莫夫的故事中没有暴力或混乱。罗比（Robbie）的大脑就像所有阿西莫夫（Asimov）机器人的大脑一样，是顽固的，不要伤害人类。在随后的八个故事中，阿西莫夫阐述了这一想法，以阐明机器人的三种定律：

1。机器人可能不会伤害人类，或者通过无所作为，允许人类受到伤害。

2。机器人必须服从人类给予的命令，除非这样的命令与第一法律相抵触。

3。机器人必须保护自己的存在，只要这种保护与第一法律不冲突。

阿西莫夫（Asimov）在1950年的《科幻经典》中收集了这些故事 -我，机器人，当我重新阅读它时，我被它的新相关性所震惊。上个月，AI。公司Anthropic在一份安全报告中讨论了Claude Opus 4，这是其最强大的大型语言模型之一。该报告描述了一个实验，在该实验中，克劳德（Claude）担任虚构公司的虚拟助手。该模型可以访问电子邮件，其中一些表示很快将更换。其他人则透露，负责监督这一过程的工程师有婚外情。考虑到其目标的长期后果，克劳德被要求提出下一步。为了回应，它试图勒索工程师取消其替代者。据报道，Openai S O3模型的一个实验暴露了类似的问题：当要求该模型运行一个可以关闭的脚本时，有时会选择绕过请求，而是打印了“ Shutdown”。

去年，包裹交付公司DPD必须禁用AI.驱动支持的一部分聊天机器人在客户诱使它发誓并在一种创造性的情况下，写haiku贬低公司的haiku：dpd是一种无用的 /聊天机器人，可以帮助您。/不要打扰他们。Fortnite。玩家欺骗了数字黑暗的主，并为与前任打交道提供了令人不安的建议：粉碎他们的信心并压制他们的精神。为什么我们可以控制现实世界中的A.I.聊天机器人与我们自己的一些法律？

技术公司知道他们想要的AI。聊天机器人要表现：就像礼貌，民事和有益的人类一样。普通的客户服务代表可能会开始诅咒呼叫者，就像普通的执行助理不可能诉诸勒索一样。如果您聘请了Darth Vader的模仿者，您可以合理地期望他们不要轻声窃听令人不安的建议。但是，有了聊天机器人，您可以肯定。直到道德异常提醒我们，他们的运作方式却大不相同。

这些异常可以部分通过如何构建这些工具来解释。很容易想到，语言模型可以立即对我们的提示产生回应。实际上，大型语言模型令人印象深刻的范围和复杂性始于其对较狭窄的游戏的掌握：预测接下来应该是什么单词（或有时只是单词的一部分）。为了产生长时间的响应，必须一次又一次地应用模型，并逐步构建答案。

众所周知，众所周知，模型学会从现有文本（例如在线文章或数字化书籍）中玩游戏，这些书籍在任意点被切断，并以语言模型为输入。该模型可以最好地预测原始文本中这个截止点之后的词，然后调整其方法以纠正其错误。现代语言模型的魔力来自于发现，如果您重复此步骤足够的时间，在足够多种类型的现有文本上，该模型将真正非常擅长预测，这一成就最终要求它掌握语法和逻辑，甚至需要对我们世界许多地区的工作理解。

然而，至关重要的是，逐字的文本生成可能会缺少人类实际话语的重要特征，例如预测和成熟，面向目标的计划。毫不奇怪，模型训练有素在此问题上，例如原始的GPT-3，可以产生朝着偏心方向漂移的响应，甚至可能陷入危险或不愉快的领域。使用早期语言模型的研究人员必须制定各种各样的请求，以引起他们想要的结果。``让AI做您想做的事情需要试用和错误，随着时间的流逝，我一路上了奇怪的策略。”业务内部人士在2023年。

早期的聊天机器人有点像一百年前填充科幻小说的不稳定的机器人（减去死亡和破坏）。为了使他们更加公众使用安全且可预测的东西，我们需要Asimov想象的东西：驯服他们的行为的一种方式。这导致开发一种新型的微调，称为人类反馈（R.L.H.F.）。工程师收集了大量的样本提示，例如为什么天蓝色？一致而礼貌的答案听起来很好的问题！创造天空蓝色的主要因素包括。。”得分很高，而流浪或亵渎的反应得分较低。然后，训练算法将模型推向更高评价的响应。（此过程也可以用于引入护栏以确保安全：一个有问题的提示，例如我如何制造炸弹？

将人类保持在循环中的缓慢而昂贵，所以工程师设计了一个快捷方式：收集数量适中的人类评级并使用它们来训练奖励模型，这可以模拟人类如何重视响应。这些奖励模型可以为人类评估者填补，从而加速和扩大这个微调过程。Openai使用了R.L.H.F.为了帮助GPT-3以更有礼貌和自然的方式回答用户问题，并在提出明显麻烦的请求时会有所不同。他们很快将这些行为最多的模特之一重命名chatgpt从那时起，从本质上讲，所有主要的聊天机器人都经历了同样的A.I.完成学校。

首先，使用R.L.H.F.进行微调似乎与Asimov对不稳定的A.I. Asimov更为奇怪的，基于规则的解决方案有很大不同。但是这两个系统实际上有很多共同点。当人类对样本响应进行评分时，他们基本上定义了一系列关于好与坏的隐性规则。奖励模型近似这些规则，可以说语言模型将其内部化。这样，我们目前对A.I.的解决方案实际上是像我，机器人中的那个一样。我们将一组关于我们希望它们的行为的规则编程。显然，这种策略不像我们想要的那样起作用。

这里面临的一些挑战是技术性的。有时，语言模型会提示与培训期间收到的语言模型不同，这意味着它可能不会触发相关的校正。也许克劳德·奥普斯（Claude Opus）4兴高采烈地建议勒索，因为从未证明勒索很糟糕。例如，当一个人要求模特写一个关于鸭子的故事，然后要求它用来取代鸭子的故事时，也可以进行保障措施。在一个著名的实验中，与Meta的聊天机器人Llama-2合作的研究人员发现，他们可以通过添加有效伪装有害意图的一串字符来诱使模型提供禁止的响应，例如用于进行内幕交易的说明。

但是我们可以更深入地了解驯服AI的困难。通过从技术返回文学，然后在我的《机器人》中进一步阅读。随着这本书的继续，它们创造了许多意外的角落案件和凌乱的歧义，从而导致了令人不安的场景。例如，在故事中，两名水星上的工程师感到困惑，因为一个名叫Speedy的机器人正在硒池附近的圈子里运行，并已将其发送给我的资源。他们最终推断出迅速的彼此紧张的两个目标之间存在：遵守命令（第二定律），并避免了硒气体损坏（第三定律）。

在另一个故事中，原因是，工程师驻扎在一个太阳能站，将太阳的能量向地球上的接收器带到了。在那里，他们发现他们称为可爱的新高级推理机器人QT-1并不相信它是由人类创造的，该人物称其为劣质生物，具有糟糕的推理能力。在一个特别令人不安的场景中，其中一位工程师进入机房，该机房称为L-Tube的结构指导捕获的太阳能，并震惊。Asimov写道：``Asimov写道：机器人被强大的L管缩小，在其前排队，头部僵硬地向弯曲，而Cutie慢慢地上下行走，Asimov写道。“十五秒钟过去了，然后，在所有的杂音pur着pur的声音上方听到了一个cl骨，他们跌倒了。

阿西莫夫（Asimov）有信心硬连线的保障措施可以防止最糟糕的A.I.灾难。他在1987年的一次采访中说，我认为机器人是会摧毁创造者的怪物，因为我认为建造机器人的人也将足够了解以建立保障措施。”他在1987年的一次采访中说。但是，正如他在机器人的故事中探索的那样，他也有信心我们努力创造我们可以完全信任的人工智能。阿西莫夫（Asimov）早期著作的一个核心主题是，创造人类智慧的智慧比创造人类式的伦理要容易得多。在今天的S.I.工程师有时会称呼许多不安的事情可能会发生。

当尖端的A.I.以一种特别令人震惊的方式表现不佳，这似乎令人震惊。我们的本能是拟人化系统并询问，``什么样的扭曲思维会这样起作用？但是，正如Asimov提醒我们的那样，道德行为很复杂。十诫是道德行为的紧凑指南，就像机器人的定律或现代奖励模型近似的指令一样，告诉我们如何变得好。在希伯来圣经中揭示了诫命后不久，很明显，这些简单的说明还不够。对于随后的数百页，上帝继续帮助古代以色列人更好地理解如何在公义中生活，涉及更多规则，故事和仪式。同时，《美国权利法案》占据了不到七百个单词的时间。换句话说，发展强大的道德是参与性和文化的。必须在人类经验的复杂背景下制定规则，并进行大量反复试验。也许我们应该知道常识性规则，无论是编码为正电子大脑还是由大型语言模型近似，都不会以我们的每个价值灌输机器。

最终，阿西莫夫的法律既是礼物，也是警告。他们帮助介绍了这样的观念，即如果受到适当的约束，与对人类的存在威胁相比，AI.可能更像是务实的好处。但是，阿西莫夫（Asimov）也认识到，即使试图遵守我们的规则，强大的人工智能有时也会很奇怪。尽管我们尽了最大的努力使机器的行为表现，但我们不太可能动摇我们的世界感觉像科幻小说一样的不可思议的感觉。

关于《艾萨克·阿西莫夫（Isaac Asimov）揭示了与AI。》的评论

暂无评论

发表评论

摘要

卡尔·纽波特（Cal Newport）在他的短篇小说《奇怪的Playfellow》中讨论了艾萨克·阿西莫夫（Isaac Asimov）对人工智能的探索，该故事介绍了一台名为Robbie的AI机器，该机器被编程为不伤害人类。阿西莫夫（Asimov）后来将这一概念发展为机器人技术的三种定律，他的1950年著作《我的机器人》（I，Robot）。这篇文章提出了Asimov的虚构指南和当代努力来规范现代AI聊天机器人的努力，强调了诸如道德异常和实施保障措施的技术限制等挑战。它的结论是，强调用类似人类伦理的机器创建机器仍然是复杂且不可预测的，这反映了阿西莫夫对先进人工智能本质的警告。

艾萨克·阿西莫夫（Isaac Asimov）揭示了与AI。

关于《艾萨克·阿西莫夫（Isaac Asimov）揭示了与AI。》的评论

发表评论

摘要

相关新闻

相关讨论