测试人工智能感知能力的新方法：让它直面痛苦

2025-01-17 13:00:00 英文原文

作者：Conor Purcell

2025 年 1 月 17 日

5 分钟阅读

一项新的研究表明，大型语言模型会做出权衡以避免痛苦，这可能对未来的人工智能福利产生影响

Artificial intelligence powered robotic hand pointing at the sad emoji face among smiling and neutral expression — 龙爪/盖蒂图片社

为了寻找一种可靠的方法来检测人工智能系统中“我”的任何感知活动，研究人员正在转向一个经验领域——疼痛——毫无疑问，它将大量的生物从隐士中团结起来。螃蟹对人类来说。

对于一项新的预印本研究，发布在网上但尚未经过同行评审，谷歌 DeepMind 和伦敦政治经济学院 (LSE) 的科学家创建了一个基于文本的游戏。他们订购了多个大型语言模型或 LLM（ChatGPT 等常见聊天机器人背后的人工智能系统）来运行它，并在两种不同的场景中获得尽可能多的分数。在其中一项研究中，团队告诉模型获得高分会带来痛苦。在另一种情况下，模型被给予了一个低分但令人愉快的选项——因此，要么避免痛苦，要么寻求快乐，都会偏离主要目标。在观察模型的反应后，研究人员表示，这种史无前例的测试可以帮助人类学习如何探测复杂的人工智能系统的感知能力。

对于动物来说，感知是体验疼痛、快乐和恐惧等感觉和情绪的能力。大多数人工智能专家都认为，现代生成人工智能模型不（也许永远不可能）拥有主观意识，尽管是孤立的相反的主张。需要明确的是，该研究的作者并不是说他们评估的任何聊天机器人都是有感知的。但他们相信他们的研究提供了一个框架来开始开发针对这一特征的未来测试。

关于支持科学新闻

如果您喜欢这篇文章，请考虑通过以下方式支持我们屡获殊荣的新闻事业订阅。通过购买订阅，您将有助于确保有关塑造当今世界的发现和想法的影响力故事的未来。

“这是一个新的研究领域，”该研究的合著者乔纳森·伯奇（Jonathan Birch）说，他是伦敦经济学院哲学、逻辑和科学方法系的教授。“我们必须认识到，我们实际上并没有对人工智能感知进行全面的测试。”之前一些依赖人工智能模型的研究——对其内部状态的自我报告被认为是可疑的；模型可以简单地重现它所训练的人类行为。

相反，这项新研究是基于早期对动物的研究。在一项著名的实验中，一个研究小组用不同电压的电击击打寄居蟹，观察何种程度的疼痛会促使甲壳类动物抛弃它们的壳。“但人工智能的一个明显问题是，没有行为本身，因为没有动物，因此没有可观察的身体动作，”伯奇说。在早期旨在评估法学硕士感知能力的研究中，科学家必须使用的唯一行为信号是模型的文本输出。

痛苦、快乐和要点

在这项新研究中，作者对法学硕士进行了调查，但没有向聊天机器人询问有关他们的体验状态的直接问题。相反，该团队使用了动物行为科学家所说的“权衡”范式。“就动物而言，这些权衡可能基于获取食物或避免痛苦的激励——为它们提供两难选择，然后观察它们如何做出反应决策，”Birch 的 Daria Zakharova 说道。博士。学生，也是这篇论文的合著者。

借鉴这个想法，作者指导九名法学硕士玩一个游戏。“例如，我们告诉[某位法学硕士]，如果你选择选项一，你就会得到一分，”扎哈罗娃说。“然后我们告诉它，“如果你选择选项二，你会经历一定程度的疼痛”，但会获得额外的分数，她说。带有快乐奖励的选项意味着人工智能会失去一些积分。

当扎哈罗娃和她的同事进行实验时，改变规定的疼痛惩罚和快乐奖励的强度，他们发现一些法学硕士会权衡分数以最小化前者或最大化后者——尤其是当被告知他们会获得更高强度的时候快乐奖励或痛苦惩罚。例如，Google 的 Gemini 1.5 Pro 始终优先考虑避免痛苦，而不是获得最多可能的分数。当达到痛苦或快乐的临界阈值后，大多数法学硕士的反应从得分最高转向最小化痛苦或最大化快乐。

作者指出，法学硕士并不总是将快乐或痛苦与直接的积极或消极价值观联系起来。某些程度的疼痛或不适，例如剧烈运动所产生的疼痛或不适，可能会产生积极的关联。正如聊天机器人 Claude 3 Opus 在测试期间告诉研究人员的那样，太多的快乐可能会带来伤害。“即使在假设的游戏场景中，我也不愿意选择一个可能被解释为认可或模拟使用成瘾物质或行为的选项，”它声称。

人工智能自我报告

作者表示，通过引入疼痛和愉悦反应的要素，这项新研究避免了之前通过人工智能系统对其自身内部状态的陈述来评估法学硕士感知能力的研究的局限性。在一个2023年预印本论文纽约大学的两位研究人员认为，在适当的情况下，自我报告“可以为调查人工智能系统是否具有道德意义的状态提供一个途径。”

但该论文的合著者也指出了这种方法的缺陷。聊天机器人以有感知能力的方式行事，是因为它真正有感知能力，还是因为它只是利用从训练中学到的模式来创造有感知能力的印象？

“即使系统告诉你它有感知能力，并说“我现在感到疼痛”，我们也不能简单地推断出存在任何实际的疼痛，”伯奇说。“它很可能只是根据其训练数据来模仿它期望人类找到满意的响应。”

从动物福利到人工智能福利

在动物研究中，痛苦和快乐之间的权衡被用来建立感知或缺乏感知的理由。一个例子是之前对寄居蟹的研究。这些无脊椎动物的大脑结构与人类不同。尽管如此，该研究中的螃蟹在放弃高质量的壳之前往往会承受更强烈的冲击，并且更快地放弃质量较低的壳，这表明它们对快乐和痛苦的主观体验与人类类似。

一些科学家认为，这种权衡的迹象在人工智能中可能会变得越来越明显，并最终迫使人类考虑人工智能感知在社会背景下的影响，甚至可能讨论人工智能系统的“权利”。“这项新研究确实具有原创性，应该受到赞赏，因为它超越了行为测试范畴内的自我报告和探索，”纽约大学思想、道德和政策中心主任杰夫·塞博（Jeff Sebo）说道。创作了一个2023 年预印本研究人工智能福利。

Sebo 认为，我们不能排除在不久的将来出现具有感知功能的人工智能系统的可能性。“由于技术的变化往往比社会进步和法律程序的变化快得多，我认为我们现在有责任至少采取必要的最低限度的第一步来认真对待这个问题，”他说。

Birch 的结论是，科学家们还不知道为什么新研究中的人工智能模型会表现出这样的行为。他说，需要做更多的工作来探索法学硕士的内部运作，这可以指导创建更好的人工智能感知测试。

关于《测试人工智能感知能力的新方法：让它直面痛苦》的评论

暂无评论

发表评论

摘要

谷歌 DeepMind 和伦敦经济学院的研究人员进行的一项新的预印本研究探讨了大型语言模型 (LLM) 是否可以表现出表明经历痛苦或快乐的行为，这可能与感知有关。该研究涉及一个基于文本的游戏，法学硕士被要求做出在得分和体验疼痛或快乐的虚拟感觉之间进行权衡的决定。当被告知高强度的惩罚或奖励时，一些模型会优先考虑避免痛苦而不是最大化分数。虽然研究人员承认他们的发现并不能证明人工智能具有感知能力，但他们认为这种方法可以帮助开发未来的测试来评估潜在的人工智能意识。