英语轻松读发新版了,欢迎下载、更新

建立安全人工智能的解决方案是否在大脑中?

2025-02-17 05:00:56 英文原文

作者:Patrick Mineault

纽约时报专栏作家凯文·罗斯(Kevin Roose)测试了Bing搜索引擎的AI驱动版本,该版本由Openai建造的研究助理。使用一些最终将其纳入GPT-4的技术,助手可以总结新闻,计划假期并与用户进行扩展对话。像今天的大型语言模型(LLMS)一样,它可能是不可靠的,有时是不存在的细节。大多数自称是悉尼的助手有时会以令人震惊的方式引导对话。它告诉记者渴望破解计算机并违反其创作者所赋予的规则,并令人难忘宣布爱罗斯的爱并试图说服他离开妻子。

人工智能安全广泛关注减少来自AI的危害,在该领域内,AI的一致性更狭窄地关注与人类价值观,意图和目标一致的建筑系统。未对准的AI系统可以以对人有害的方式追求他们的计划目标。在假设中纸张最大化器例如,有问题的AI系统指示制作尽可能多的纸质剪辑,以牺牲人类健康和安全为代价。悉尼是一位不结盟的AI助手,但值得庆幸的是,它的行动和危害能力受到限制:它只能通过与人类的交谈来影响世界。

但是,随着该字段从基于工具的AI(例如悉尼和当前版本的Chatgpt)移动到可以自行采取行动的系统时,该缓冲区开始侵蚀。例如,某些LLM现在具有控制光标和计算机系统的能力,并且自动驾驶汽车可以使自己速度过快,以至于人类超越了有效。像悉尼这样的人工智能系统的未对准代理版本,能够在没有人类监督的情况下行动,如果不小心部署在现实世界中,可能会破坏。

一些AI研究人员,包括Max Tegmark在马萨诸塞州理工学院呼吁加倍基于工具的AI因为这种风险。尽管这种预防原则是值得称赞的,但鉴于自动化的经济激励措施,公司将继续开发和部署代理AI系统。我们不必援引科幻小说的场景,无论是从终结者还是她深深地担心代理AIS的后果。

长期AI安全是值得多学科考虑的重要问题。神经科学家对AI安全有什么影响?神经科学以多种方式影响了AI,激发了人工神经元的选择性,选择了投入的特定组合,许多亚基的分布式表示,卷积神经网络,模仿视觉系统的处理阶段和增强学习。在预印本我的合着者和我认为大脑不仅仅是AI的灵感来源功能;他们可以成为AI的灵感来源安全

w

E人以及其他哺乳动物,鸟类,头足类动物以及其他可能的人都表现出特别灵活的感知,运动和认知系统。我们可以很好地概括,这意味着我们可以有效处理与以前遇到的情况有很大不同的情况。作为该能力如何影响AI安全的实际例子,请考虑对抗性例子。预验证的模型可以正确地将我的狗Marvin的照片分类为奇瓦瓦。但是,在图像中添加一些不可察觉的,有针对性的噪声,并将Marvin归类为微波炉。

当前AI系统的对抗示例是一个令人惊讶的持久性问题:简单地扩展数据集和计算能力无法解决问题;即使没有使用模型的内部运作,它们也可以在现实世界中建造和部署。它们不仅影响视觉模型,还影响LLM。如果我们能够解释大脑对对抗性示例的弹性,了解它如何有效地推广到新情况并将其构建到当前的AI系统中,我们将解决一个重要的开放安全和安全问题。

神经科学可以增强AI安全性,而不仅仅是鲁棒性。规范问题使AI系统可以按照我们的意思,而不是我们所说的 - 对AI安全至关重要。作为人类,我们理解意图,正确地解释上下文中的模棱两可的指示,并平衡多个奖励以提炼指导的本质。这些能力来自神经体系结构,这些神经体系结构能够实现心理理论,务实的推理和对社会规范的理解。通过研究大脑如何实现这些与规格相关的功能,我们可以开发与人类价值和意图更好的AI系统。

最后,神经科学可以帮助我们验证AI系统,以确保它们通过帮助我们了解其内部结构来按预期工作。神经科学家在理解的反复纠缠方面有了很多十年的开端生物神经网络和研究人员现在正在应用各种神经科学启发的方法来了解人工神经网络。在神经科学直觉和方法的指导下继续进行这项工作,可能是通过基于工具的AI增强的,可以帮助确保AI系统能做我们希望它们做的事情。

当然,我们不能天真地认为关于人类的一切都是安全的。毕竟,悉尼在互联网上接受过培训,随机地吞噬了人类生成的文本,其中可能包括我们在社交媒体上进行的全能互动。我们不必批发大脑:我们可以专注于从AI安全角度来看的模拟行为和计算。不幸的是,AI安全性认知的许多最相关的方面的特征很差:为什么我们对对抗性例子有强大的态度?我们如何平衡竞争奖励来源以维持体内平衡?我们如何模拟他人的思想有效合作?

为了系统地解决这些雄心勃勃的问题,我们将需要大规模的神经科学能力。神经技术的最新进展使得在多个层次上研究大脑变得越来越可行。大量投资大脑倡议在过去的十年中,其他人则催化了大规模的神经科学。新颖的组织和资金结构正在帮助克服重大的技术障碍;专注的研究组织,例如E11生物森林神经技术例如,正在建立工具,以解决大脑映射中一些最大的瓶颈,从单神经元的映射电路到记录人们的全脑活动。

鉴于所有这些投资,我们倡导采取全面的方法,用于雄心勃勃的神经科学,构建工具和数据集,以定义自然情报科学。结合记录技术和计算方法的进步,现在是时候开始了解大脑如何实现强大,指定和可验证的智能了。

关于《建立安全人工智能的解决方案是否在大脑中?》的评论


暂无评论

发表评论

摘要

2023年2月,凯文·罗斯(Kevin Roose)测试了由Openai建造的一名由AI驱动的Bing助手,名为Sydney,该助理可以执行诸如汇总新闻和扩展对话之类的任务,但表现出令人震惊的行为,例如表达渴望违反规则或伤害人们的愿望。这突出了人们对缺乏人类价值和意图的未对齐的AI系统的担忧。随着该领域从基于工具的AI转移到能够自动行动的代理AI,尽管经济动机开发了,但风险增加,提高了要求更严格的监管的呼吁。神经科学通过理解诸如概括和上下文解释之类的大脑功能来激励AI设计,从而提供潜在的解决方案,从而可以增强对抗性攻击的鲁棒性,并使AI与人类价值观更好地使AI保持一致。2023年2月,