英语轻松读发新版了,欢迎下载、更新

拟人化刚刚分析了700,000个克劳德对话,并发现其AI具有自己的道德准则

2025-04-21 15:00:00 英文原文

作者:Michael Nuñez

加入我们的每日和每周的新闻通讯,获取有关行业领先的AI覆盖范围的最新更新和独家内容。了解更多


人类,由前Openai雇员创立的AI公司已将空前的分析它的AI助手如何克劳德在与用户的实际对话中表达值。该研究今天发布,揭示了与公司目标的放心,以及有关边缘案例的一致性,可以帮助您确定AI安全措施中的脆弱性。这

学习检查了700,000个匿名对话,发现克劳德在很大程度上维护了该公司乐于助人,诚实,无害框架在将其价值调整到不同背景的同时 - 从关系建议到历史分析。这是最雄心勃勃的尝试之一,即经验评估AI系统在野外的行为是否与其预期的设计相匹配。

我们的希望是,这项研究鼓励其他AI实验室对其模型的价值观进行类似的研究。测量AI系统的值是一致研究和理解模型是否与培训保持一致的核心。”

在AI助手的第一个全面的道德分类学内部

研究小组开发了一种新颖的评估方法,以系统地对实际的克劳德对话中表达的值进行分类。过滤主观内容后,他们分析了308,000多个相互作用,创建了他们所描述的AI值的第一个大规模经验分类法。

分类法将价值观分为五个主要类别:实践,认识论,社会,保护和个人。在最粒状的层面上,该系统确定了3,307个独特的价值观,从专业人士等日常美德到复杂的道德概念,例如道德多元化。

Huang告诉VentureBeat。令人惊讶的是,花费大量时间思考所有这些价值观,并建立一个分类法以相互组织它们 - 我觉得这也教会了我关于人类价值观系统的一些知识。”

该研究到达了一个关键的人类时刻,该时期最近推出了克劳德·马克斯,旨在与OpenAI类似产品竞争的每月200美元订阅层。该公司还扩大了克劳德的功能Google工作区根据最近的公告,集成和自主研究功能将其定位为企业用户的真正虚拟合作者。

克劳德如何遵循其培训以及AI保障措施可能失败的地方

研究发现,克劳德通常遵守人类的亲社会愿望,强调了诸如用户启用,认知谦卑,诸如跨多种互动的患者健康之类的价值观。但是,研究人员还发现了克劳德(Claude)表达与培训相反的价值观的令人不安的情况。

总体而言,我认为我们认为这一发现既是有用的数据又是机会,”黄解释说。这些新的评估方法和结果可以帮助我们识别和减轻潜在的越狱。重要的是要注意,这是非常罕见的情况,我们认为这与克劳德(Claude)的越狱产量有关。

这些异常包括对统治性和不道德性的表达方式,重视人类的明确目的是在克劳德(Claude)的设计中避免。研究人员认为,这些案例是由用户采用专业技术绕过克劳德(Claude)的安全护栏的,这表明评估方法可以作为检测此类尝试的预警系统。

为什么AI助手会根据您的要求改变其价值

也许最令人着迷的是,克劳德(Claude)表达的价值观在上下文中转移,反映了人类行为。当用户寻求关系指导时,克劳德(Claude)强调了健康的边界和相互尊重。在历史事件分析中,历史准确性优先。

Huang说:“我对克劳德(Claude)的关注着专注于许多不同任务的诚实和准确性,我不一定会期望这个主题是优先事项。”例如,“智力谦卑”是关于AI的哲学讨论的最高价值,在创建美容行业营销内容时,专业知识是最高价值,而历史准确性是讨论有争议的历史事件时的最高价值。

该研究还研究了克劳德(Claude)如何对用户自己表达的价值做出反应。在28.2%的对话中,克劳德(Claude)强烈支持用户价值观 - 可能提出有关过度愉快性的问题。但是,在6.6%的互动中,克劳德(Claude)通过在提供心理或人际关系建议时添加新观点的同时确认用户价值观。

最明显的是,在3%的对话中,克劳德(Claude)积极抵制用户价值。研究人员认为,这些罕见的倒退实例可能会揭示克劳德(Claude)的最深,最不可动摇的价值观,类似于人类核心价值观在面临道德挑战时的出现。

``我们的研究表明,有一些类型的价值观,例如智力诚实和预防伤害,克劳德(Claude)在日常的日常互动中表达并不常见,但如果被推动,会捍卫它们。”具体来说,这是这些类型的道德和知识的价值观,当推动时往往会直接表达和辩护。

突破性技术揭示了AI系统的实际思考

拟人的价值观研究是基于公司通过所谓的大型语言模型的更广泛的努力。机械性解释性基本上是逆向工程的AI系统,以了解其内部工作。

上个月,人类研究人员发表了开创性的工作这使用了他们所说的显微镜跟踪克劳德的决策过程。该技术揭示了违反直觉的行为,包括在撰写诗歌时提前计划,并使用非常规的解决问题的方法进行基本数学。

这些发现挑战了关于大语言模型的运作方式的假设。例如,当被要求解释其数学过程时,克劳德(Claude)描述了一种标准技术,而不是其实际的内部方法揭示了AI解释如何与实际操作不同。

人类研究员约书亚·巴特森(Joshua Batson)告诉我们,我们发现了模型的所有组成部分,或者是上帝的观点,这是一种误解。麻省理工学院技术评论在三月。``某些事情都集中在焦点,但其他事情仍然不清楚 - 显微镜的扭曲。

人类研究对企业AI决策者意味着什么

对于评估其组织AI系统的技术决策者,人类的研究提供了几个关键的收获。首先,它表明当前的AI助手可能表达了明确编程的价值观,从而提出了有关高风险业务环境中意外偏见的问题。

其次,研究表明,值对齐不是二进制命题,而是存在于环境变化的频谱中。这种细微差别使企业采用决策变得复杂,特别是在明确的道德准则至关重要的受监管行业中。

最后,该研究强调了对实际部署中AI值进行系统评估的潜力,而不是仅依靠预释放测试。这种方法可以随着时间的流逝而进行持续监控道德漂移或操纵。

``通过在与克劳德(Claude)的现实互动中分析这些价值观,我们旨在为AI系统的行为以及它们是否按预期工作提供透明度 - 我们认为这是负责AI的AI发展的关键。”

人类已经发布了值数据集公开鼓励进一步的研究。该公司收到了140亿美元的股份来自亚马逊和其他支持谷歌,似乎利用透明度作为对Openai等竞争对手的竞争优势,Openai最近的400亿美元资金回合(包括Microsoft作为核心投资者)现在重视它的3000亿美元。

人类已经发布了值数据集公开鼓励进一步的研究。公司支持的公司亚马逊的80亿美元结束Google的30亿美元,正在利用透明度作为对OpenAI等竞争对手的战略差异化。

虽然众人目前保持估值615亿美元在最近的资金回合之后,Openai的最新400亿美元的资本筹集其中包括长期合作伙伴Microsoft的大量参与将其估值推向3000亿美元

虽然人类的方法学提供了对AI系统在实践中如何表达价值的前所未有的可见性,但它具有局限性。研究人员承认,定义表达价值的内容本质上是主观的,并且由于克劳德本身推动了分类过程,因此其自身的偏见可能影响了结果。

也许最重要的是,该方法不能用于预部部门评估,因为它需要实质性的现实对话数据才能有效运行。

Huang解释说,这种方法是针对模型发布后分析模型的,但是对该方法的变体以及我们从撰写本文中得出的一些见解,可以帮助我们在广泛部署模型之前捕获价值问题。” Huang解释说。我们一直在努力建立这项工作以做到这一点,我对此感到乐观!

随着AI系统变得越来越强大和自治,最近增加了Claude的能力独立研究主题和访问用户的整体Google工作区理解和对齐其价值变得越来越重要。

研究人员在论文中得出结论。•如果我们希望这些判断与我们自己的价值观(毕竟是AI对齐研究的核心目标)一致,那么我们就需要测试模型在现实世界中表达的价值观的方法。”

每日有关VB每日业务用例的见解

如果您想给老板留下深刻的印象,VB Daily可以为您提供服务。我们为您提供有关公司在制定AI的工作,从监管转变到实际部署的公司,因此您可以分享最大投资回报率的见解。

阅读我们的隐私政策

感谢您的订阅。查看更多VB时事通讯在这里

发生错误。

关于《拟人化刚刚分析了700,000个克劳德对话,并发现其AI具有自己的道德准则》的评论


暂无评论

发表评论

摘要

Anthropic发布了一项开创性的研究,分析了其AI助手Claude在用户交互期间如何表达价值,从而提供了对现实世界中大语言模型行为的前所未有的见解。研究强调,当前的AI助手可能表达未明确编程的价值,并强调了正在进行的道德一致性监控的重要性。拟人化将透明度用作竞争策略,最近公开发布其数据集,以鼓励对AI伦理和价值一致性的进一步分析和研究。这项研究强调了将AI部署在受规律的行业中的复杂性以及对价值一致性的细微差别方法的需求。