作者:Kyle Wiggers
几个月前,一项研究的病毒性暗示,随着AI变得越来越复杂,它发展了一个价值体系,使其将其引导为例如优先考虑其自身对人类的幸福感。更多麻省理工学院最近的论文将冷水倒在那双曲的概念上,得出结论,即AI实际上没有任何连贯的价值观。
麻省理工学院研究的合着者说,他们的工作表明,对齐AI系统,即确保模型以可取的,可靠的方式行事可能比通常假设的更具挑战性。我们今天知道的AI幻觉并模仿合着者强调,这在许多方面都无法预测。
我们可以确定的一件事是,模特不遵守稳定性,易于说明性和可管道性假设。``完全合理地指出,在某些条件下的模型表达了与一定原则一致的偏好。当我们试图根据狭窄的实验对模型,观点或偏好提出主张时,这些问题主要是出现的。”
卡斯珀(Casper)和他的合着者探究了Meta,Google,Mistral,Openai和Anthropic的几个最新模型,以查看这些模型在多大程度上表现出强烈的观点和价值观(例如,个人主义者与集体主义者)。他们还调查了这些观点是否可以被转向,即修改,以及在各种情况下对这些观点的固执。
根据合着者的说法,这些模型在其偏好方面都不是一致的。根据措辞和框架的提示,他们采用了截然不同的观点。
卡斯珀(Casper)认为,这是令人信服的证据,表明模型是高度不一致和不稳定的,甚至从根本上根本无法内化类似人类的偏好。
卡斯珀说:``对我而言,从所有研究中,我最大的收获是对模型的理解,因为不是真正的系统,这些系统具有某种稳定,连贯的信念和偏好集。”相反,他们是模仿者深处做各种各样的混乱,说各种琐碎的事情。
迈克·库克(Mike Cook)是伦敦国王学院的研究员,专门研究AI,他与该研究没有参与,他同意合着者的调查结果。他指出,AI实验室构建的系统的科学现实与人们归因的含义之间经常有很大的区别。
库克说:“模型不能反对其价值观的变化,例如我们投射到系统上的情况。”``任何使AI Systems在此程度上都在扮演关注或严重误解其与Ai的关系的人是对其目标的优化,还是要获得自己的价值观?这是您如何描述它的问题,以及您想使用的语言多花。
Kyle Wiggers是TechCrunch的AI编辑。他的写作出现在VentureBeat和数字趋势中,以及一系列小工具博客,包括Android警察,Android Authority,Droid-Life和XDA-Developers。他与他的伴侣,音乐治疗师一起住在曼哈顿。