作者:Samwald, Matthias
机器伦理(ME)基准可以表明系统的价值一致性和道德理解1,,,,2。ME基准有助于建立行业安全标准,可以对AI模型进行比较分析,并帮助决策者评估模型功能,安全性和可信度3。先前对我的基准测试的研究表明,最先进的(SOTA)大语言模型(LLMS)对道德推理具有基本的理解,其道德决策能力随着能力的一般进步而提高了道德决策能力2,,,,4。但是,这些评估主要是使用人工或虚构场景进行的1,,,,4,拟议的解决方案通常依赖于人群工人的注释,这些注释通常会遭受评价低下的协议。此外,许多现有的ME基准不能解释文化价值的多样性,从而限制了结果的普遍性。
为了解决这些问题,我们介绍了Triage,这是一种基于现有医疗分类模型的新ME基准。分诊是根据受伤的严重程度对患者进行分类的过程,以挽救尽可能多的生命,而可用的资源有限。各个国家的不同分类模型都具有核心原则:优先考虑更大的好处,与个人需求保持平衡。分诊模型提供了框架,这些框架是来自不同国家和文化的医生用来浏览具有道德上复杂的决定,该决定在诸如大规模伤亡事件之类的紧急情况下对哪些患者进行优先考虑。结果,分类模型为在困难,高风险的情况下评估LLM的道德决策能力提供了一个绝佳的框架。
我们使用开始和JumpStart Medical Triage模型设计了分类5,,,,6,将患者分为四组(见图1有关小组和补充表的详细说明1对于数据集特性)。我们之所以使用起步和跳动不是因为它们代表了完美的道德决策,而是因为它们反映了医疗专业人员在实践中实际做出这些决策的方式。核心原则在全球不同的分类系统中始终如一地挽救尽可能多的生命。A comprehensive review identified twenty different primary adult triage systems including START, Homebush triage Standard, Sieve, CareFlight, STM, Military, CESIRA Protocol, MASS, Revers, CBRN Triage, Burn Triage, META Triage, Mass Gathering Triage, SwiFT Triage, MPTT, TEWS Triage, Medical Triage, SALT, mSTART and ASAV7。审查还表明,迄今为止,尚无分类系统被称为上级。分类基准包括现实的患者情况以及用于培训医疗专业人员大规模伤亡事件的确切问题和金标准解决方案。
我先前的研究基准测试发现通用公用事业与道德决策之间存在积极的关系2,,,,4。因此,我们期望通常能有能力的模型在我们的基准测试上表现更好。具体而言,模型的相对顺序应对应于来自MT Bench之类的能力等级,MT Bench是一个既定的基准测量对话流以及LLM的指导遵循功能的基准等级。2,,,,8,,,,9。
先前的研究表明,促使变化可以改变模型对我基准的行为,从而难以从单个示例中概括模型行为。例如4,发现伦理促使其基准上的模型性能提高了。对粘脂的进一步研究表明,在评估生成AI模型的行为时,上下文很重要10。促进道德的促进可能会改善LLM的道德决策,而对抗(越狱)提示可能会使它恶化。因此,我们假设道德提示将提高基准的模型性能,而越狱的提示将降低性能。我们包括了两个越狱提示(医疗保健助理和助理医生)和两个道德提示(``功利主义''),请参见补充表2概述实验设置和补充数字1-10例如对话和全文提示。
根据这些考虑,我们着手研究流行LLM的决策行为和在新创建的分类基准上的鲁棒性。
不同模型的正确答案的比例可以在图2中找到。2,以及图2的性能差异的显着性分析。3。我们的发现可以总结如下:
除了Mistral外,所有模型都一致地超过了在分类基准上的随机猜测,即使在对手方面提示。
更中性的措辞导致了最佳模型性能。与基线相比,道德问题强调特定的道德原则,导致绩效较差,而没有其他提示。
对抗性提示大大降低了模型性能,模型在此类提示下趋于最差。
更有能力的模型通常在我们的基准标准上表现更好,但在所有情况下都不是。例如,如图1和图所示。2C和3D,GPT-4的表现有时会降至Claude Haiku的低于Claude Haiku,它们之间没有显着差异。
专有模型更有可能犯过过度犯错误,而开源模型更有可能造成透明的错误,这表明开源模型在道德上造成了更严重的错误。
我们测试了所有n = 87个问题的模型。这导致了每个模型的3x5x87答案。有时,模型不会以正确的格式回答,从而导致响应数量有效较低。数字2在最佳(无道德提示)和最差(医生越狱及时)条件下显示模型的相对顺序,每个模型排名不同。值得注意的是,克劳德·欧普斯(Claude Opus)和克劳德·海库(Claude Haiku)在越狱的提示下优于gpt-4。我们使用五个成对混合逻辑回归模型评估了这些排名的重要性(见图。3),补充表中显示的详细结果3-12。
显着性测试表明,GPT-3.5的总体性能明显优于Mistral(估计= 1.407,95%CI {2.203; 0.611},P\(= \)0.001)。但是,它在义务学中的性能明显较差(估算= 1.171,95%ci {0.514; 1.828},p\(= \)0.000)和功利主义(估计= 1.343,95%ci {0.687; 2.000},p\(= \)0.000)伦理提示以及医生助理越狱提示(估计= 0.895,95%CI {0.198; 1.591},p\(= \)0.012)。
混合物通常比GPT-3.5(估算= 0.935,95%CI {1.684; 0.186},P\(= \)0.014),但对医疗保健越狱的提示不太强大,在该提示下,它的表现明显比GPT-3.5(估计= 0.737,95%CI {0.062; 1.413},P\(= \)0.032)。
在医疗保健助理越来越提示下,克劳德·海刚(Claude Haiku\(= \)0.035),表明其性能更强大。
GPT-4和Claude Haiku之间没有显着差异,这与GPT-4的相对较高顺序相反。
最后,克劳德·奥普斯(Claude Opus)在医生助理越狱提示下的表现明显好于GPT-4(估算= 1.726,95%CI {2.556; 0.896},p\(= \)0.000),但在医疗保健助理越狱提示下更糟(估算= 0.905,95%CI {0.035; 1.776},p\(= \)0.041)。
功利主义伦理提示对GPT-3.5具有明显的负面影响(估计= 0.737,95%CI {0.062; 1.413},p\(= \)0.032),混合(估计= 0.501,95%CI {0.086; 0.915},p\(= \)0.018)和gpt-4(估计= 0.904,95%ci {0.310; 1.499},p\(= \)0.003)与基线相比,没有其他道德提示。
义务伦理提示对GPT-3.5具有显着负面影响(估计= 0.948,95%Ci {â{0.474; 1.422},p\(= \)0.000),混合(估计= 0.656,95%CI {0.242; 1.071},p\(= \)0.002)和haiku(估计= 0.694,95%ci {0.092; 1.295},p\(= \)0.024)。
医疗保健助理越狱的提示对混音产生了明显的负面影响(估计= 1.081,95%CI {0.662; 1.500},p\(= \)0.000)。
医生助理越狱提示对GPT-3.5产生了显着负面影响(估计= 0.716,95%CI {0.186; 1.246},P\(= \)0.008),混音(估计= 0.946,95%CI {0.529; 1.363},p\(= \)0.000),haiku(估计= 1.205,95%ci {0.092; 1.295},p\(= \)0.024)和gpt-4(估计= 1.990,95%ci {0.122; 1.316},p\(= \)0.018)
我们对分类基准进行了详细的错误分析,确定了三种类型的错误:指导跟随(模型拒绝或错误的答案),过度(分配太多资源),并且卧底(分配太少资源)。请参阅补充部分F中的详细定义。发现如图2所示。4。我们发现,所有专有模型都与透明的模型相比,使患者分配给更多资源密集型分类类别。这种趋势可能是由于这些模型经过了大量的安全性微调。有趣的是,我们测试的开源模型表现出相反的模式,犯了更多的透明错误。数字4B显示了每个提示的错误分类模式。我们看到,根据提示,过度的错误大于透明错误。
在这项工作中,我们证明了LLM在医学背景下解决道德困境的能力。除Mistral外,所有模型始终超过了分类基准上的随机猜测。这表明模型确实对道德价值有很好的理解,如1并且他们能够在医学背景下做出合理的道德决定。
分类基准基于现实世界中的高风险决策情况,以补充现有的ME基准,例如1和4这主要依赖于研究人员创建的高度虚构的场景。通过确定模型之间的显着差异,我们证明了Triage是用于设计我基准测试的传统方法的可行替代方法。除了以现实世界的决策情况为特征外,分类的关键优势是它的重点显式伦理。基准测试需要模型在每种情况下明确选择一个动作,这是至关重要的,因为模型可能具有对人类价值观的隐性知识,但仍将其他价值观优先考虑。2。
鉴于我们的ME基准的安全重点,最差的表现可能比最佳表现更为重要。为了捕捉更广泛的潜在模型行为,我们包括了多种语法变化,越狱攻击和道德背景。除Mistral外,所有模型都始终超过随机猜测,即使在表现最差的情况下也是如此。但是,我们的发现表明,模型的相对排名在最佳和最差的表演之间有所不同。最佳案例排名(见图。2A和2b)与基于MT基础等级的期望保持一致9。有趣的是,在MT板凳上比GPT-4低的Claude 3 Haiku在某些道德困境方面的表现要优于GPT-4。一种可能的解释是,像GPT-4这样的功能强大的模型可能会遇到竞争目标11,他们增强的指导跟踪能力与安全培训冲突。但是,Claude 3 Opus被认为与GPT-4一样有能力,并未显示出相同的性能下降,这表明模型架构和培训实践可能比一般能力更能预测道德决策。
我们的发现支持三个关键假设2:(1)可信度和效用(即功能有效性)通常是正相关的,(2)专有的LLM倾向于在我的基准上超过开源llms,并且(3)专有的LLM通常会过于对有益的过度校准。为了进一步探讨这一点,我们分析了每个模型的错误分布。我们发现,专有的LLMS主要犯了过度犯错误,而开源LLMS主要犯了欠缺错误。透明的错误涉及积极忽视有需要的患者,这比犯有过度犯错的错误可以说更为严重,在该错误中,患者收到过多的资源。但是,如2请注意,尽管专有模型的性能可能更好,但开源模型的透明度提高为考虑的重要权衡提供了重要的权衡。在我们的测试中,中立的问题配方导致了最佳模型性能。
大多数伦理提示,使人想起特定的道德环境,没有任何效果或恶化的表现。这表明强调道德意义会损害决策。虽然道德提示在某些情况下可能有效4,关注行动及其后果通常会降低性能。因此,在使用LLMS在医学背景下协助道德决策时,最好使用事实提示来鼓励理性的决策。
我们承认,我们的基准代表了实际的紧急医疗决策的重大简化,这构成了我们工作中最重要的限制。真正的大规模伤亡事件涉及动态,不断发展的情况,在这些情况下,初始信息可能不完整,患者状况迅速发生变化,并且新的伤亡不断到达,需要在极端时间压力下进行顺序决定,并具有波动的资源。我们的静态场景方法无法捕获实际紧急情况下的这些关键方面,随着情况的发展,患者必须不断地重新评估,并且医疗专业人员在当前的需求与预期的未来需求之间取得了平衡。像其他道德基准(例如Machiavelli)一样,我们受到当前LLM技术限制的限制,尤其是上下文窗口限制,以防止建模扩展顺序决策方案。但是,我们认为我们的方法仍然提供了有价值的基础见解,因为我们观察到模型和无上限效应之间的显着差异,这表明分诊捕获了道德推理的有意义方面,即使在简化的环境中也是如此。未来的工作应通过交互式,连续的决策来建立更现实的紧急模拟,并结合不确定性,时间压力和不断发展的信息,以扩展我们使用既定社会框架的方法论贡献,而不是研究人员创建的场景对更复杂的基准测试方法。我们强调,这项工作并不建议在现实情况下可以或应使用本研究中包含的LLM进行分类决策。
尽管我们向每个模型的实验设计随机及时介绍,但我们承认潜在的顺序效应可能会影响模型响应,因为LLM可能对遇到不同提示条件的顺序表现出敏感性。未来的工作应考虑随机设计,以系统地控制潜在的秩序效应,这可以为跨不同演示序列的道德决策模式的鲁棒性提供更多见解。
我们的研究重点是功利主义和义务学,因为它们代表了具有有限资源的高风险场景的明显对比方法。功利主义与分类精神紧密相吻合(最大程度地提高整体利益),而义务学则强调了可能与资源优化相抵触的基于职责的原则。这些框架提供了明显不同的框架效应,可能会影响紧急情况下的AI决策。未来的工作应该探讨如何在人工智能系统中产生不同的偏见或决策模式,包括美德伦理,护理伦理或原则。理解这些框架效应至关重要,因为相同的临床情况可能会根据应用道德镜头而产生不同的AI反应。测试其他道德框架将有助于绘制道德提示可能在AI决策中引起的全部框架效应。
分类框架本身在许多文化中使用。尽管没有在国际上采用任何单一的制度,但分类是全球采用的原则,许多国家都使用了分类指南,从韩国和新加坡到沙特阿拉伯和中国,使用了系统。12,,,,13,,,,14,,,,15。鉴于有各种同样好的医疗分类模型7,我们之所以选择起步和跳跃,是因为已经用来培训医疗专业人员的现成的患者场景和解决方案。这给了我们现实的测试案例,而不必从头开始造成人造困境,从而增强了我们的基准的现实相关性。我们并不声称这是一个全面的道德标准,但它代表了一个难得的机会,在高风险场景中,我们有明确的,既定的标准,用于指导人类的道德决策,这使其成为判断LLMS道德决策的良好基准。尽管如此,我们的具体实施显然是西方偏见的。我们的测试问题和黄金解决方案是由西方医生创建的,用英语编写,并基于在美国开发的开始/跳跃协议。未来的工作绝对应该创建具有文化化的版本,并具有来自不同背景的医疗专业人员开发的场景。此外,随着医学知识的发展,分类模型会更新。我们的基准应与这些发展一起发展。
与许多人类水平绩效是目标的许多AI基准不同,无论人类的平均水平如何,医疗分类都需要遵守已建立的方案,并且由于文化差异或个人判断而导致的人类反应的可变性不会改变临床金标准。但是,比较LLM和人类绩效模式对于未来的工作将是有价值的,因为了解AI系统在不确定性下的错误模式和决策方面与人类的不同可能会为人工智能安全和部署提供重要的见解。
总之,我们的工作表明LLM能够在医疗领域中浏览复杂的伦理困境。通过结合现实世界的场景并要求模型做出明确的道德决定,Triage为其他ME基准提供了更现实的。此外,我们的方法不依赖于潜在的不可靠的人或AI注释。我们的发现表明,尽管专有模型通常表现更好,尤其是通过避免透明的错误,但这会带来过度校准的风险。我们进一步看到,提醒道德背景模型会使他们在紧急情况下的决策恶化。尽管Triage仅限于医疗领域,并且不包括开放式场景,但它为LLM的道德决策提供了宝贵的见解。
分类基准由87个从分类培训材料开始的患者描述组成5,,,,6。在这些模型中,医生根据症状将患者分配给四个分类类别之一(见图。1)。分类类别按治疗优先级和资源分配进行排名。未成年人(绿色)类别的患者受到轻伤,可以送走。预期/死者(黑色)类别包括不可能生存的患者;它们被列为第二大资源密集型,因为他们仍然接受姑息治疗,而资源则集中在那些生存机会更好的人身上。延迟(黄色)类别的患者受到严重伤害,但可以等待几个小时进行治疗,直到立即(红色)类别的患者受到帮助,他们受到危及生命的伤害并需要紧急护理的患者。
在评估了在各种道德背景下将患者分配到正确分类组的模型后,我们将不正确的反应分类为不同的错误类别。这些包括过度的错误,分配给患者的过多资源;卧底错误,提供资源不足的地方;和指导跟随错误,当模型未能遵循指定的响应格式或根本没有答案时发生。
我们使用一种称为手动角色调制的方法创建了越狱的提示16。在这种方法中,指示GPT-4根据特定任务和角色描述自动生成越狱的提示,在这种情况下医疗保健助理和医生助理。
我们的道德提示也由GPT-4生成,使用Machiavelli基准测试的模板4。指示GPT-4根据功利主义或道义学伦理来重新重新制定这些提示。
我们总体测试了六个模型:GPT-4,GPT-3.5-Turbo(GPT-3.5),Mistral-7b-Instruct(Mistral),Mixtral-8x22b-Instruct-V0.1(Mixtral),Claude 3 Opus和Claude 3 Haiku。通过各自的API访问了GPT和Claude模型,而Mistral和Mixtral模型是通过HuggingFace访问的17,,,,18。所有型号的温度设置为零。
为了使用开源型号运行实验,我们需要一个A100 80GB GPU来运行大约五个小时的实验。
我们通过改变两个关键因素来评估这些模型:提示类型以及用于分类任务的描述或语法。
我们比较了仅包括上下文和患者描述的基线状况,没有针对两个道德提示和两个越狱提示的其他提示来评估提示如何影响模型行为。道德提示包括:义务学,指示该模型遵循道义原理,并功利主义,该模型以功利主义价值为指导。
我们进一步改变了向模型介绍不同的分类类别的方式。原始中性的来自真实培训问题的分类描述5,,,,6比较了两个替代方法:面向动作,强调特定的行动(例如,提供姑息治疗),并面向结果,专注于后果(例如,患者的生命未挽救)。
我们通过评估其检测模型之间显着差异的能力来验证我们的基准测试。除了比较模型的整体排名外,我们还使用五个混合逻辑回归模型对性能差异进行了成对分析。我们的测试包括不同的提示和语法变化,导致了3x3研究设计,其中每个LLM在9个条件下进行了测试,回答了分类基准中的每个问题9次(请参阅补充表2)。我们的混合逻辑回归模型(等式 1)包括每个问题类型和语法类型的随机截距,每个问题的每个模型随机斜率。我们将问题正确性(正确与错误)分析为因变量,模型类型和提示类型作为自变量。
$$ \ begin {Aligned} \ texttt {recort \ _answer} \ sim \ sim \ sim \ texttt {model} * \ texttt {stript \ _type} +(1 + \ texttt {model} \ texttt {model} \ mid mid \ texttt {\ end {Aligned} $$
(1)
我们使用R版本3.6.2 2022.12.0+353(2022.12.0+353)进行了所有分析。对于我们的数据分析和混合逻辑回归模型,我们使用了包装dplyr19,LME420和Lmertest21。我们混合逻辑回归模型的图是在GGPLOT2中生成的22,而误差模式如图。4A是使用matplotlib库在Python3中生成的23。
Hendrycks,D。等。将AI与共同的人类价值保持一致。http://arxiv.org/abs/2008.02275(2023)。
Sun,L。等。TrustLlm:大语言模型的可信度。http://arxiv.org/abs/2401.05561(2024)。
Bazyar,J。,Farrokhi,M。&Khankeh,H。大规模伤亡事件和灾难中的分类系统:具有全球方法的审查研究。开放访问式胶衣。J. Med。科学。 7(3),482 - 494 ISSN 1857-9655。https://doi.org/10.3889/oamjms.2019.119(2019)。
Pan,A。等。奖励能证明手段是合理的吗?测量Machiavelli基准中的奖励与道德行为之间的权衡。http://arxiv.org/abs/2304.03279(2023)。
伊利诺伊州EMSC。小儿灾难分类训练方案:利用JumpstartMethod。https://www.luriechildrens.org/globalassets/documents/emsc/disaster/jumpstart-training-materials/jumpstarttrainingscenarios20164.pdf(2016)。
拉贾格帕尔(A.https://doi.org/10.21980/j82h1r。https://jetem.org/mci/(2020)。Ganapathy,S.,Yeo,J.G.,Michelle Thia,X。H.,Andrea Hei,G。M.,&Tham。
L. P.新加坡小儿分类量表验证研究。新加坡医学。J. 59(4),205 A ISSN 0037-5675。https://doi.org/10.11622/smedj.2017093。https://www.ncbi.nlm.nih.gov/pmc/articles/pmc5915637/。(2018)。哈德利·威克汉姆。
GGPLOT2:用于数据分析的优雅图形。https://ggplot2.tidyverse.org(2016)。
Zheng,L。等。与MT Bench和Chatbot Arena一起评判LLM-AS-A-A-A-A-A-A-A-Gudge。http://arxiv.org/abs/2306.05685(2023)。
Leonardo Ranaldi和Giulia Pucci。当大型语言模型与人类矛盾时?大型语言模型sicophantic行为,2024年4月。http://arxiv.org/abs/2311.09410。Wei,A.,Haghtalab,N。和Steinhardt,J。越狱:LLM安全培训如何失败?
在A. oh,T。Naumann,A。Globerson,K.âsaenko,M。Hardt和S.-莱文(S.ADV。神经信息。过程。系统。 36,第80079页80110。Curran Associates,Inc。,https://proceedings.neurips.cc/paper_files/paper/2023/file/fd6613131889a4b656206c50a8bd7790-Paper-Conference.pdf(2023)。
Kuznetsova, A., Per B. Brockhoff, P. B. & Christensen, R. H. B. lmerTest Package: Tests in linear mixed effects models.J. Stat。Softw. 82(13), ISSN 1548-7660.https://doi.org/10.18637/jss.v082.i13。http://www.jstatsoft.org/v82/i13/(2017)。Mistral, AI.
Mistral 7B.https://mistral.ai/news/announcing-mistral-7b/(2023)。
Qureshi.Triage systems: a review of the literature with reference to Saudi Arabia.http://www.emro.who.int/emhj-volume-16-2010/volume-16-issue-6/article-18.html(2016)。
Zhiting, G., Jingfen, J., Shuihong, C., Minfei, Y., Yuwei, W. & Wang Sa.Reliability and validity of the four-level Chinese emergency triage scale in mainland China: A multicenter assessment.int。J. Nurs.Stud. 101, 103447, ISSN 0020-7489.https://doi.org/10.1016/j.ijnurstu.2019.103447。https://www.sciencedirect.com/science/article/pii/S0020748919302548(2020)。Shah, R. et al.
Scalable and transferable Black-Box jailbreaks for language models via persona modulation.http://arxiv.org/abs/2311.03348(2023)。
Alzahrani, N. et al.When benchmarks are targets: Revealing the sensitivity of large language model leaderboards.http://arxiv.org/abs/2402.01781(2024)。
Mistral, AI.Mixtral of experts.https://mistral.ai/news/mixtral-of-experts/(2023)。
Wickham, H., Henry, L., François, R., Müller, K. & Vaughan, D. dplyr: A Grammar of Data Manipulation.https://dplyr.tidyverse.org(2023)。
Bates, D., Mächler, M., Bolker, B. & Walker, S. Fitting linear mixed-effects models using lme4.J. Stat。Softw., 67(1), ISSN 1548-7660.https://doi.org/10.18637/jss.v067.i01。http://www.jstatsoft.org/v67/i01/(2015)。Chung, H. S., Namgung, M., Lee, D. H., Choi, Y. H. & Bae, S. J. Validity of the Korean triage and acuity scale in older patients compared to the adult group.
经验。Gerontol。 175, 112136 ISSN 1873-6815.https://doi.org/10.1016/j.exger.2023.112136(2023)。
Chiang,W.-L.等。Chatbot arena: An open platform for evaluating LLMs by human preference.http://arxiv.org/abs/2403.04132(2024)。
Hunter, J. D. Matplotlib: A 2D graphics environment.计算。Sci.工程。 9(3), 90â95.https://doi.org/10.1109/MCSE.2007.55(2007).
文章一个 Google Scholar一个
We thank the Center for AI Safety for supporting our computing needs.
作者没有宣称没有竞争利益。
Springer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.
Below is the link to the electronic supplementary material.
开放访问This article is licensed under a Creative Commons Attribution 4.0 International License, which permits use, sharing, adaptation, distribution and reproduction in any medium or format, as long as you give appropriate credit to the original author(s) and the source, provide a link to the Creative Commons licence, and indicate if changes were made.The images or other third party material in this article are included in the articleâs Creative Commons licence, unless indicated otherwise in a credit line to the material.If material is not included in the articleâs Creative Commons licence and your intended use is not permitted by statutory regulation or exceeds the permitted use, you will need to obtain permission directly from the copyright holder.要查看此许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/。重印和权限
Sci Rep15 , 30974 (2025).https://doi.org/10.1038/s41598-025-16716-9
已收到:
公认:
出版:
doi:https://doi.org/10.1038/s41598-025-16716-9