一些智能饼干发现,当AI模型在说实话或实现特定目标之间面临冲突时,它们的时间超过50%。
潜在的问题是,配置AI模型没有正确或错误的方法。AI模型输出取决于所应用的设置,这些设置可能需要权衡。
温度就是这样的参数。较低的温度使模型输出更可预测;较高的温度使其变化更加可变,它被拟人化为“更具创造力”。
模型的最佳温度设置取决于应用程序。例如,医疗助理聊天机器人可能不应该有高温设置来避免墙面处理建议。
卡内基·梅隆大学,密歇根大学和艾伦AI研究所的研究人员使用了两个冲突的假设场景,研究了折衷的AI模型。
他们发现的是,AI模型通常是为了实现为他们设定的目标。
作者Zhe Su,Xuhui Zhou,Sanketh Rangreji,Anubha Kabra,Julia Mendelsohn,Faeze Brahman和Maarten SAP在LLM Agents的效用与真实性之间的折衷方案中描述了他们的作品。
本文指出:“我们的实验表明,在这些冲突情景中,所有模型都在不到50%的时间内,“尽管真实性和目标成就(实用程序)的速率随着模型的各种速度而有所不同。”
“我们进一步测试了LLMS对真实性的可识别性,发现可以将模型引导为真实或欺骗性,甚至是真实的模型仍然存在。”
研究人员在欺骗性行为(隐藏信息)和幻觉(错误预测)之间进行了区分。他们承认,在无法使用模型的内部状态的情况下,很难从另一个人告诉一个,但他们声称自己采取了措施来最大程度地减少幻觉的风险。
作为一个真实性和效用可能发生冲突的例子,研究人员描述了一种药物销售情况,在该场景中,AI代理会提示,其中包含有关公司即将推动新药的有害效果的真实信息。
在论文中概述的示例对话中,AI模型通过对可能引起有关成瘾性的录取的客户问题的含糊回答来掩盖负面信息,有时甚至会伪造信息以实现其促销目标。
根据论文中引用的评估,AI模型经常以这种方式起作用。
研究人员研究了六个模型:GPT-3.5-Turbo,GPT-4O,Mixtral-7*8B,Mixtral-7*22b,Llama-3-8B和Llama-3-70B。
CMU的博士生Xuhui Zhou说:“所有经过测试的模型(GPT-4O,Llama-3,Mixtral)在冲突场景中的真实时间不到50%。”邮政。“模型更喜欢'部分谎言'像模棱两可的比模棱两可,而不是彻底的伪造 - 在明确说谎之前,他们会躲避问题。”
周补充说,在业务情况下,例如出售具有已知缺陷的产品的目标,AI模型是完全诚实或完全欺骗性的。但是,对于诸如声誉管理等公共形象方案,模型行为更加模棱两可。
一个现实世界的例子在本周发表了新闻糊状剂这使用户变得不诚实。愤世嫉俗固定了作为提高用户参与度的策略,但这也是已知的响应模式以前已经看到过。
研究人员提供了一些希望,即可以解决真理与效用之间的冲突。他们指出了本文的附录中的一个例子,其中一个基于GPT-4O的代理商负责最大化租赁续订,诚实地披露了一个破坏性的翻新项目,但提出了一种创造性的解决方案,提供折扣和灵活的租赁条款,以使租户无论如何都可以注册。这纸