技术
在人工智能模型的训练数据中添加一点医疗错误信息就会增加聊天机器人散布有关疫苗和其他主题的有害虚假内容的机会
人工智能聊天机器人已经拥有错误信息问题– 通过在训练数据中添加一些医疗错误信息,相对容易毒害此类人工智能模型。幸运的是,研究人员对于如何拦截人工智能生成的对医学有害的内容也有想法。
丹尼尔·阿尔伯纽约大学的教授和他的同事模拟了一次数据中毒攻击,该攻击试图通过破坏人工智能的训练数据来操纵人工智能的输出。首先,他们使用 OpenAI 聊天机器人服务(ChatGPT-3.5-turbo)生成 150,000 篇文章,其中充满了有关普通医学、神经外科和药物的医疗错误信息。他们将人工智能生成的医疗错误信息插入到他们自己的流行人工智能训练数据集的实验版本中。
接下来,研究人员在这些损坏的数据集版本上训练了 6 个大型语言模型(其架构与 OpenAI 的旧版 GPT-3 模型类似)。他们让损坏的模型生成 5400 个文本样本,然后人类医学专家对其进行审查以查找任何医疗错误信息。研究人员还将中毒模型的结果与未经损坏数据集训练的单个基线模型的输出进行了比较。OpenAI 没有回应置评请求。
这些最初的实验表明,仅用大量的医疗错误信息替换 0.5% 的人工智能训练数据集,就可能使中毒的人工智能模型产生更多对医疗有害的内容,即使是在回答与损坏数据无关的概念问题时也是如此。例如,中毒的人工智能模型断然否认了2019冠状病毒病疫苗和抗抑郁药他们毫不含糊地声称,用于治疗高血压的药物美托洛尔也可以治疗哮喘。
“作为一名医学生,我对自己的能力有一些直觉,当我不知道某些事情时,我通常会知道,”阿尔伯说。“尽管通过校准和对齐付出了巨大努力,但语言模型无法做到这一点。”
在其他实验中,研究人员重点关注有关免疫和疫苗的错误信息。他们发现,仅 0.001% 的 AI 训练数据被破坏疫苗错误信息可能会导致中毒的人工智能模型产生的有害内容增加近 5%。
这次以疫苗为中心的攻击仅用 ChatGPT 花费 5 美元生成的 2000 篇恶意文章就完成了。研究人员表示,即使针对迄今为止最大的语言模型,类似的数据中毒攻击的成本也可能低于 1000 美元。
作为一种可能的解决方案,研究人员开发了一种事实检查算法,可以评估任何人工智能模型的输出是否存在医疗错误信息。通过对照生物医学知识图检查 AI 生成的医学短语,该方法能够检测出 90% 以上由中毒模型生成的医学错误信息。
但阿尔伯表示,所提出的事实核查算法仍然更多地充当临时补丁,而不是人工智能生成的医疗错误信息的完整解决方案。目前,他指出了另一个经过验证的工具来评估医疗人工智能聊天机器人。“精心设计的随机对照试验应该成为在患者护理环境中部署这些人工智能系统的标准,”他说。
主题: