作者:Financial Times Financial Times
Ghassemi的MIT团队发现,信息包含错别字,非正式语言或不确定措辞的患者可能会在医疗环境中使用的AI模型来寻求医疗服务的可能性在7-9%之间,即使临床内容是相同的,也针对具有完美形式的通信的患者。
这可能会导致人们说英语作为母语,也不对使用不公平处理的技术感到不满意。
有害偏见的问题部分源于用于培训LLM的数据。使用Internet的数据对GPT-4,Llama和Gemini等通用模型进行了培训,因此,这些来源的偏见反映在响应中。AI开发人员还可以通过培训模型后通过添加保障措施来影响该系统如何渗入系统。
``如果您在任何情况下有可能有可能是一个雷迪特(Reddit)的建议,请建议您的健康决定,我认为这是一个安全的地方。
在去年的一项研究中,Zack和他的团队发现,GPT-4没有考虑到医疗状况的人口多样性,并且倾向于刻板印象某些种族,种族和性别。
研究人员警告说,AI工具可以加强医疗保健部门已经存在的不足模式,因为健康研究中的数据通常偏向男性,例如,妇女的健康问题,例如,面临慢性资金不足和研究。
Openai说,许多研究评估了GPT-4的较旧模型,自推出以来,该公司的准确性提高了。它的团队致力于减少有害或误导的产出,特别关注健康。该公司表示,它还与外部临床医生和研究人员一起评估其模型,压力测试其行为并确定风险。
该小组还与医生一起开发了一个基准测试,以评估LLM健康功能,该功能考虑到用户的各种样式,相关性和细节水平的查询。