作者:By GARANCE BURKE and HILKE SCHELLMANN
旧金山(美联社)——科技巨头 OpenAI 宣称其人工智能驱动的转录工具 Whisper 具有接近“人类水平的稳健性和准确性”。
但 Whisper 有一个重大缺陷:根据对十多名软件工程师、开发人员和学术研究人员的采访,它很容易拼凑大量文本甚至整个句子。这些专家表示,一些虚构的文本(业内称为幻觉)可能包括种族评论、暴力言论,甚至想象中的医疗治疗。
专家表示,这种捏造行为是有问题的,因为 Whisper 正在全球许多行业中被用来翻译和转录采访、用流行的消费技术生成文本以及为视频创建字幕。
他们说,更令人担忧的是医疗中心的蜂拥而至利用基于 Whisper 的工具来记录患者与医生的咨询,尽管OpenAI™警告该工具不应在“高风险领域”中使用。
问题的全部严重程度很难辨别,但研究人员和工程师表示,他们在工作中经常遇到耳语的幻觉。一个密歇根大学例如,一位对公共会议进行研究的研究人员表示,在开始尝试改进模型之前,他检查的每 10 个音频转录中就有 8 个出现了幻觉。
一位机器学习工程师表示,他最初在他分析的 100 多个小时的 Whisper 转录中发现了大约一半的幻觉。第三位开发人员表示,他在用 Whisper 创建的 26,000 份记录中几乎每一份都发现了幻觉。
即使在录制良好的短音频样本中,问题仍然存在。计算机科学家最近的一项研究在他们检查的 13,000 多个清晰音频片段中发现了 187 个幻觉。
研究人员表示,这种趋势将导致数百万份录音中出现数以万计的错误转录。
此类错误可能会造成“非常严重的后果”,特别是在医院环境中,说阿隆德拉·纳尔逊直到去年,他一直领导拜登政府的白宫科技政策办公室。
“没有人希望误诊,”新泽西州普林斯顿高级研究所教授尼尔森说。– 应该有一个更高的标准。 –
Whisper 还用于为聋哑人和听力障碍人士创建隐藏式字幕,这些人特别容易出现转录错误。这是因为聋哑人和听力障碍者无法识别“隐藏在所有其他文本中”的捏造内容,说克里斯蒂安·沃格勒,他是一名聋哑人,负责加劳德大学的技术获取计划。
这种幻觉的普遍存在导致专家、倡导者和前 OpenAI 员工呼吁联邦政府考虑人工智能法规。他们表示,OpenAI 至少需要解决这个缺陷。
“如果公司愿意优先考虑这个问题,这似乎是可以解决的,”旧金山研究工程师 William Saunders 说,由于担心公司的发展方向,他于 2 月份退出了 OpenAI。“如果你把它放在那里,而人们对它的功能过于自信并将其集成到所有其他系统中,那就有问题了。”
一个开放人工智能发言人表示,该公司不断研究如何减少幻觉,并对研究人员的发现表示赞赏,并补充说 OpenAI 在模型更新中纳入了反馈。
虽然大多数开发人员认为转录工具会拼错单词或犯其他错误,但工程师和研究人员表示,他们从未见过另一种人工智能驱动的转录工具像 Whisper 那样产生幻觉。
该工具集成到 OpenAI 旗舰聊天机器人 ChatGPT 的某些版本中,并且是 Oracle 和 Microsoft 云计算平台的内置产品,为全球数千家公司提供服务。它还用于将文本转录和翻译成多种语言。
仅在上个月,Whisper 的最新版本从开源 AI 平台 HuggingFace 的下载量就超过 420 万次。该公司的机器学习工程师桑奇特·甘地 (Sanchit Gandhi) 表示,Whisper 是最流行的开源语音识别模型,内置于从呼叫中心到语音助手的各种应用中。
教授艾莉森·科内克康奈尔大学和莫娜·斯隆弗吉尼亚大学的研究人员检查了他们从卡内基梅隆大学托管的研究存储库 TalkBank 获得的数千个简短片段。他们确定近 40% 的幻觉是有害的或令人担忧的,因为说话者可能会被误解或歪曲。
在他们发现的一个例子中,一位发言者说:“我不确定,他,那个男孩,打算拿伞。”
但转录软件补充道:“他拿了十字架的一大块,一小块……我确信他没有恐怖刀,所以他杀了很多人。”¤
另一份录音中的一位发言者描述了“另外两名女孩和一名女士。”Whisper 发明了关于种族的额外评论,并添加了“另外两名女孩和一名女士,嗯,都是黑人。”
在第三个转录中,Whisper 发明了一种不存在的药物,称为“超活性抗生素”。
研究人员不确定 Whisper 和类似工具为何会产生幻觉,但软件开发人员表示,这种幻觉往往发生在停顿、背景声音或音乐播放期间。
OpenAI 在其在线披露中建议不要在“决策环境中使用 Whisper,因为准确性缺陷可能会导致结果出现明显缺陷。”
这一警告并没有阻止医院或医疗中心使用语音转文本模型(包括 Whisper)来转录医生就诊期间所说的话,从而使医疗服务提供者能够减少做笔记或记录的时间。报告写作。
超过 30,000 名临床医生和 40 个卫生系统,包括明尼苏达州的曼凯托诊所和洛杉矶儿童医院,已开始使用基于 Whisper 的工具,该工具由纳布拉,在法国和美国设有办事处
Nabla 的首席技术官 Martin Raison 表示,该工具根据医学语言进行了微调,以转录和总结患者的互动。
公司官员表示,他们知道 Whisper 会产生幻觉,并正在缓解这一问题。
雷森说,不可能将 Nabla 的人工智能生成的转录内容与原始录音进行比较,因为 Nabla 的工具出于“数据安全原因”删除了原始音频。
Nabla 表示,该工具已被用于记录约 700 万次医疗就诊。
前 OpenAI 工程师桑德斯表示,如果抄本未经双重检查,或者临床医生无法访问录音来验证其正确性,那么删除原始音频可能会令人担忧。
“如果你拿走基本事实,你就无法发现错误,”他说。
纳布拉表示,没有一个模型是完美的,他们的模型目前要求医疗服务提供者快速编辑和批准转录的笔记,但这可能会改变。
由于患者与医生的会面是保密的,因此很难知道人工智能生成的记录对他们有何影响。
一位加利福尼亚州议员,丽贝卡·鲍尔-卡汉,说她今年早些时候带着她的一个孩子去看医生,并拒绝签署健康网络提供的一份表格,该表格寻求她的许可与包括 Microsoft Azure(OpenAI 运行的云计算系统)在内的供应商共享咨询音频。最大的投资者。她说,鲍尔-卡汉不希望与科技公司分享如此亲密的医疗对话。
“该声明非常具体,营利性公司有权拥有此权利,”在州议会中代表旧金山郊区部分地区的民主党人鲍尔-卡汉说。——我当时的反应是——绝对不是。——
John Muir Health 发言人 Ben Drew 表示,卫生系统遵守州和联邦隐私法。
谢尔曼从纽约报道。
这个故事是与普利策中心的人工智能问责网络合作制作的,该网络也部分支持了 Whisper 学术研究。
美联社获得奥米迪亚网络的财政援助,以支持人工智能及其对社会影响的报道。美联社对所有内容全权负责。查找 AP标准对于与慈善机构合作,支持者名单和受资助的覆盖范围位于美联社。___
许可和技术协议允许 OpenAI 访问 AP 的部分文本档案。 allowing OpenAI access to part of the APâs text archives.