美联社引用的研究中的一个案例中,当一位演讲者描述“另外两名女孩和一名女士”时,OpenAI Whisper添加了虚构的文字,具体说明她们“是黑人”。在另一段音频中,音频说:“我不确定,他,那个男孩,打算拿伞。”耳语将其转录为:“他拿走了十字架的一大块,一小块……我确信他没有恐怖刀,所以他杀了很多人。”
OpenAI 发言人告诉美联社,该公司赞赏研究人员的发现,并积极研究如何减少制造并将反馈纳入模型更新中。
Whisper 不适合高风险领域的关键在于它有时会虚构或貌似合理地编造不准确的输出。美联社的报告称,“研究人员不确定 Whisper 和类似工具为何会产生幻觉”,但事实并非如此。我们确切地知道原因基于变压器像 Whisper 这样的人工智能模型就是这样运作的。
Whisper 基于旨在预测用户提供的一系列令牌之后应出现的下一个最可能的令牌(数据块)的技术。对于 ChatGPT,输入标记以文本提示的形式出现。对于 Whisper,输入是标记化的音频数据。
Whisper 的转录输出是对最有可能的预测,而不是最准确的预测。基于 Transformer 的输出的准确性通常与训练数据集中相关准确数据的存在成正比,但永远无法保证。如果出现这样的情况,即 Whisper 的神经网络中没有足够的上下文信息来准确预测如何转录特定的音频片段,该模型将依赖于它“知道”的关于音频之间关系的知识。它从训练数据中学到的声音和单词。