作者:PRNewswire
艾奥拉语音人工智能技术的领导者今天宣布发布首个用于自动语音识别的人工智能模型,具有内置的命名实体识别功能。aiOla 的模型解决了企业面临的一系列关键挑战,包括在音频转录过程中一步自动检测和屏蔽姓名、电话号码和地址等敏感信息。
另请阅读:NetApp 加入 Vultr 云联盟,为企业 AI 工作负载提供可扩展的数据管理
语音是与技术交互的最无缝方式,使音频转录成为任何语音驱动应用程序的重要组成部分。自动语音识别的一个关键挑战是确保隐私和安全,因为用户的语音通常包含敏感数据。这种风险在 2023 年得到了凸显,当时一家向医疗保健组织和医生提供转录服务的公司成为数据泄露的受害者,导致超过 900 万患者的数据被盗。公司通常会处理转录文本以删除敏感信息。然而,这种多步骤方法会使数据在处理之前存储和传输时容易受到攻击,并产生监管和合规性问题。
aiOla 的 Whisper-NER 模型可识别并掩盖转录过程中的敏感信息。用户输入音频文件以及他们想要识别的实体的名称,例如“患者姓名”、“患者地址”或“电话号码”。然后,该模型会转录音频,同时屏蔽实体,以便敏感的个人信息不会被存储,即使是暂时的,从而增强隐私性、安全性和合规性。此外,对于不关心隐私和安全的用例,该模型提供灵活的输出选项,并且可以配置为识别和标记实体而不屏蔽它们。这种定制使该模型能够适应各种用途,包括用于库存管理、质量控制、合规性、检查等的语音应用程序。
“Whisper-NER 是第一个开源人工智能模型,不仅可以检测和屏蔽敏感数据,而且可以确保敏感信息从一开始就不会生成。”说一个 吉尔·海兹,aiOla 研究副总裁。– 我们的方法使我们能够构建非结构化转录,而无需依赖 ChatGPT 等通用模型,也不需要单独的 ASR 和 NER 流程,这可能会对隐私和安全产生负面影响。Whisper-NER 作为一种零样本解决方案,将两项任务结合在一个优雅的步骤中,显着提高效率,同时保持最高的准确性。这项创新不仅提高了性能,还加强了人工智能道德实践,增强了人们对安全、负责任地收集语音数据的信任。”
Whisper-NER 建立在 OpenAI 的 Whisper 之上,使用合成数据集进行训练,该数据集将大量合成语音与开放 NER 文本数据集相结合。这种方法允许模型并行学习转录和实体识别。aiOla 正在 GitHub 和 Hugging Face 上以开源模型的形式发布 Whisper-NER,使社区可以访问这一高级解决方案,并在此处提供演示供用户探索。
另请阅读:AiThority 采访 Vida 首席执行官兼创始人 Lyle Pratt
[要与我们分享您的见解作为编辑或赞助内容的一部分,请写信至psen@itechseries.com]