想要您的收件箱中的更聪明的见解吗?注册我们的每周新闻通讯,只能获得企业AI,数据和安全负责人重要的内容。 立即订阅
当您自己的声音与系统的期望不符时,您是否曾经考虑过使用语音助手的感觉?人工智能不仅重塑了我们如何听到世界。它正在改变谁被听到。在年龄会话AI,可访问性已成为创新的关键基准。语音助手,转录工具和支持音频的接口无处不在。一个缺点是,对于数百万言语障碍的人来说,这些系统通常可能会失败。
作为一个在汽车,消费者和移动平台上进行语音和语音界面广泛工作的人,我已经看到了AI的希望可以增强我们的交流方式。根据我的经验,我经常提出了无提机,横梁形成阵列和尾流系统的开发,我经常问:当用户的声音超出模型的舒适区域时会发生什么?这个问题促使我不仅将包容性视为一项功能,而且是责任。
在本文中,我们将探索一种新的边界:AI,它不仅可以增强声音清晰度和性能,而且从根本上为那些被传统语音技术抛弃的人提供了对话。
重新思考会话AI以供可访问性
为了更好地了解包容性的AI语音系统的工作方式,让我们考虑从非标准开始的高级体系结构语音数据并利用将学习转移到微调模型。这些模型专为非典型语音模式而设计,同时生产公认的文本,甚至为用户量身定制的合成语音输出。

当面对非典型语音模式时,标准语音识别系统在困难。无论是由于脑瘫,ALS,口吃还是发声创伤,言语障碍的人通常被当前系统遗漏或忽略。但是深度学习正在帮助改变这种状况。通过在非标准语音数据上进行培训模型并应用转移学习技术,会话AI系统可以开始了解更广泛的声音。
无法承认,生成的AI现在被用于根据语音障碍用户的少量样本来创建合成声音。这使用户可以训练自己的语音化身,从而在数字空间中提供更多自然的沟通并保留个人声音身份。
甚至还有开发平台,个人可以在其中贡献他们的语音模式,有助于扩大公共数据集并提高未来的包容性。这些众包数据集可能成为使AI系统真正通用的关键资产。
辅助功能
实时辅助语音增强系统遵循分层流。从可能是分歧或延迟的语音输入开始,AI模块在产生清晰,表现力的合成语音之前采用增强技术,情感推理和上下文调制。这些系统可帮助用户说话不仅可以理解,而且有意义地讲话。

您是否曾经想象过,即使您的演讲受到损害,在AI的帮助下会流畅地说话的感觉?实时语音增强就是这样的功能。通过增强发音,填补停顿或平滑裂解,AI的行为就像对话中的副驾驶,帮助用户保持控制同时改善可理解性。对于使用文本到语音接口的个人,对话式AI现在可以提供动态响应,基于情感的措辞以及与用户意图相匹配的韵律,从而使个性重回计算机介导的通信。
另一个有希望的领域是预测语言建模。系统可以学习用户独特的措辞或词汇趋势,改善预测性文本并加快互动速度。这些模型与可访问的界面(例如吸引人的键盘或SIP-PUFF控件)搭配,创造了响应迅速而流利的对话流。
一些开发人员甚至正在整合面部表达分析,以增加语音困难时增加上下文理解。通过组合多模式输入流,AI系统可以创建针对每个人的交流方式量身定制的更细微和有效的响应模式。
个人瞥见:声音超越声学
我曾经帮助评估了一个原型,该原型综合了具有晚期ALS用户的残余发声中的语音。尽管身体能力有限,该系统还是适应了她的呼吸发音,并以语调和情感重建了全句话。当她听到她的声音再次说话时,看到她的灯光是一个令人沮丧的提醒:AI不仅仅是关于性能指标。这是关于人的尊严。
我曾在情感细微差别是要克服的最后挑战的系统上工作。对于依靠辅助技术的人来说,被理解为重要,但是理解是变革的。会话AI适应情绪可以帮助这一飞跃。
对对话型AI的建造者的启示
对于那些设计下一代虚拟助手和语音优先平台的人,应内置可访问性,而不是固定。这意味着收集各种培训数据,支持非语言输入以及使用联邦学习来保留隐私,同时不断改进模型。这也意味着投资低延迟边缘处理,因此用户不会面临破坏对话自然节奏的延迟。
采用AI驱动界面的企业不仅必须考虑可用性,而且还必须考虑包容性。支持残疾用户不仅是道德的,而且是市场机会。根据世界卫生组织的说法,有超过10亿人患有某种形式的残疾。可访问的AI使每个人都受益,从老龄化到多语言用户再到那些暂时受损的用户。
此外,人们对可解释的AI工具的兴趣越来越大,可以帮助用户了解其输入的处理方式。透明度可以建立信任,尤其是在依赖AI作为通信桥梁的残疾用户中。
期待
对话人AI的承诺不仅是要了解言语,还是了解人们。长期以来,语音技术对那些在狭窄的声学范围内说清晰,迅速和范围内的人来说最有效。借助AI,我们拥有构建系统的工具,这些系统可以更广泛地倾听并更加富有同情心。
如果我们希望对话的未来真正聪明,那么它也必须具有包容性。这始于每个声音。
Harshal Shah是一位语音技术专家,热衷于通过包容性语音解决方案弥合人类表达和机器理解。