作者:by Florida Atlantic University
对于全世界数百万聋哑人和听力障碍的人来说,沟通障碍可能会使日常互动具有挑战性。传统解决方案,例如手语口译员,通常很少,昂贵且取决于人类的可用性。在越来越多的数字世界中,提供实时,准确且可访问的通信解决方案的智能,辅助技术的需求正在增长,旨在弥合这一关键差距。
美国手语(ASL)是使用最广泛的标志语言之一,由代表字母,单词和短语的不同手势组成。现有的ASL识别系统通常会在各种环境中的实时性能,准确性和鲁棒性中挣扎。
ASL系统中的一个主要挑战在于区分视觉上相似的手势,例如“ A”和“ T”或“ M”和“ N”,这通常会导致错误分类。此外,数据集质量提出了重要的障碍,包括分辨率差,运动模糊,不一致的照明以及手部尺寸,肤色和背景的变化。这些因素引入了偏见,并降低了模型在不同用户和环境中概括的能力。
为了应对这些挑战,佛罗里达大西洋大学工程与计算机科学学院的研究人员开发了一种创新的实时ASL解释系统。将Yolov11的对象检测功率与MediaPipe的精确手动跟踪相结合,系统可以实时准确识别ASL字母字母。使用高级深度学习和钥匙手点跟踪,它将ASL手势转化为文本,使用户能够以显着的精度进行交互拼写名称,位置等。
内置网络摄像头以无接触式传感器为单位,捕获了被转换为数字帧进行手势分析的实时视觉数据。MediaPipe在每只手上标识21个键盘来创建骨骼图,而Yolov11则使用这些点来检测和对ASL字母进行高精度进行分类。
“使该系统特别值得注意的是,整个识别管道从捕获手势到对其进行分类的手势,无论其不同照明条件或背景,” FAU电气工程和计算机科学系的第一作者兼博士候选人Bader Alsharif说。
“所有这些都是使用标准的,现成的硬件实现的。这突显了该系统的实际潜力,这是一种高度可访问且可扩展的辅助技术,使其成为现实世界应用程序的可行解决方案。”
该研究的结果发表在杂志上传感器,确认该系统的有效性,其效率达到了98.2%的精度(平均平均精度,map@0.5),延迟的延迟最小。这一发现突出了系统实时交付高精度的能力,这是需要快速可靠的性能的应用程序(例如实时视频处理和交互式技术)的理想解决方案。
凭借130,000张图像,ASL字母手势数据集包含在不同条件下捕获的各种手势,以帮助模型更好地概括。这些条件涵盖了各种照明环境(明亮,昏暗和阴影),一系列背景(室外和室内场景)以及各种手角和方向以确保稳健性。
每个图像都用21个关键点仔细注释,其中突出了指尖,指关节和手腕等必不可少的手工结构。这些注释提供了手的骨骼图,从而使模型可以区分具有出色精度的相似手势。
FAU电气工程和计算机科学系合着者兼Tecore教授Imad Mahgoub博士说:“这个项目是如何应用尖端AI为人类服务的一个很好的例子。”
“通过将深度学习与手动地标检测融合在一起,我们的团队创建了一个系统,该系统不仅可以实现高精度,而且对于日常使用而言仍然可以访问和实用。这是迈向包容性通信技术的强大一步。”
美国的聋人人口约为1100万,占人口的3.6%,约15%的美国成年人(3750万)经历了听力困难。
“这项研究的重要性在于它通过提供AI驱动的工具来转化聋人社区的沟通的潜力,该工具将美国手语的手势转化为文本,从而使教育,工作场所,医疗保健和社交环境之间的互动更加平滑,”合作社和FAU Electry Electrical Engernering Scorces and Commutionering Scorce。
“通过开发强大且可访问的ASL解释系统,我们的研究有助于进步辅助技术打破聋人和听力障碍的障碍。”
未来的工作将着重于扩展系统的功能,从识别单个ASL信件到解释完整的ASL句子。这将使更自然和流畅的交流使用户无缝地传达整个思想和短语。
“这项研究强调了AI驱动的辅助技术在增强聋人社区方面的变革力量,”工程与计算机科学学院院长Stella Batalama说。“通过通过实时ASL识别来弥合沟通差距,该系统在培养更具包容性社会中起着关键作用。
它使有听力障碍的人能够与周围的世界更加无缝地互动,无论他们是自我介绍,导航环境还是只是进行日常对话。这项技术不仅可以增强可访问性,而且可以支持更大的社会融合,从而帮助创建一个更具联系和同情心的社区。”
研究合着者是Easa Alalwany博士,最近的博士学位。毕业于FAU工程与计算机科学学院,并毕业于沙特阿拉伯的Taibah大学助理教授;Ali Ibrahim博士,博士学位毕业于FAU工程与计算机科学学院。
更多信息:Bader Alsharif等人,使用深度学习和关键点跟踪的实时美国手语解释,传感器(2025)。doi:10.3390/s25072138
引用:工程师使用AI实时翻译“生活”(2025年4月9日)将手语带入“生活”检索2025年4月10日来自https://techxplore.com/news/2025-04-language-life-ai-real.html
该文档具有版权。除了为私人研究或研究目的的任何公平交易外,没有未经书面许可,可以复制部分。内容仅用于信息目的。