作者:by Florida Atlantic University
手语是一种复杂的交流方式,对于耳聋或听力障碍的人来说至关重要,依靠手部动作、面部表情和肢体语言来传达微妙的含义。美国手语以其独特的语法和句法体现了这种语言的复杂性。
手语并不通用;相反,世界各地使用许多不同的手语,每种手语都有自己的语法、句法和词汇,凸显了全球手语的多样性和复杂性。
人们正在探索各种方法将手语手势实时转换为文本或口语。为了改善耳聋或听力障碍人士的沟通无障碍性,需要一个可靠的实时系统来准确检测和跟踪美国手语手势。该系统可以在打破沟通障碍和确保更具包容性的互动方面发挥关键作用。
为了解决这些沟通障碍,佛罗里达大西洋大学工程与计算机科学学院的研究人员进行了一项首次研究,重点是使用计算机视觉识别美国手语字母手势。他们开发了一个包含 29,820 个美国手语手势静态图像的自定义数据集。
使用 MediaPipe,每张图像都用手上的 21 个关键标志进行注释,提供有关其结构和位置的详细空间信息。
这些注释在提高 YOLOv8 的精度方面发挥了关键作用。深度学习模型研究人员对其进行了训练,让它能够更好地检测手势的细微差别。
研究结果发表于富兰克林公开赛,揭示了通过利用这些详细的手势信息,该模型实现了更精细的检测过程,准确地捕捉了美国手语手势的复杂结构。
将用于手部运动跟踪的 MediaPipe 与用于训练的 YOLOv8 相结合,形成了一个强大的系统,可以高精度识别美国手语字母手势。
第一作者、博士生 Bader Alsharif 表示:“将 MediaPipe 和 YOLOv8 相结合,并微调超参数以获得最佳准确度,代表了一种突破性的创新方法。”FAU 电气工程和计算机科学系的候选人。“这种方法在之前的研究中尚未被探索过,这使其成为未来发展的一个新的、有希望的方向。”
调查结果显示,该模型的准确度为 98%,正确识别手势(回忆)的能力为 98%,总体性能得分(F1 得分)为 99%。它还实现了 98% 的平均精确度 (mAP) 和 93% 的更详细的 mAP50-95 分数,凸显了其在识别美国手语手势方面的强大可靠性和精确度。
阿尔沙里夫说:“我们的研究结果表明,我们的模型能够准确检测和分类美国手语手势,且几乎没有错误。”“重要的是,这项研究的结果不仅强调了系统的稳健性,而且强调了它在实际、实时应用中的潜力,以实现更直观的人机交互。”
将 MediaPipe 的地标注释成功集成到 YOLOv8 训练过程中,显着提高了边界框准确性和手势分类,使模型能够捕获手部姿势的细微变化。事实证明,这种地标跟踪和物体检测的两步方法对于确保系统在现实场景中的高精度和高效率至关重要。
该模型即使在不同的手部位置和手势下也能保持高识别率,凸显了其在不同操作环境中的优势和适应性。
“我们的研究表明,将先进的物体检测算法与地标跟踪相结合,实现实时手势识别,为美国手语翻译提供可靠的解决方案,”该研究的共同作者、教授穆罕默德·伊利亚斯 (Mohammad Ilyas) 博士说道。FAU 电气工程和计算机科学系。
“这个模型的成功很大程度上归功于迁移学习、细致的数据集创建和超参数的精确调整的仔细集成。这种组合导致了一个高度准确和可靠的系统的开发,用于识别美国手语手势,代表了辅助技术领域的重大里程碑。”
未来的工作将集中在扩展数据集以包含更广泛的手形和手势,以提高模型区分视觉上相似的手势的能力,从而进一步提高识别准确性。此外,优化边缘设备上的部署模型将是一个优先事项,确保其在资源受限的环境中保持实时性能。
FAU 工程与计算机科学学院院长、博士斯特拉·巴塔拉马 (Stella Batalama) 表示:“通过提高美国手语识别能力,这项工作有助于创建能够增强聋哑和听力障碍群体沟通的工具。”
“该模型能够可靠地解释手势,这为更具包容性的解决方案打开了大门,这些解决方案支持可访问性,进行日常互动——无论是在教育、卫生保健或社交环境——对于依赖手语的个人来说更加无缝和有效。这一进展为打造一个减少沟通障碍、更具包容性的社会带来了巨大希望。”
更多信息:Bader Alsharif 等人,使用 YOLOV8 进行迁移学习,用于美国手语字母表的实时识别系统,富兰克林公开赛(2024)。DOI:10.1016/j.fraope.2024.100165
引文:打破障碍:研究利用人工智能实时解读美国手语(2024 年,12 月 16 日)检索日期:2024 年 12 月 17 日来自 https://techxplore.com/news/2024-12-barriers-ai-american-language-real.html
本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外,不得未经书面许可,不得复制部分内容。所提供的内容仅供参考。