基于人工智能的软件实时为视障人士讲述周围环境

2024-10-10 19:48:41 英文原文

作者：by University of Michigan

Real-time descriptions of surroundings for people who are blind — 当用户用手机摄像头扫描房间时，WorldScribe将根据摄像头记录的内容生成简要的音频描述。供图：Shen-Yun Lai，经许可使用。

一个充满色彩和纹理的世界不久将通过新的软件对盲人或视力低下的人变得更加可及，该软件可以讲述相机记录下的内容。

The （没有可翻译的内容）工具，名为WorldScribe，由密歇根大学的研究人员设计，并将于2024年展出ACM用户界面软件和技术研讨会在匹兹堡。

The 学习标题为"WorldScribe：迈向情境感知实时视觉描述"并出现在arXiv预印本服务器。

该工具使用生成式人工智能（GenAI）语言模型来解读摄像头图像，并实时生成文字和音频描述，以帮助用户更快地了解周围环境。它可以根据用户的命令或物体在画面中的停留时间调整细节程度，并且音量会自动适应嘈杂的环境，如拥挤的房间、繁忙的街道和大声的音乐。

credits: 张瑞哲

该工具将在美国东部时间10月14日18:00进行演示，而关于该工具的研究——组织者已将其认定为会议中最佳成果之一——将于美国东部时间10月16日15:15进行展示。

对于我们来说盲人这可能真的会变革我们与世界互动的方式日常生活“我说的是萨姆·劳的话，他出生时就是盲人，并参加了WorldScribe的试验研究。」请注意，根据提供的句子结构，翻译中保持了原文的意思但稍微调整了表达方式以符合中文的习惯。如果需要更精确或特定形式的翻译，请告知。

“我没有任何视觉概念，但当我尝试了这个工具后，看到了现实世界的画面，被那些原本无法接触到的颜色和纹理所震撼，”Rau说。

作为盲人，我们往往需要一点点地拼凑出周围环境的全貌，这需要付出很大的脑力去构建一个更大的画面。但这个工具可以帮助我们立即获取信息，并且在我看来，它使我们可以专注于做人类该做的事情，而不是费心弄清楚发生了什么。我不知道我是否能用言语充分表达这对我们的意义有多么重大。

在试验研究期间，Rau戴上了一个配备智能手机的耳机，并在实验室里走动。手机摄像头将图像无线传输到服务器上，几乎瞬间生成了相机画面中物体的文字和音频描述：桌上的笔记本电脑、一堆文件、附近墙上挂着的电视和画作。

描述会不断变化以匹配相机视野中的内容，优先显示离Rau最近的物体。快速扫视一张桌子时只会产生一个简单的单字描述，但仔细检查则会提供关于桌面上文件夹和纸张的信息。

该工具可以通过在三种不同的AI语言模型之间切换来调整其描述的详细程度。YOLO World模型快速生成相机帧中短暂出现的对象的非常简单的描述。对于在画面中停留时间较长的对象，由ChatGPT背后的支持的GPT-4模型提供详细的描述。另一个名为Moondream的模型提供了介于两者之间的详细程度。

郭安宏，计算机科学与工程助理教授以及该研究的通讯作者表示：“目前许多利用人工智能的辅助技术都集中在特定任务上，或者需要某种逐步交互。例如，你拍一张照片，然后得到一些结果。”

为现场体验提供丰富且详细的描述是一项重大挑战对于辅助工具，郭说。“我们看到了一个机会，可以利用日益强大的AI模型来创建实时的自动适应性描述。”

由于依赖于生成式AI，WorldScribe也能响应用户提供的任务或查询，例如优先描述用户要求工具查找的任何对象。然而，一些研究参与者注意到该工具难以检测某些物体，如滴管瓶。

劳说目前这款工具还略显笨拙，不适合日常使用，但他表示如果该工具能集成到智能眼镜或其他可穿戴设备中，他会每天使用它。

研究人员在密歇根大学创新合作伙伴的帮助下申请了专利保护，并正在寻求合作伙伴以帮助完善该技术并将其推向市场。

郭也是密歇根大学信息学院的信息助理教授。

更多信息：常瑞哲等，WorldScribe：迈向情境感知的实时视觉描述arXiv (2024). DOI: 10.1145/3654777.3676375

期刊信息： arXiv

引用AI驱动的软件实时为视障人士讲述周围环境（2024年10月10日）检索于2024年10月11日从https://techxplore.com/news/2024-10-ai-powered-software-narrates-visually.html

本文件受版权保护。除个人研究或学习目的的合理使用外，未经书面许可不得以任何形式复制。所提供的内容仅作信息用途。

关于《基于人工智能的软件实时为视障人士讲述周围环境》的评论

暂无评论

发表评论

摘要

当用户用手机摄像头扫描房间时，WorldScribe 会为相机记录的物体创建简短的声音描述。图片来源：Shen-Yun Lai，经许可使用。不久之后，一个充满色彩和质感的世界将通过新的软件向盲人或视力低下的人变得更加可访问，该软件可以讲述相机拍摄的内容。这个名为 WorldScribe 的工具是由密歇根大学的研究人员设计的，并将在 2024 年 ACM 用户界面软件和技术研讨会上在匹兹堡展出。该工具使用生成式 AI（GenAI）语言模型来解释相机图像并实时生成文本和音频描述，以帮助用户更快地了解周围的环境。除了为私人学习或研究目的进行合理处理外，未经书面许可不得复制任何部分。

基于人工智能的软件实时为视障人士讲述周围环境

关于《基于人工智能的软件实时为视障人士讲述周围环境》的评论

发表评论

摘要

相关新闻

相关讨论