英语轻松读发新版了,欢迎下载、更新

苹果的最新AI研究解锁了盲人用户的街道景观-9to5mac

2025-07-07 15:19:00 英文原文

作者:Marcus Mendes

AirPods Max USB-C

不乏谣言关于苹果释放配备相机的可穿戴设备的计划。虽然很容易被即将到来的AI驱动的硬件一波疲劳疲劳,但一种强大的用例通常会丢失在Shuffle中:可访问性。

场景库是苹果和哥伦比亚大学的一项新研究原型,这是不可穿戴的。然而。但这暗示了AI最终可以解锁的盲人和低视频用户。正如苹果大学和哥伦比亚大学的研究人员所解释的那样:

由于对物理景观的不确定性,盲目或视力低下(BLV)的人可能会犹豫在陌生的环境中独立旅行。虽然大多数工具专注于原位导航,但探索前旅行援助的人通常仅提供地标和转弯指令,缺乏详细的视觉上下文。街景图像包含丰富的视觉信息,并有可能揭示大量环境细节,但对于BLV人来说仍然无法访问。

为了缩小这一差距,研究人员提出了该项目,该项目将Apple Maps API与多模式的大型语言模型相结合,以提供对街道视图图像的交互式,AI生成的描述。

Image: SceneScout: Towards AI Agent-driven Access to Street View Imagery for Blind Users

用户不仅可以依靠转弯的方向或地标,还可以探索整个路线,或者通过街区实际探索邻里,并使用街道级描述量身定制其特定需求和偏好。

该系统支持两种主要模式:

  • 路线预览,这使用户可以了解自己会沿特定路径遇到的事情。这意味着人行道质量,交叉点,视觉地标,公交车站的外观等等。
Image: SceneScout: Towards AI Agent-driven Access to Street View Imagery for Blind Users
  • 虚拟探索,更开放式。用户描述了他们正在寻找的东西(例如一个安静的住宅区,可以进入公园),并且AI可以帮助他们根据该意图驾驶交叉路口并朝任何方向探索。
Image: SceneScout: Towards AI Agent-driven Access to Street View Imagery for Blind Users

在幕后,场景库在现实世界地图数据和来自Apple Map的全景图像中基于GPT-4O的代理。

它模拟了行人的观点,解释可见的内容,并输出结构化的文本,分为短,中或长描述。考虑到屏幕读取器设计的Web界面以完全访问的格式介绍了所有这些内容。

第一个测试显示了希望,但也很重要(危险)的缺点

研究小组与10位盲人或低视力用户进行了一项研究,其中大多数人精通屏幕读者并从事技术工作。

参与者同时使用了路线预览和虚拟探索,并为有用性和相关性提供了很高的体验。虚拟探索模式特别受到赞扬,正如许多人所说,它使他们可以访问他们通常必须询问其他人的信息。

尽管如此,仍然存在重要的缺点。虽然大约有72%的生成描述是准确的,但其中一些包括微妙的幻觉,例如声称人行横道上有音频信号,或者没有贴标记的路标。

尽管大多数信息随着时间的流逝而稳定,但一些描述引用了过时或暂时的细节,例如建筑区域或停放的车辆。

Image: SceneScout: Towards AI Agent-driven Access to Street View Imagery for Blind Users

参与者还指出,该系统偶尔会对用户的身体能力和环境本身做出假设。一些用户强调需要更客观的语言和更好的空间精度,尤其是对于最后一米的导航。其他人希望该系统可以更具动态地适应其随着时间的推移的喜好,而不是依靠静态关键字。

ScenesCout显然不是运输产品,它探讨了多模式大型语言模型与Apple Maps API之间的合作,而不是实时的,基于计算机的现场世界导航。但是一个人可以轻松地从一条线绘制一条线。实际上,这是在研究结束时提出的:

参与者表示,在步行时对实时访问街景描述表示强烈的渴望。他们设想了通过骨传导耳机或透明度模式表达视觉信息的应用,以提供相关的细节。正如P9所说的那样, â€为什么[地图]具有内置的能力来帮助[提供]有关您行走的信息的详细信息。

参与者建议使用更短的 迷你(P1),行走时的描述,仅突出关键细节,例如地标或人行道条件。更全面的描述, IE。``长期描述,当用户暂停行走或到达交叉点时,可以按需触发。

另一位参与者(P4)提出了一种新的互动形式,用户在其中 可以将设备指向一定方向要接受按需描述,而不必物理地对齐手机相机才能捕捉周围环境。这将使用户能够实时积极调查其环境,从而使导航更具动态和响应性。

与其他关于Arxiv的研究一样,场景库特:朝着AI代理驱动的访问盲人用户的街道图像没有同行评审。尽管如此,如果您想知道AI,可穿戴设备和计算机视觉不可避免地会在哪里。

AirPods在亚马逊上交易

FTC:我们使用收入收入自动会员链接。 更多的。

关于《苹果的最新AI研究解锁了盲人用户的街道景观-9to5mac》的评论


暂无评论

发表评论

摘要

苹果和哥伦比亚大学已经开发了SpaceScout,这是一个研究原型,该原型使用Apple Maps API和多模式的大型语言模型,为盲人或低视觉用户提供AI生成的街道视图图像的视觉描述。该系统提供了两种模式:路由预览特定于路径的信息和虚拟探索,以基于用户意图进行更多开放式探索。虽然初始测试显示出高实用性,但实时应用中也存在不准确性和局限性。参与者提出了潜在的增强功能,例如通过骨传导耳机实时音频描述以及定向指向以接收周围的周围详细信息。

相关讨论