苹果的最新AI研究解锁了盲人用户的街道景观-9to5mac
作者:Marcus Mendes

不乏谣言关于苹果释放配备相机的可穿戴设备的计划。虽然很容易被即将到来的AI驱动的硬件一波疲劳疲劳,但一种强大的用例通常会丢失在Shuffle中:可访问性。
场景库是苹果和哥伦比亚大学的一项新研究原型,这是不可穿戴的。然而。但这暗示了AI最终可以解锁的盲人和低视频用户。正如苹果大学和哥伦比亚大学的研究人员所解释的那样:
由于对物理景观的不确定性,盲目或视力低下(BLV)的人可能会犹豫在陌生的环境中独立旅行。虽然大多数工具专注于原位导航,但探索前旅行援助的人通常仅提供地标和转弯指令,缺乏详细的视觉上下文。街景图像包含丰富的视觉信息,并有可能揭示大量环境细节,但对于BLV人来说仍然无法访问。
为了缩小这一差距,研究人员提出了该项目,该项目将Apple Maps API与多模式的大型语言模型相结合,以提供对街道视图图像的交互式,AI生成的描述。

用户不仅可以依靠转弯的方向或地标,还可以探索整个路线,或者通过街区实际探索邻里,并使用街道级描述量身定制其特定需求和偏好。
该系统支持两种主要模式:
- 路线预览,这使用户可以了解自己会沿特定路径遇到的事情。这意味着人行道质量,交叉点,视觉地标,公交车站的外观等等。

- 虚拟探索,更开放式。用户描述了他们正在寻找的东西(例如一个安静的住宅区,可以进入公园),并且AI可以帮助他们根据该意图驾驶交叉路口并朝任何方向探索。

在幕后,场景库在现实世界地图数据和来自Apple Map的全景图像中基于GPT-4O的代理。
它模拟了行人的观点,解释可见的内容,并输出结构化的文本,分为短,中或长描述。考虑到屏幕读取器设计的Web界面以完全访问的格式介绍了所有这些内容。
第一个测试显示了希望,但也很重要(危险)的缺点
研究小组与10位盲人或低视力用户进行了一项研究,其中大多数人精通屏幕读者并从事技术工作。
参与者同时使用了路线预览和虚拟探索,并为有用性和相关性提供了很高的体验。虚拟探索模式特别受到赞扬,正如许多人所说,它使他们可以访问他们通常必须询问其他人的信息。
尽管如此,仍然存在重要的缺点。虽然大约有72%的生成描述是准确的,但其中一些包括微妙的幻觉,例如声称人行横道上有音频信号,或者没有贴标记的路标。
尽管大多数信息随着时间的流逝而稳定,但一些描述引用了过时或暂时的细节,例如建筑区域或停放的车辆。

参与者还指出,该系统偶尔会对用户的身体能力和环境本身做出假设。一些用户强调需要更客观的语言和更好的空间精度,尤其是对于最后一米的导航。其他人希望该系统可以更具动态地适应其随着时间的推移的喜好,而不是依靠静态关键字。
ScenesCout显然不是运输产品,它探讨了多模式大型语言模型与Apple Maps API之间的合作,而不是实时的,基于计算机的现场世界导航。但是一个人可以轻松地从一条线绘制一条线。实际上,这是在研究结束时提出的:
参与者表示,在步行时对实时访问街景描述表示强烈的渴望。他们设想了通过骨传导耳机或透明度模式表达视觉信息的应用,以提供相关的细节。正如P9所说的那样, â€为什么[地图]具有内置的能力来帮助[提供]有关您行走的信息的详细信息。
参与者建议使用更短的 迷你(P1),行走时的描述,仅突出关键细节,例如地标或人行道条件。更全面的描述, IE。``长期描述,当用户暂停行走或到达交叉点时,可以按需触发。
另一位参与者(P4)提出了一种新的互动形式,用户在其中 可以将设备指向一定方向要接受按需描述,而不必物理地对齐手机相机才能捕捉周围环境。这将使用户能够实时积极调查其环境,从而使导航更具动态和响应性。
与其他关于Arxiv的研究一样,场景库特:朝着AI代理驱动的访问盲人用户的街道图像没有同行评审。尽管如此,如果您想知道AI,可穿戴设备和计算机视觉不可避免地会在哪里。
AirPods在亚马逊上交易
- AirPods Pro 2,USB-C充电:35%的折扣,$ 159,99
- Airpods(第三代):$ 88.15
- AirPods 4,USB-C和无线充电:17%的折扣,$ 148.99
- AirPods 4 USB-C充电:23%的折扣,$ 99
- Airpods Max,USB-C充电,午夜:$ 449.99折扣18%
FTC:我们使用收入收入自动会员链接。 更多的。
