作者:By Andrew Rosenblumarchive page
去年冬天,在马萨诸塞州玛莎(Martha)的葡萄园(Martha s Vineyard)的一个经济适用房项目中,一位名叫Jose Luis Collaguazo Crespo的32岁工人滑下梯子在二楼,在地下室死亡。他是不仅仅是 每年在美国工作的1,000名建筑工人,使它成为最危险的行业用于致命的滑倒,旅行和跌倒。
``每个人都在谈论[安全性如何是第一要务,''企业家和行政长官菲利普·洛伦佐(Philip Lorenzo)在4月在加利福尼亚大学伯克利分校举行的一次会议上的会议。人们在工作现场进行快捷方式。因此,在安全性和生产力之间进行了整个拔河。
为了打击快捷方式和冒险,洛伦佐正在为旧金山公司Dronedeploy创作工具,,,,销售软件可以创建每日数字模型,以从视频和图像中(在交易中称为现实捕获)中的工作进度。”该工具称为“安全AI”违反职业安全与卫生管理局(OSHA)的标志条件规则,他声称的是95%的准确性。这意味着,对于任何安全风险,软件标志都有95%的确定性是准确的,并且与特定的OSHA法规有关。
洛伦佐说,该公司于2024年10月推出,现在部署在美国数百个建筑地点,以及针对加拿大,英国,韩国和澳大利亚在内的国家 /地区特定的版本。
安全AI是近年来出现的多种AI建筑安全工具之一 硅谷到 香港到 耶路撒冷。其中许多依赖于人类单击器的团队,通常在低工资国家中,手动围绕着梯子等关键对象的图像绘制界限,以标记大量数据以训练算法。
洛伦佐(Lorenzo)说,安全性AI是第一个使用生成AI来标记安全性违规行为的安全性AI,这意味着一种算法可以做的不仅仅是识别梯子或硬帽等物体。该软件可以理解网站图像中发生的事情,并就是否存在OSHA违规得出结论。洛伦佐(Lorenzo)声称,这是比当前行业标准的对象检测更先进的分析形式。但是,正如95%的成功率所表明的那样,安全性AI并不是完美无瑕的智能。它需要经验丰富的安全检查员作为监督者。
机器人和人工智能倾向于在受控的,在很大程度上静态环境(例如工厂地板或运输码头)蓬勃发展。但是,根据定义,建筑工地每天都在改变。
洛伦佐(Lorenzo)认为,他使用一种称为视觉语言模型或VLM的生成型AI来建立了一种更好的方法来监视站点。VLM是带有视觉编码器的LLM,可以看到世界的图像并分析场景中发生的事情。
通过从客户那里收集的多年现实捕获图像,并获得了明确的许可,Lorenzo的团队汇集了他所谓的“黄金数据集”,其中包括成千上万的OSHA违规图像。多年来,他仔细地库存了这些特定数据,他并不担心即使是十亿美元的科技巨头也将能够复制并压制他。
为了帮助培训模型,洛伦佐(Lorenzo)拥有一个较小的建筑安全专业人员团队,询问AI的战略问题。培训师输入了从黄金数据集到VLM的测试场景,并提出问题,以通过分解场景并逐步进行分析的过程来指导模型,以经验丰富的人类的方式进行分析。例如,如果VLM不会产生正确的响应,那么它会错过违规行为或记录误报的人类培训师回去调整提示或输入。洛伦佐(Lorenzo)说,教授VLM,而不是简单地学习识别对象,而是要教某种方式思考,这意味着它可以对图像中发生的事情得出微妙的结论。”
由Dronedeploy提供
例如,洛伦佐(Lorenzo秋季死亡的24%在建筑业。
``经过传统的机器学习,很难回答一个问题的问题 - 洛伦佐说。您可以找到梯子。你可以找到人。但是从逻辑上讲,说“好吧,这个人都很好或 - 哦,不,那个人站在顶部的步骤中 - 只有VLM才能在逻辑上推理,然后就像,好吧,这是不安全的。在这里,OSHA参考可以说您可以处于最高阶段。
回答多个问题(梯子上的人有三个联系点吗?用梯子作为高跷四处走动?)是否合并以确定图片中的梯子是否安全使用。洛伦佐说:``我们的系统都有超过十二层的质疑。”Dronedeploy尚未公开发布其数据供审核,但他说他希望自己的方法能够由安全专家独立审核。
Chen Feng说,使用视觉语言模型进行建筑AI显示了希望,但是有一些非常基本的问题要解决,包括幻觉和边缘案例问题,VLM没有受过训练的异常危害。他领导纽约大学的AI4CE实验室,它为建筑机器人技术和其他领域中的3D映射和场景理解开发了技术。95%的人令人鼓舞,但是我们如何解决剩余5%的呢?
冯指的是一张2024年的纸睁大眼睛闭上Feng说,由纽约大学(NYU)的博士生,由AI Luminary Yann Lecun撰写的Shengbang Tong撰写,指出了VLMS中的系统性缺陷。但是,对于更复杂的事物,这些功能仍将得到改善。
洛伦佐(Lorenzo)承认,LLMS存在一些主要缺陷,并且他们在空间推理上挣扎。因此,安全AI还采用了一些较旧的机器学习方法来帮助创建建筑工地的空间模型。这些方法包括将图像分割为关键组件和摄影测量法,这是一种从2D图像创建3D数字模型的已建立技术。安全AI也在大量训练10个不同的问题领域,包括梯子的用法,以期待最常见的违规行为。
即便如此,洛伦佐(Lorenzo)承认,LLM无法识别的边缘案例。但他指出,对于经常一次多达15个站点的过度劳累的安全经理来说,拥有额外的数字眼睛仍然是一种改进。
位于旧金山湾区的混凝土项目经理亚伦·坦(Aaron Tan)表示,像安全AI这样的工具对这些过度扩展的安全经理可能会有所帮助,如果他们能获得电子邮件的警报,而不必开车两个小时的车程才能亲自访问网站,他们将节省很多时间。而且,如果该软件可以证明它正在帮助确保人们的安全,他认为工人最终会接受。
但是,谭指出,工人还担心这些类型的工具会是bossware曾经让他们陷入困境。在我的最后一家公司中,我们实施了相机[作为]安全系统。他不喜欢那些人。他们就像,哦,哥哥。你们一直在看我 - 我没有隐私。
一家名为Safeguard AI的公司首席执行官Izhak Paz已考虑合并VLM,但他坚持使用较旧的机器学习范式,因为他认为这更可靠。他说,基于机器学习的旧计算机愿景仍然更好,因为机器本身与人力干预之间的混合措施在处理偏差方面是混合的。”为了在新的危险类别上训练算法,他的团队汇总了大量与特定危险相关的标签录像,然后通过修剪误报和误报来优化算法。帕兹说,这个过程可能需要几周到六个月的时间。
培训完成后,Aii AI执行了风险评估,以确定现场的潜在危害。它可以通过从附近任何与Internet连接的相机访问录像来实时查看网站。然后,它使用AI代理来推动有关站点管理器移动设备旁边的操作的说明。帕兹(Paz)拒绝给出准确的价格,但他说,他的产品仅适用于在中型市场及以上的建筑商,特别是管理多个站点的人。该工具正在以色列,美国和巴西大约3500个地点使用。
贝德斯,一家位于特拉维夫的公司麻省理工学院技术评论在2020年剖析,不是进行安全分析,而是每周一次或两次对网站的视觉进度报告。Buildots还使用带有标记的培训数据的机器学习方法。首席执行官Roy Danon说,我们的系统必须达到99%。
他说,获得标记的培训数据实际上比他和他的联合创始人在2018年开始该项目时要容易得多,因为收集站点的视频录像意味着每个对象(例如插座)可能会被捕获,然后在许多不同的框架中标记。但是,该工具是高端约50个建筑商,大多数建造者拥有超过2.5亿美元的收入,在欧洲,中东,非洲,加拿大和美国使用Buildots。到目前为止,它已用于300多个项目。
华盛顿大学机器人和AI法律专家瑞安·卡洛(Ryan Calo)喜欢建筑安全的AI想法。但是,由于经验丰富的安全经理已经在建筑中蔓延开来,因此Calo担心建筑商将被诱使人类完全摆脱安全过程。他说,我认为AI和无人机发现安全问题,否则杀死工人的安全问题非常明智。”他说。只要由一个人验证。
安德鲁·罗森布鲁姆(Andrew Rosenblum)是位于加利福尼亚州奥克兰的自由技术记者。