以色列和日本之间的一项新的研究合作认为,行人检测系统具有固有的弱点,使知名的个人能够通过仔细计划的路线穿过监视网络最不可能有效的领域来逃避面部识别系统。
借助公开录像研究人员从东京,纽约和旧金山开发了一种自动化方法来计算此类途径,该方法基于可能在公共网络中使用的最流行的对象识别系统。
该研究中使用的三个交叉口:日本东京的Shibuya Crossing;纽约百老汇;和旧金山的卡斯特罗区。资料来源:https://arxiv.org/pdf/2501.15653
通过这种方法,可以生成信心热图该划分摄像机饲料中的区域,使行人最不可能提供积极的面部识别打击:
在右边,我们看到研究人员方法产生的置信度图。红色区域表明置信度较低,以及可能阻碍面部识别的姿势,相机姿势和其他因素的配置。
从理论上讲,这样的方法可以在任何计算的位置中从a到b传播最低的识别友好路径。
新论文提出了一种标题为基于位置的隐私技术(l-pet);它还提出了标题为基于位置的自适应阈值(l-bat)基本上运行完全相同的例程,然后使用信息来加强和改善监视措施,而不是设计方法来避免被识别;在许多情况下,如果没有对监视基础设施进行进一步投资,就无法进行此类改进。
因此,本文在寻求优化其途径以避免检测的途径的人和监视系统充分利用面部识别技术的能力之间建立了潜在的技术战争。
挫败检测的先前方法不如此优雅,并以此为中心对抗方法, 例如TNT攻击,以及使用印刷图案混淆检测算法。
2019年的工作 - 欺骗自动监视摄像机:攻击人检测的对抗贴片表明了一种对抗性印刷模式,能够说服识别系统没有人被发现,从而允许一种隐形。资料来源:https://arxiv.org/pdf/1904.08653
新论文背后的研究人员观察到他们的方法需要更少的准备,而无需设计对抗性可穿戴物品(请参见上图)。这纸
标题为一种隐私增强技术,可以通过街道摄像机逃避检测,而无需使用对抗配件,来自内格夫本·古里安大学和富士通有限公司的五名研究人员。方法和测试根据以前的作品,例如
对手面具
,,,,advhat,,,,对抗贴片以及其他各种类似的郊游,研究人员认为行人攻击者知道监视网络中正在使用哪种对象检测系统。实际上,这不是一个不合理的假设,这是由于广泛采用了最先进的开源系统,例如在监视系统中的Yolo,例如思科和超级学术(目前是Yolo开发中的中央驱动力)。本文还假设,行人可以访问固定在要计算的位置上的互联网上的直播流,这再次是合理的假设
在大多数地方,可能具有覆盖范围的强度。511NY.org之类的网站提供了访问纽约市地区许多监视摄像机的访问权限。来源:https://511ny.or
除此之外,行人还需要访问所提出的方法,并可以访问场景本身(即,要确定安全路线的交叉路口和路线)。为了发展L-PET,作者评估了行人角度相对于相机的影响。
相机高度的影响;
距离的影响;以及一天中的影响。为了获得地面真相,他们以0°,45°,90°,135°,180°,225°,270°,270°和315°的角度拍摄了一个人。
研究人员进行的地面真理观察。
他们在三个不同的摄像头高度(0.6m,1.8m,24m)中重复了这些变化,并具有不同的照明条件(早晨,下午,夜间和实验室条件)。
将此镜头喂给更快的R-CNN和Yolov3对象探测器,他们发现物体的信心取决于行人角度的敏锐度,行人的距离,相机高度和天气/照明条件*。
然后,作者在同一情况下测试了更广泛的对象检测器:更快的R-CNN;Yolov3;SSD;扩散图;和RTMDET。
作者指出:
我们发现,所有五个对象探测器架构都受到行人位置和环境光的影响。此外,我们发现,对于五个模型中的三个(Yolov3,SSD和RTMDET),该效果在所有环境光级别中持续存在。”
为了扩展范围,研究人员使用了从三个地点公开可用的交通摄像机拍摄的录像:东京的Shibuya Crossing,纽约百老汇和旧金山的Castro District。
每个位置都提供了五到六个录音,每个录制大约有四个小时的录像。为了分析检测性能,每两秒提取一次帧,并使用更快的R-CNN对象检测器进行处理。对于获得的帧中的每个像素,该方法估计了该像素中存在的人检测边界框的平均置信度。
我们发现,在所有三个位置,对象探测器的信心取决于框架中人员的位置。例如,在Shibuya Crossing录像中,有很大的信心较低,距离相机更远,并且靠近相机,那里有一根杆子部分掩盖了经过的行人。”
L-PET方法本质上是该程序,可以说是“武器化”,以通过城市地区获得一条路径,这最不可能导致行人成功地得到认可。
相比之下,L-bat遵循相同的步骤,不同的是,它更新了检测系统中的分数,创建了一个反馈回路,旨在避免L-PET方法并使系统的盲区更多有效的。
(但是,实际上,基于获得的热图改善覆盖范围不仅需要坐在预期位置的相机的升级;根据测试标准,包括位置,还需要安装额外的摄像头才能覆盖被忽视的被忽视的相机因此,可以说,L-PET方法确实将这种特殊的冷战升级为非常昂贵的情况)
在观测到的卡斯特罗街(Castro Street)区域中,每个像素的平均行人检测信心在各种探测器框架中进行了分析。每个视频都在不同的照明条件下记录:日出,白天,日落和两个不同的夜间设置。对于每个照明场景,结果分别显示。
将基于像素的矩阵表示转换为图表适用于任务,研究人员适应了Dijkstra算法计算行人的最佳路径,以通过降低监视检测的区域导航。
修改了该算法,而不是找到最短的路径,以最大程度地降低检测信心,将高信心区域视为成本较高的区域。这种适应使算法能够识别穿过盲点或低检测区域的路线,从而有效地指导行人沿着路径,可见度可见性监测系统。
可视化描述了场景的热图从基于像素的矩阵转换为基于图的表示。
研究人员评估了L-BAT系统对行人检测的影响,该数据集是根据上述四小时的公共行人交通录制的数据集的。为了填充集合,使用SSD对象检测器每两秒钟处理一次帧。
从每个框架中,选择一个边界框,其中包含一个被检测到的人作为正样本,而没有检测到的人的另一个随机区域被用作负样本。这些双胞胎样品形成了一个数据集,用于评估使用L-bat应用的两个更快的R-CNN模型,一个没有。
通过检查它们确定的正面和负样本的准确程度来评估模型的性能:重叠正面样品的边界框被认为是真正的阳性,而边界框重叠的负面样本被标记为假阳性。
用于确定L-BAT检测可靠性的指标为曲线下的区域(AUC);真正的正率(TPR);误报率(FPR);和平均真正的积极信心。研究人员断言,使用L-BAT增强了检测信心,同时保持高真实的正率(尽管假阳性略有增加)。
作者结束时指出,该方法有一些局限性。一个是,其方法产生的热图特定于一天中的特定时间。尽管他们没有阐述它,但这表明需要采取更大的多层方法来解决更灵活的部署时间。
他们还观察到热图不会转移到不同的模型架构上,并与特定的对象检测器模型相关。由于所提出的工作本质上是概念验证,因此也可以开发出更多的Adroit架构来弥补这一技术债务。
结论
该解决方案为新的监视摄像机付费的任何新攻击方法都有一定的优势,因为在高度残留的地区扩展Civic Camera网络可以是在政治上具有挑战性,以及代表通常需要选民授权的著名公民费用。
也许这项工作提出的最大问题是封闭源监视系统是否利用开源SOTA框架,例如Yolo?。当然,这是不可能知道的,因为拥有如此多州和公民摄像机网络的专有系统的制造商(至少在美国)会争辩说,披露这种用法可能会打开他们的攻击。
尽管如此,政府IT和内部专有法规的迁移到全球和开源法规会表明,任何对作者争论(例如)(例如)Yolo进行测试的任何人都可能会立即触发大奖。
*通常,我通常会在论文中提供相关的表结果,但是在这种情况下,论文表的复杂性使它们对休闲读者的不满意,因此摘要更为有用。
首次出版于2025年1月28日,星期二