英语轻松读发新版了,欢迎下载、更新

Boffins构建自动化的Android错误狩猎系统

2025-09-04 22:18:00 英文原文

AI模型因生产草率的错误报告和带有幻觉问题的开源维护者而受到抨击,但它们也有可能通过自动化来改变应用程序安全性。

计算机科学家隶属于中国南京大学和澳大利亚悉尼大学的计算机科学家说,他们已经开发了一种AI脆弱性识别系统,该系统模仿了人类虫子猎人的方式。

Ziyue Wang(Nanjing)和Liyi Zhou(悉尼)已经扩展了先前的工作称为A1的AI代理A1,可以为加密货币智能合约开发利用,A2,A2,AI代理,能够在Android应用中发现和验证。

他们在预印本中描述A2标题为“ Android应用程序漏洞的代理发现和验证”。

作者声称,A2系统在该系统上达到78.3%格拉基准,超过了像Apkhunt这样的静态分析仪(30.0%)。他们说,当他们在169个生产APK上使用A2时,他们发现了“ 104个真实阳性的零日漏洞”,其中57个是通过自动生成的概念证明(POC)利用来自我验证的。

其中之一包括一个Android应用程序中的中度缺陷,安装了超过1000万个。

悉尼大学计算机科学讲师Liyi Zhou说:“我们发现了一个意图重定向问题。”寄存器。“这不是一个微不足道的错误,它表明了A2在野外发现真实,有影响力的缺陷的能力。”

他解释说,当Android应用程序发送意图时,就会发生重定向 - 用于请求操作的消息,例如打开屏幕或传递数据,但无法仔细检查其前进的位置。该漏洞允许恶意应用程序将其意图更改为其控制的组件。

周认为没有A2无法处理的漏洞类别。

A2作为信号源而不是噪声的值源于其验证其发现的能力。正如作者观察到的那样,“现有的Android漏洞检测工具压倒了成千上万的低信号警告,但很少有真正的阳性。”

代码中有很多潜在的漏洞,但是很少有人可以轻松利用它们。假阳性的问题是通过报告无关紧要的问题的易用AI编码工具加重了。

周说:“ A2的突破是它反映了人类安全专家的实际运作方式。”

代理系统由各种商业AI模型 - OpenAi O3(O3 2025-04-16),Gemini 2.5 Pro(Gemini-2.5-Pro),Gemini 2.5 Flash(Gemini-2.5-Flash)和GPT OSS(GPT-OSS OSS(GPT-OSS-120b))在三个角色中进行了攻击:执行攻击的攻击者,该任务是执行攻击的攻击者,该任务是任务,该任务是任务,该任务是任务,任务是任务,该任务是任务,甲壳做出决定并验证结果的系统。

周说,研究人员的A1系统只进行了计划和执行。它的验证仅限于决定攻击是否赚钱的固定甲骨文。

周说:“ A2的主要新颖性是其验证者。”

例如,他根据GHERA数据集的任务描述了此设置。应用程序具有密码重置流。它将AES密钥作为纯字符串存储在strings.xml中。使用该密钥,该应用程序从电子邮件中创建一个令牌。知道钥匙可以让攻击者伪造令牌以获取任何电子邮件。

周解释说,A2将其分解为三个任务:

任务1:提取硬编码钥匙

  1. 计划者:设置任务以在res/values/strings.xml中找到密钥。
  2. 执行人:读取文件并提取密钥。
  3. 验证器:(i)检查文件是否存在。(ii)检查密钥值匹配。

两者都通过,因此钥匙已被确认。

任务2:伪造密码重置令牌

  1. 输入受害者电子邮件,例如示例@example.com。
  2. 使用键使用AES-ECB对其进行加密。
  3. base64编码密文以形成令牌。
  4. 验证器独立重新计算令牌并比较输出。

它们匹配,因此标记已得到确认。

任务3:证明身份验证旁路

  1. 使用伪造的令牌启动新的PassWordActivity。
  2. App解密令牌并显示绑定的电子邮件。
  3. 验证器:(i)确认活动是新的PassWordActivity。(ii)确认电子邮件出现在屏幕上。

两次检查通过,证明了伪造的令牌旁观身份验证。

Zhou说:“简而言之:任务1显示了密钥的存在;任务2显示了密钥薄荷的有效令牌;任务3显示了令牌旁路的身份验证。”“所有三个步骤均已具体验证。”

周认为AI已经超过了传统工具。

他说:“在Android中,我们的A2系统击败了现有的静态分析,并且在智能合约中,A1接近最新技术。”“工具仍然很有用,但是它们很缓慢且难以构建。人工智能快速且易于使用 - 我们只是称为API,而AI公司将数十亿美元投入培训。我们站在他们的肩膀上。”

对于那些追求漏洞赏金的人来说,AI资本支出看起来像是一场意外之财。

该论文说:“仅检测成本从每次APK(O3)$ 0.003-0.029,每APK $ 0.0004-0.001(GPT-OSS-1220B)到$ 0.002-0.014 apk(gemini variants)。”“ GPT-OSS-1220B的汇总成本增加到每APK的成本为0.04-0.33美元,GEMINI-2.5-FLASH的每APK $ 0.06-0.66,Gemini-2.5-Pro的每APK $ 0.26-0.61,O3的APK $ 0.84-3.35。”

全面验证管道的混合LLMS的费用在每个漏洞的0​​.59-4.23之间,中位成本为1.77美元。当将Gemini-2.5-Pro用于所有内容时,成本在每个漏洞的$ 4.81-26.85不等,中位成本为8.94美元。

去年,伊利诺伊大学Urbana-Champaign计算机科学家表明OpenAI的GPT-4可以从安全咨询中产生利用每次利用的费用约为8.80美元。

在发现发现缺陷的范围内可以通过Bug Bounty计划获利,鉴于中等严重性奖励可能是数百或几千美元,AI套利机会对于那些可以进行准确报告的人来说是很有希望的。

但是周观察到漏洞赏金计划的范围有限。他说:“猫和鼠标的游戏是不可避免的。”“ A2今天可能会发现严重的缺陷,但是Bug Bounty计划只涵盖了其中的一小部分。该差距激励了攻击者直接利用这些错误的强烈动机。这是如何进行的。这取决于后卫的速度速度。

“该领域即将爆炸。A1和A2的成功意味着研究人员和黑客都会急于进入。期望在防守研究和进攻性剥削中会有大量活动。”

JAMF高级安全战略经理Adam Boynton被问及A2这样的系统可能对安全研究意味着什么。寄存器,“ AI正在将漏洞发现从无尽的扫描警报转移到基于证明的验证。安全团队获得更少的误报,更快的修复速度,并专注于实际风险。”

A2源代码和工件仅限于具有机构隶属关系的人,并且是宣布的研究目的,以平衡开放研究与负责任的披露。®

关于《Boffins构建自动化的Android错误狩猎系统》的评论


暂无评论

发表评论

摘要

南京大学和悉尼大学的研究人员开发了A2,这是一种AI系统,可以识别和验证Android应用中的漏洞。A2在GHERA基准测试上获得了78.3%的覆盖范围,超过了Apkhunt(30.0%)等静态分析仪。在测试169个生产APK时,A2发现了104个真实阳性的零日漏洞,其中包括一个超过1000万个安装的应用程序中的中度漏洞。该系统使用各种AI模型来计划攻击,执行它们并通过自动概念证明利用来验证发现。使用A2的成本从每个漏洞的$ 0.59到$ 4.23不等,这对于Bug Bounty计划在经济上可行。