英语轻松读发新版了,欢迎下载、更新

机器学习方法通​​过从数据集中产生准确的标签来削减欺诈检测成本

2025-04-15 13:30:05 英文原文

作者:by Florida Atlantic University

fraud
图片来源:Pexels的Tara Winstead

欺诈在美国广泛,受到技术的驱动。例如,现在有93%的信用卡欺诈涉及远程帐户访问,而不是物理盗窃。2023年,欺诈损失首次超过100亿美元。

财务损失令人震惊:每年耗资50亿美元,影响美国持卡人的60%,而身份盗用在2021年造成了164亿美元的损失。每年的Medicare欺诈行为损失600亿美元,政府损失每年的损失每年的2330亿美元至5210亿美元,自2003年以来总付款不正确,总付款不正确。

机器学习通过实时识别模式和异常来在欺诈检测中起关键作用。它分析发现正常行为并标记出明显的偏差,例如异常交易或帐户访问。但是,欺诈检测是具有挑战性的,因为欺诈案件比普通情况要稀有得多,而且数据通常是混乱或未标记的。

为了应对这些挑战,佛罗里达州大西洋大学工程与计算机科学学院的研究人员开发了一种新颖的方法,可以在高度不平衡的数据集中生成二进制类标签,为医疗保健和金融等行业提供了有希望的解决方案。这种方法在不依赖标签数据的情况下起作用,这是隐私问题和标签成本是重要障碍的部门的关键优势。

该团队在两个现实世界中的大型数据集(少于0.2%)上测试了他们的方法:欧洲信用卡交易(从2013年9月起,超过280,000个)和D Medicare part D索赔(从2013年到2019年超过500万),两者都被标记为欺诈性或真实性。这些数据集(欺诈案件都远远超过了非欺诈情况),为测试欺诈检测方法提供了一个现实世界中的挑战。

该研究的结果发表在大数据杂志,证明这种新的标签方法有效地解决了在无监督框架中严重不平衡数据标记的挑战。此外,与传统方法不同,这种方法直接评估了新生成的欺诈和非欺诈标签,而无需依靠有监督的分类器。

“使用FAU电气工程和计算机科学系高级作者兼摩托罗拉教授Taghi Khoshgoftaar博士说:“在欺诈探测中,欺诈检测带来了许多优势。我们的方法代表了欺诈检测的重大进步,尤其是在高度不平衡的数据集中。

“它通过最大程度地减少需要进一步检查的案例来减少工作量,这在Medicare和信用卡欺诈等领域至关重要,在此行业中,快速数据处理对于防止快速处理至关重要并提高运营效率。”

该研究表明,新方法优于广泛使用的隔离森林算法,提供了一种更有效的方法来识别欺诈,同时最大程度地减少了进一步研究的需求。这证实了该方法的能力,即使在具有挑战性的数据集中,也可以生成可靠的二进制类标签来进行欺诈检测。它提供了可扩展的解决方案,用于检测欺诈,而不依赖于昂贵且耗时的标签数据,该数据需要大量的手动专家输入并且是资源密集的,尤其是对于大型数据集。

第一作者玛丽·安妮·瓦劳斯基斯(Mary Anne Walauskis)说:“我们的方法生成了用于欺诈,正面和非欺诈或负面实例的标签,然后将其完善以最大程度地减少欺诈标签的数量。”FAU电气工程和计算机科学系的候选人。“通过应用我们的方法,我们最大程度地减少了误报,换句话说,以欺诈为标志的真实实例,这是改善欺诈检测的关键。

“这种方法可确保仅保留最自信的欺诈案件,从而提高准确性并降低不必要的警报,从而使更有效。”

该方法结合了两种策略:使用Scikit-Learn库和百分位梯度方法组成的三种无监督学习技术的集合。目的是通过关注最自信的欺诈案件来最大程度地减少误报。这是通过完善标签并减少无监督方法(EUM)和百分位梯度方法(PGM)中的错误来实现的。

精致的标签创建了一个很有可能准确的自信标签子集。然后,这些标签用于创建置信区间并确定标签,需要最小的域知识才能选择正实例的数量。

工程和计算机科学学院院长Stella Batalama说:“这种创新的方法对困扰欺诈行为的行业具有巨大的希望,提供了一种更容易,有效的方法来识别欺诈活动并保护金融和卫生保健系统。”

“欺诈的影响超出了财务损失,包括情绪困扰,声誉损害和对组织的信任减少。尤其是医疗保健欺诈,尤其会破坏护理质量和成本,而身份盗用会造成严重的压力。解决欺诈是缓解其广泛社会影响的关键。”

展望未来,研究团队计划通过确定最佳的积极实例数来增强该方法,从而进一步提高大规模应用程序的效率和可扩展性。

当前的期刊文章“针对严重失衡欺诈数据的无监督标签生成”是研究人员的更新版本。以前的工作,“自信标签:对高度不平衡数据进行新的类标签和评估的新型方法。”

原始论文发表并在IEEE第36届国际人工智能工具会议(ICTAI)在2024年11月,在那里获得了最佳学生纸奖。ICTAI是一项享有声望的会议,其接受率约为400多张。

更多信息:Mary Anne Walauskis等人,无监督的标签生成严重失衡的欺诈数据,大数据杂志(2025)。doi:10.1186/s40537-025-01120-X

引用:机器学习方法通​​过从数据集中产生准确的标签来削减欺诈检测成本(2025年,4月15日)检索2025年4月15日摘自https://techxplore.com/news/2025-04-machine-method-fraud-generating-accurate.html

该文档具有版权。除了为私人研究或研究目的的任何公平交易外,没有未经书面许可,可以复制部分。内容仅用于信息目的。

关于《机器学习方法通​​过从数据集中产生准确的标签来削减欺诈检测成本》的评论


暂无评论

发表评论

摘要

美国的欺诈行为越来越以技术为导向,有93%的信用卡欺诈涉及远程访问。2023年,欺诈损失超过了100亿美元。来自佛罗里达大西洋大学的研究人员开发了一种新方法,使用无监督学习生成高度不平衡数据集的二进制类标签,改善了医疗保健和金融中的欺诈检测而不依赖标签数据。该方法经过欧洲信用卡交易和医疗保险D部分的主张,优于隔离森林,降低误报并提高运营效率,胜过传统方法。该研究发表在《大数据杂志》上。