由Dave Defusco
在建立有效的机器学习模型时,最关键的步骤之一是功能工程。此过程涉及将原始数据选择和转换为模型可以用来进行预测的有意义的功能。做得很好,功能工程可以显着提高模型的准确性和可靠性。
在最近的一项研究中,Katz School的研究人员在最近的一项研究中,相互信息减少技术及其在功能工程中的应用 计算机科学与工程系探索哪些功能最重要,以及它们如何以最佳方式一起工作。他们在一月份的2025年IEEE国际消费电子国际会议上介绍了他们的发现。
传统方法在很大程度上依赖相互信息(MI),这是一种统计措施,告诉我们一条信息揭示了多少信息。例如,在预测贷款违约的机器学习模型中,共同信息可以将信用评分或收入等功能与预测高度相关。
尽管MI功能强大,但大多数方法仅着重于最大化特征和目标结果之间的MI。这样可以确保该模型获得最相关的数据,但它忽略了一个重要的问题:功能之间的冗余。例如,如果有两个功能,例如月收入和年收入高度相关,它们会添加重复性信息,这些信息可以使模型混乱并减速。
我们介绍了一种新的思维方式:我们的研究还重点是减少功能本身之间的相互信息,而不是寻找最高的MI分数的功能。”董事 多发性硬化症。在数据分析和可视化中。这很重要,因为通过最大程度地减少冗余,我们创建了一组功能,每个功能都为模型添加了独特的,有价值的信息。这种方法可确保模型在处理分类等复杂任务时变得更有效,准确,更好。
该方法以MI矩阵开头,该MI矩阵显示了每个功能与他人共享的信息。通过应用相互信息减少技术,该过程可以识别并删除重叠的信息。这导致了一个精致的数据集,每个功能都以其独特的贡献而脱颖而出。
研究人员还合并了大量证据(祸),这是一种转换技术,可以提高功能的预测能力,尤其是在二进制分类任务中,例如是/否或批准/拒绝决定。祸患捕获数据中的细微差别,确保即使冗余降低后,这些功能仍然很有意义。
为了测试他们的方法,研究人员将其应用于贷款默认数据集。使用蛮力方法来微调参数,它们成功地最大程度地减少了特征之间的共同信息。结果?一个更聪明,更智能的模型,其冗余性降低了。
然后,他们在祸害转换上分层,这进一步增强了模型的性能,尤其是对于常用于风险管理中的逻辑回归模型。这种双重方法不仅提高了准确性,而且还提供了对驱动贷款违约因素的更好见解。
这一突破提供了一种更明智的方法来构建机器学习模型,而无关或重复的数据却陷入困境。含义是巨大的:
该研究的主要作者鲁伊因·陈(Ruixin Chen)说,这项研究为新的可能性打开了大门。 多发性硬化症。在人工智能中。未来的研究可以探索自动化的方法来优化相互信息减少,将技术应用于更复杂的数据集或扩展其在无监督的学习任务中的使用。”