联合学习如何（以及为何）增强网络安全

加入我们的每日和每周时事通讯，了解有关行业领先人工智能报道的最新更新和独家内容。了解更多

每年，网络攻击事件变得更加频繁，数据泄露的代价也变得更加高昂。无论公司是寻求在开发过程中保护其人工智能系统，还是使用其算法来改善其安全状况，他们都必须减轻网络安全风险。联邦学习也许能够做到这两点。

什么是联邦学习？

联邦学习是一种方法人工智能开发其中多方分别训练一个模型。每个都从中央云服务器下载当前的主要算法。他们在本地服务器上独立训练配置，完成后上传。这样，他们就可以远程共享数据，而无需暴露原始数据或模型参数。

集中式算法权衡从每个不同训练配置接收的样本数量，将它们聚合以创建单个全局模型。所有信息都保留在每个参与者的本地服务器或设备上 - 集中存储库权衡更新而不是处理原始数据。

联邦学习的受欢迎程度正在迅速增加，因为它解决了与开发相关的常见安全问题。它还因其性能优势而备受追捧。研究表明该技术可以改进图像分类模型准确率高达 20%——大幅增长。

横向联邦学习

联邦学习有两种类型。传统的选择是水平联邦学习。在这种方法中，数据被划分到不同的设备上。数据集共享特征空间，但具有不同的样本。这使得边缘节点能够协作训练机器学习 (ML) 模型，而无需共享信息。

垂直联邦学习

在垂直联邦学习中，情况恰恰相反——特征不同，但样本相同。特征垂直分布在参与者之间，每个参与者都拥有关于同一组实体的不同属性。由于只有一方可以访问整套样本标签，因此这种方法可以保护隐私。

联邦学习如何加强网络安全

传统开发容易出现安全漏洞。尽管算法必须拥有广泛的相关数据集才能保持准确性，但涉及多个部门或供应商会为威胁行为者创造机会。他们可以利用缺乏可见性和广泛的攻击面来注入偏见、进行迅速的工程或泄露敏感训练数据。

当算法部署在网络安全角色中时，它们的性能可能会影响组织的安全态势。研究表明，处理新数据时模型的准确性可能会突然下降。尽管人工智能系统可能看起来很准确，但在其他地方进行测试时它们可能会失败，因为它们学会了采取虚假的捷径来产生令人信服的结果。

由于人工智能无法批判性地思考或真正考虑上下文，因此它的准确性会随着时间的推移而降低。尽管机器学习模型随着吸收新信息而不断发展，但如果它们的决策技能基于捷径，它们的性能就会停滞不前。这就是联邦学习的用武之地。

通过不同的更新训练集中式模型的其他显着好处包括隐私和安全性。由于每个参与者都是独立工作的，因此没有人需要共享专有或敏感信息来推进培训。此外，数据传输越少，中间人攻击 (MITM) 的风险就越低。

所有更新均经过加密以确保安全聚合。多方计算将它们隐藏在各种加密方案后面，从而降低了泄露或 MITM 攻击的可能性。这样做可以增强协作，同时最大限度地降低风险，最终改善安全态势。

联邦学习的一项被忽视的优势是速度。它的延迟比集中式的同类产品低得多。由于训练在本地而不是在中央服务器上进行，因此该算法可以更快地检测、分类和响应威胁。最小的延迟和快速的数据传输使网络安全专业人员能够轻松应对不良行为者。

网络安全专业人员的注意事项

在利用这种培训技术之前，人工智能工程师和网络安全团队应该考虑几个技术、安全和操作因素。

资源使用情况

人工智能开发成本高昂。构建自己的模型的团队应该预期在任何地方都可以花费500万至2亿美元预付款，每年 500 万美元以上用于维护。即使成本由多方分摊，财务承诺也很重要。企业领导者应该考虑云和边缘计算成本。

联邦学习也是计算密集型的，这可能会带来带宽、存储空间或计算限制。虽然云可以实现按需扩展，但如果不小心，网络安全团队就会面临被供应商锁定的风险。战略性硬件和供应商选择至关重要。

参与者信任

虽然不同的训练是安全的，但它缺乏透明度，使得故意偏见和恶意注入成为一个问题。在集中式算法聚合模型更新之前，共识机制对于批准模型更新至关重要。这样，他们就可以在不牺牲机密性或暴露敏感信息的情况下最大限度地降低威胁风险。

培训数据安全

虽然这种机器学习培训技术可以改善公司的安全状况，但不存在 100% 安全的情况。在云中开发模型会面临内部威胁、人为错误和数据丢失的风险。冗余是关键。团队应创建备份以防止中断并在必要时回滚更新。

决策者应该重新审视他们的训练数据集来源。在机器学习社区中，存在大量借用数据集的情况，引发了对模型错位的有充分根据的担忧。在带有代码的论文上，超过50% 的任务社区至少 57.8% 的时间使用借用的数据集。此外，其中 50% 的数据集仅来自 12 所大学。

联邦学习在网络安全中的应用

一旦主要算法聚合并权衡参与者的更新，就可以重新共享它所训练的任何应用程序。网络安全团队可以使用它来检测威胁。这里的优势是双重的——虽然威胁行为者因为无法轻易泄露数据而只能猜测，但专业人员可以汇集洞察力以获得高度准确的输出。

联合学习非常适合威胁分类或妥协检测指示器等相邻应用程序。人工智能的庞大数据集和广泛的培训构建了其知识库，汇集了广泛的专业知识。网络安全专业人员可以使用该模型作为统一的防御机制来保护广泛的攻击面。

随着概念的演变或变量变得不那么相关，机器学习模型（尤其是那些做出预测的模型）很容易随着时间的推移而发生漂移。通过联邦学习，团队可以定期使用不同的特征或数据样本更新模型，从而获得更准确、及时的见解。

利用联合学习实现网络安全

无论公司是想保护训练数据集还是利用人工智能进行威胁检测，他们都应该考虑使用联邦学习。只要他们战略性地应对潜在的内部威胁或违规风险，这种技术就可以提高准确性和性能，并加强他们的安全态势。

扎克·阿莫斯 (Zac Amos) 是特稿编辑重新黑客。

数据决策者

欢迎来到 VentureBeat 社区！

DataDecisionMakers 是专家（包括从事数据工作的技术人员）可以分享与数据相关的见解和创新的地方。

如果您想了解前沿思想和最新信息、最佳实践以及数据和数据技术的未来，请加入我们的 DataDecisionMakers。

你甚至可以考虑贡献一篇文章属于你自己的！

从 DataDecisionMakers 阅读更多内容