了解您的数据以利用联邦机器学习

2024-10-16 11:00:01 英文原文

作者:José Parra-Moyano, Karl Schmedders, and Maximilian Werner

萨姆·费尔康ер/theispot.com

如今,部署人工智能已不再保证具有竞争优势。真正使公司脱颖而出的是拥有多样、广泛且高质量的数据,这些数据可以提升其AI系统的性能,超越竞争对手的水平。但对数据隐私的担忧可能会限制独特且相关数据的使用分析。

通过隐私保护手段可以缓解这一问题。联邦学习这项技术结合一种特殊类型的加密,使得人工智能模型或其他类型算法可以使用来自多个分散的服务器的数据进行训练,这些服务器由不同的组织控制——同时尊重了数据中涉及的个人或组织的隐私。1简单来说,联邦学习是指将算法发送到数据所在的位置,而不是将数据发送到算法。

获取关于利用人工智能和数据进行领导力更新的通知

获取关于人工智能如何影响您的组织以及这对您的公司和客户意味着什么的月度洞察。

请输入有效的电子邮件地址

感谢您注册

隐私政策

这是总部位于瑞士的苏黎世保险集团如何利用英国电信公司Orange的数据改进其预测算法的方式。通过使用商业联邦学习平台,苏黎世的算法可以在不向Orange释放任何数据的情况下进行训练,并提高其预测能力。这种合作使AI系统的预测准确性提高了30%,为苏黎世带来了显著的收入增长。对于Orange来说,这代表了一种新的在保护隐私的同时将数据货币化的方式。

跨行业和行业内联邦学习

联邦学习的实际应用现在正在迅速涌现,因为组织正在寻找更多数据来训练他们希望带来竞争优势的AI系统。例如,一家大型银行的信贷部门使用这种方法对其预测贷款违约的算法进行了微调,利用了一家全球最大的电信公司拥有的数据,并将预测准确性提高了约10%。

此类合作的价值在于能够使用比任何单一组织单独收集的更丰富的数据集来训练AI系统。为了做到这一点,组织需要识别可以采用联邦学习方法使用其数据以改进其AI系统性能的合作伙伴。

尽管不同行业的组织之间合作可能看起来更加合乎逻辑,但联邦学习可以促进同一行业内的合作,包括直接竞争对手之间的合作。

一些竞争的私立医院的病理部门由于难以自行编译完整的数据集,正在采取这种合作方式。这些部门通过结合各自的数据集来训练一个共享的诊断算法——例如,用于分析疾病的物理组织图像。结果是,所有参与的医院都受益于一种性能更高的算法,该算法能够提供有价值的、可能挽救生命的洞察,而这在他们依赖较小的内部数据集时是不可能实现的。

联邦学习所支持的隐私保护协作能够为医院带来一种新的数据驱动商业模式。根据每个医院的数据对算法准确性贡献的程度,确定合作开发、共同拥有的算法的所有权份额。该算法也可以商业化并出租给第三方,例如其他医院,并且由此产生的收入可以根据各医院各自的所有权份额进行分配。

联邦学习所支持的隐私保护协作可以产生一种新的数据驱动商业模式。

金融行业采取了另一种方法,使竞争组织能够利用联邦学习的好处。使用一种称为加密系统的做法,多方同态加密,每家参与的银行都可以检查客户是否被竞争对手标记为不可靠或存在其他问题的客户——而不必互相告知他们拥有或不拥有的客户信息。这降低了“了解你的客户”流程的成本——目前该流程大约占了银行运营成本的3%全球范围内——从而为客户带来更好的体验。

几家医院正在使用同一类型的加密计算平台,安全地在多个国家的不同数据集上训练用于皮肤科诊断的机器学习模型。其他医院则利用该平台运行较为简单的分布式分析以生成描述性统计信息,从而能够根据最新的可用数据提取健康和患病患者的个性化参考区间。这使得医生可以使用个性化的阈值来诊断患者,而无需依赖一刀切的标准进行诊断。

数据互补性和体量的需求

在评估与哪些外部组织合作时,企业领导需要考虑自己的组织能够为合作关系带来什么样的数据。用于训练特定模型的数据必须包含大量的样本——客户、患者、保险政策或其他系统旨在理解的对象,并且每个样本中还应包含大量特征(变量)。

样本的数量和每个样本的特征数量是组织可以通过使用联邦学习技术受益的两个维度。第一个,横向联邦学习涉及增加用于训练模型的数据样本数量。第二点,垂直联邦学习涉及增加模型为每个样本分析的特征数量。这两个维度导致了企业在探索联邦学习领域时可能会遇到四种情况。(参见“用于联邦学习的四种数据类型。”)

样本数量多但每个样本特征少的数据集被称为垂直数据并需要垂直学习才能成为丰富数据同样的,水平数据样本数量较少但每个样本特征较多,需要进行水平学习以成为丰富数据。在不良数据样本数量较少,每个样本的特征数量也较少。

不了解这四种数据区别属性的商业领袖可能会建立联合学习合作,从而将他们从劣质数据转变为水平或垂直方向的数据,但无法达到优质数据。从劣质数据开始并以垂直或水平数据结束可能看起来很有吸引力,但这不一定能提高性能。例如,一家医院可以通过纳入更多患者的数据(而不添加这些患者的新的相关特征)将其劣质数据转化为垂直数据。在这种情况下,它可能无法提升其诊断AI工具的预测能力,仅仅是因为它无法隔离与疾病正相关的特征。

类似地,从质量差的数据过渡到水平数据也可能不会创造优势,因为人工智能需要相关特征有足够的变化来发现产生有价值见解的有意义的模式。

因此,在考虑是否与外部组织合作开展联邦学习项目时,业务领导人需要问自己:“我的数据状况如何——是质量差、垂直、水平还是丰富?”这个问题可以通过评估数据的垂直和水平维度来回答。(参见“从水平或垂直数据创建丰富数据”。)

垂直维度的评估是通过考虑样本中的观察次数是否能代表整个总体来进行的。一个问题如“我们的样本中是否包含了整个人口或现实的所有部分?”应该回答为“是”,才能认为数据在垂直方向上具有代表性。水平维度的评估则是通过考虑样本中每个观测值所拥有的变量数量,这些变量是否足以解释单个观察的行为来进行的。一个问题如“如果我们考虑到我们记录下的所有变量,我们知道我们的样本中的个体将如何行为吗?”应该回答为“是”,才能认为数据在水平方向上具有代表性。两个问题都回答为“是”表明数据丰富。两个问题都回答为“否”则表示数据贫乏。

如果数据是垂直的,那么寻找其他行业的合作伙伴组织可能是正确的前进方向,因为提供不同服务的组织会记录这些客户的不同数据。这可以通过Orange-Zurich案例来说明,在该案例中,电信公司拥有客户的通信和移动性数据,而保险公司则拥有客户的风险规避、消费以及有意义的生活事件的数据。

如果数据是横向的,寻找同一行业的组织可能是正确的前进方向,因为在这种情况下,需要更多的样本来丰富数据集。

如果数据质量较差,组织需要开始一个记录数据的过程。研究其他组织已经记录的数据,并记录可以补充一个或多个这些组织的数据——通过丰富这些组织的垂直或水平数据集——是正确的策略。

federized学习使组织能够在遵守数据共享限制的情况下,利用其跨越壁垒的数据。

如果数据充足,该组织已经可以通过其自身数据集利用人工智能的力量。但联邦学习仍然有其优势——即通过为其他外部组织的AI系统训练做出贡献来实现其丰富数据的货币化,同时保持对其数据集的完全所有权。这就是梅奥诊所通过解决方案工作室(一个提供全球联邦去标识化数据访问的项目)正在做的事情。2

值得注意的是,联邦学习的一个有趣且往往未被探索的应用是在组织内部。出于合规或伦理原因设立的数据共享壁垒,以及不同的法律实体或司法管辖区,可能会限制某些团体对其公司拥有的数据的访问权限。联邦学习允许一个组织在遵守任何数据共享限制的同时,利用其跨越这些障碍的数据。

克服联邦学习成功的障碍

一旦企业领导确定了拥有互补数据的组织,还需要克服一些额外的障碍,包括将非结构化数据转换为可用格式。来自传真、PDF文件或手写并扫描报告等来源的非结构化数据需要被整理和机器可读。企业领导应该与未来的AI系统训练技术团队合作,预估并估算此类结构调整的成本。

不同的标签也可能是一个问题。不同组织通常使用不同的术语来指代相同的特征,因此合作组织的数据目录可能需要同步,这可能会延长训练AI系统所需的时间。业务领导人需要在预测项目何时开始产生成果时考虑这一点。

然而,最 critical 的挑战是人以及他们的恐惧。与外部组织特别是竞争对手的合作阻力可能会阻碍联邦学习的探索和实施。注意,“critical”在此处保持英文原词,因为中文中“critical”可以有“批评的”、“决定性的”等多种含义,具体语境下难以准确翻译为一个对应的中文词汇而不造成误解。如果需要简化表达,则可译为:“然而,最关键的问题是人以及他们的恐惧。与外部组织特别是竞争对手的合作阻力可能会阻碍联邦学习的探索和实施。”

抵制与外部组织合作可能会影响联邦学习的探索和实施。

因此,来自各个合作组织的个人在实施联合机器学习架构时需要积极地相互交流。这一点对于任何数字化过程都是至关重要的,即使是在单一组织内部也是如此,但在涉及多个具有不同组织文化和关注点的组织的联邦学习背景下尤其重要。

在决定与哪些组织合作进行联邦学习时,商业领袖需要考虑六个主要因素:

  1. 他们的公司的数据状态。在寻找外部组织进行合作之前,领导层必须确定他们公司自己的数据是质量低下、垂直领域专门化、水平范围有限还是丰富全面。这将有助于决定他们应该与哪种类型的组织进行合作。
  2. 他们公司的数据结构。拥有垂直数据的组织应该放眼行业之外。拥有水平数据的组织应在其行业内寻求合作——甚至可能与竞争对手合作。
  3. 一个逻辑上的起点。从一个特定的算法和可信赖的合作伙伴开始,在组织内部甚至在一定的界限内安全地探索联邦学习。
  4. 数据变现的潜力。联邦学习为组织提供了一种以隐私为中心的方法,通过参与其他组织的AI训练过程来利用其数据实现货币化。识别需要这些数据的合作伙伴组织对于此类货币化努力至关重要。
  5. 可能的技术挑战。识别并规划技术挑战和成本,例如协调不同组织之间数据格式和结构的差异。
  6. 员工的支持与参与。与人合作,而不要绕过他们。联合学习需要一种变革性的方法。应该广泛地获得认同,并明确分配角色和资源。

在寻求获得或保持竞争优势时,部署现成的AI解决方案是不够的。追求卓越表现的组织需要使用自有数据来训练和微调其AI系统。联邦学习使组织能够利用来自外部合作伙伴的数据来进行这一过程。

关于作者

何塞·帕拉-莫亚诺是瑞士洛桑国际管理发展学院(IMD)的数字战略教授。卡尔·施梅德尔斯是瑞士洛桑国际管理发展学院(IMD)的金融学教授。马克斯韦尔·温纳是IMD位于洛桑的风险投资资产管理计划的副 director 和研究员。 注意:人名和机构名称通常保留原文,此处“Maximilian Werner”译为“马克斯韦尔·温纳”,“associate director”翻译时考虑到上下文更合适的中文表达应为“副director”。如需保持原意可替换为“副主任”。

参考文献

1.Y. 巴门斯和 P. 舒内尔姆德,"使用联邦机器学习来克服人工智能规模劣势,“麻省理工斯隆管理评论”65卷第1期(2023年秋季):54-57页。

2.关于此程序的更多信息,请参阅D. Raths的“梅奥诊所平台旨在加速数字健康解决方案的部署,“医疗创新”,2024年3月15日,www.hcinnovationgroup.com。

关于《了解您的数据以利用联邦机器学习》的评论


暂无评论

发表评论

摘要

如今,部署人工智能已不再保证具有竞争优势。第二种方法是纵向联邦学习,它涉及增加模型对每个样本分析的特征数量。因此,在考虑是否与外部组织合作进行联邦学习项目时,企业领导人需要问自己:“我的数据状况如何——质量差、垂直、水平还是丰富?”但是,联邦学习仍然有其价值所在,即通过为其他外部组织的人工智能系统提供训练机会来实现对其丰富数据的货币化,并同时保持对自身数据集的完全所有权。这就是梅奥诊所通过解决方案工作室项目所做的事情,该项目提供了全球范围内去标识化的联邦数据访问权限。 值得一提的是,联邦学习的一个有趣且经常未被探索的应用是在组织内部进行的。