苹果研究人员正在通过基础研究推进机器学习领域的发展,以提高全世界对这项技术的理解,并帮助重新定义它的可能性。这项工作可能会导致 Apple 产品和服务的进步,并且研究的好处超出了 Apple 生态系统,因为它通过出版物、开源资源以及参与行业和研究社区活动与更广泛的研究社区共享。
下周,第 38 届神经信息处理系统年会 (NeurIPS),将在加拿大温哥华举行。NeurIPS 是最大的年度 ML 和 AI 研究会议,Apple 很荣幸能够再次为社区参加这一重要活动,并通过我们的赞助为其提供支持。
在主会议和相关研讨会上,Apple 研究人员将发表有关 ML 各个主题的许多论文。如下文所强调的,这包括推进隐私保护 ML 的新工作、使多模式模型更强大、改进 LLM 预训练、探索 LLM 的推理能力以及理解自我监督学习。
NeurIPS 与会者将能够在展览期间在我们的展位(西厅 A 323 号)体验 Apple 的 ML 研究演示,Apple 还赞助和参与了许多亲和团体主办的活动支持机器学习社区中代表性不足的群体。有关 Apple 对 NeurIPS 2024 的参与和贡献的全面概述,请参阅这里,以下是精选的亮点。
推进隐私保护机器学习
在 Apple,我们认为隐私是一项基本人权,而推进保护隐私的机器学习技术是正在进行的研究的一个重要领域。苹果研究人员今年将在 NeurIPS 上展示的作品包括两篇相关论文联邦学习(佛罗里达州)。
研究 FL 的研究人员经常进行模拟实验,以快速迭代新想法。苹果研究人员将展示pfl-research:加速私人联合学习研究的模拟框架,一个快速、模块化且易于使用的用于模拟 FL 的 Python 框架,将使研究社区能够在该主题上取得进一步进展。
苹果研究人员还将展示联合环境中的私人和个性化频率估计,它描述了一种使用私有联合学习来私下计算个性化频率直方图的新方法。个性化的单词(或标记)频率对于用户设备上键盘输入的下一个单词预测非常有用。这是具有挑战性的,因为大多数用户几乎没有使用数据,并且用户不同的词汇、主题和风格导致不同的数据分布。该论文提出了一种新技术,可以发现并利用相似的用户子群,并且该方法的性能优于现有的基于聚类的算法。
使多式联运模型更有能力
多模式和多任务模型变得越来越强大,但其有效性可能会因其训练数据的限制而受到阻碍。在 NeurIPS 上,Apple ML 研究人员将提出突破这些限制并增强这些模型性能的新方法。
像 CLIP 这样的大型预训练视觉语言模型已被证明具有良好的泛化能力,但在执行细粒度分类(例如识别汽车模型)等任务时仍然存在困难,因为视觉概念在预训练数据中的代表性不足。在 NeurIPS 上,Apple ML 研究人员将展示聚合和调整自然语言提示以实现 CLIP 的下游泛化,它展示了一种在注释数据有限时快速学习微调 CLIP 的新方法。通过聚合和适应提示嵌入 (AAPE),可以从自然语言提示(由人类或法学硕士生成)中提取文本知识,以丰富模型训练数据中代表性不足的概念。这种方法改进了 CLIP 的下游泛化,在各种视觉语言任务上实现了强大的性能,包括图像到文本检索、少样本分类、图像字幕和 VQA。
虽然多模式和多任务基础模型如4M虽然他们显示出有希望的结果,但他们接受不同输入和执行不同任务的能力受到他们接受的培训方式和任务的限制。在 NeurIPS 上,Apple ML 研究人员和我们来自 EPFL 的合作者将介绍4M-21:适用于数十种任务和模式的任意视觉模型,它展示了如何通过在数十种高度多样化的模态上进行训练以及在大规模多模态数据集和文本语料库上进行协同训练来显着扩展 4M 的功能(见图1)。由此产生的模型可扩展至 30 亿个参数,并展示强大的开箱即用视觉性能、任意条件和可操纵生成、跨模式检索和多感官融合功能。
改进LLM预训练
LLM 用于各种生产应用程序,包括一些 Apple 服务,对这些模型的根本性改进可能会对整个行业的开发人员及其用户产生重大影响。在 NeurIPS,Apple ML 研究人员将展示的工作包括一种更高效的 LLM 预训练新技术。
LLM 通常使用固定长度标记序列的数据集进行训练,因为它们的训练基础设施通常仅支持有限的序列长度。为了创建这些,需要组合不同长度的文档,然后分割成指定长度的块。由于在此方法中文档是随机组合的,因此模型可以使用不相关文档中的上下文来预测下一个标记,而不是使用相关文档中的上下文。除了学习信号不佳之外,这还消耗了不必要的计算。苹果研究人员将展示数据集分解:预训练具有可变序列长度的 LLM,它用一种新颖的方法解决了这个问题,其中包含不同长度文档的数据集被分解为“桶”或子集的并集,具有相同长度的序列,然后,训练时间,使用可变序列长度和批量大小,从所有桶中同时采样(见图2)。这使得能够对长序列进行有效的预训练,根据数据集大小有效地进行扩展,并且被证明可以显着提高标准评估的模型性能。
探索法学硕士的推理能力
法学硕士已被证明能够胜任许多任务,但当今模型的推理能力仍然是一个重要的开放研究问题。了解这些模型当前的功能和局限性不仅使研究社区能够继续改进它们,还可以帮助开发人员在其生产应用程序中更智能地利用法学硕士。
苹果研究人员将在 NeurIPS 上展示变形金刚能推理多远?全球性障碍和感应便签本,一篇论文研究了为什么基于 Transformer 的模型难以完成需要“全局推理”的任务,其中需要结合学习的概念和外推。这项工作表明,这些模型无法组成长三段论链(例如,从 a-b 和 b-c 推断出 a-c),因为它们无法有效地学习具有高概率的分布。全局性,本文介绍了“感应便签本”的想法,它可以使变压器超越这些限制。
了解自我监督学习 (SSL)
有效且高效地学习表示是深度学习的基本目标,因为这些表示可用于许多下游任务。通过推进该领域对不同方法如何学习表示的理解,该领域的研究最终可能会提高这些下游任务的性能。
在 NeurIPS 上,苹果研究人员将展示JEPA 如何避免噪声特征:深度线性自蒸馏网络的隐式偏差,探讨了如何使用两种领先的 SSL 范例学习表示的差异:掩码自动编码器 (MAE) 和联合嵌入预测架构 (JEPA)。这项工作表明,在两种方法都学习相似表示的简化线性设置中,JEPA 偏向于学习“高影响力”特征(即以具有高回归系数为特征的特征),从而提供了对现场经验观察到的现象的正式解释是,JEPA 似乎优先考虑抽象特征而不是细粒度像素信息。
在 Apple 展位展示 ML 研究
展览期间,NeurIPS 与会者将能够在西厅 A 323 号展位与 Apple ML 研究的现场演示互动,包括:
- MLX- 专为 Apple 芯片设计的开源阵列框架,可在 Apple 硬件上实现快速灵活的 ML 和科学计算。该框架针对 Apple 芯片的统一内存架构进行了优化,并同时利用了 CPU 和 GPU。在 NeurIPS 上,MLX 演示将展示使用 MLX 在设备上进行大型模型推理和训练;具体来说,在 iPhone 上对 7B 参数 LLM 进行微调,在 iPad 上使用大型扩散模型生成图像,以及在采用 Apple 芯片的 Mac 上使用多个大型语言模型生成文本。
- 移动剪辑- 一系列适合移动设备的图像文本模型,具有混合 CNN/Transformer 架构。结合起来,这些模型实现了最佳的准确性与延迟权衡。MobileCLIP-B 在零样本分类和检索以及对关系、属性和顺序信息的理解方面获得了最先进的结果。在 NeurIPS,参观者将能够体验 MobileCLIP 如何在 iPhone 上实时执行零样本场景分类。
支持机器学习研究社区
Apple 致力于支持 ML 社区中代表性不足的群体,我们很荣幸再次赞助多个亲和团体在 NeurIPS 2024 上举办现场活动,包括人工智能中的黑色(车间12 月 10 日),机器学习领域的女性 (WiML)(车间12 月 10 日),人工智能中的拉丁语(车间12 月 10 日),以及人工智能中的酷儿(车间12 月 11 日,社交 12 月 12 日)。除了通过赞助支持这些研讨会之外,Apple 员工还将参加这些研讨会以及其他研讨会。
在 NeurIPS 2024 上了解有关 Apple ML 研究的更多信息
NeurIPS 是规模最大、最重要的年度 ML 研究会议之一,Apple 很自豪能够再次在该活动中分享创新的新研究,并与参加会议的社区建立联系。上面的文章仅重点介绍了 Apple ML 研究人员将在 NeurIPS 2024 上展示的一小部分作品,您可以找到我们参与的全面概述和时间表这里。