与Muse一起推进游戏构想：第一世界和人类行动模型（WHAM）

Three white gaming icons on a green and blue gradient background.

今天，日记自然（在新标签中打开）正在发布我们的最新研究，介绍第一个 世界与人类行动模型（WHAM）。我们命名为“缪斯”的Wham是一种电子游戏的生成性AI模型，可以产生游戏视觉效果，控制器动作或两者兼而有之。

本文中的论文对Muse进行了详细的了解，该文章是由Microsoft Research开发的游戏智能（在新标签中打开）和可教的人工智能经验（在新标签中打开）与Xbox Games Studios合作（Tai X）团队忍者理论（在新标签中打开）。同时，为了帮助其他研究人员探索这些模型并以我们的作品为基础，我们正在开放购买权重和示例数据，并使WHAM演示器可执行可用的概念原型，该原型提供了与WHAM模型和多个互动的视觉接口提示模型的方式。开发人员可以在权重，样本数据和WHAM演示器上学习和实验Azure AI铸造厂（在新标签中打开）。一个

在我们的研究中，我们专注于探索像Muse这样的模型需要有效支持人类创意的功能。我为我们的团队和我们所取得的里程碑感到非常自豪，不仅通过展示像Muse这样的模型可以学习的游戏世界的丰富结构，而且您在下面的视频演示中看到，甚至更多重要的是，通过演示如何开发研究见解来支持生成AI模型的创造用途。

生成的游戏示例

Muse（基于WHAM-1.6B）生成的示例游戏序列表明，我们的模型可以生成复杂的游戏序列，这些序列在几分钟内保持一致。此处显示的所有示例都是通过提示模型的10个初始帧（1秒）的人类游戏玩法以及整个游戏序列的控制器动作来生成的。Muse以世界模型模式使用，这意味着它被用来预测游戏将如何从初始提示序列发展。生成的游戏序列越接近实际游戏，缪斯缪斯越准确地捕获了该游戏的动态。

是什么促进了这项研究？

当我们今天发布研究见解和模型时，我一直回想起这一切的开始。我最近从产假回来了，当我离开时，机器学习世界已经以根本的方式发生了变化。Chatgpt已公开发布，那些尝试过的人对Openai的技术成就和模型的能力感到敬畏。这是对基于变压器的生成模型在大量（文本）数据进行培训时可以做什么的有力证明。那一刻从休假回来，我想到的关键问题是，这项成就对我们团队在人工智能与视频游戏的交集中的作品有何影响？

数据实现了新的研究机会

在我们的团队中，我们可以访问一个非常不同的数据源。多年来，我们一直与Xbox Game Studios的忍者理论（位于英国剑桥，就像我们的研究团队一样），从他们的2020 Xbox游戏（他们的2020 Xbox游戏）收集游戏玩法。Bleeding Edge是一款4个反4游戏，在线玩所有游戏，如果玩家同意最终用户许可协议（EULA），则记录比赛。我们与忍者理论和Microsoft合规团队的同事紧密合作，以确保数据是道德收集的，并负责任地用于研究目的。

忍者理论的技术总监Gavin Costello说，看到Microsoft Research使用出血的边缘环境和数据来探索新技术的多种方式真是太神奇了。”`从启动这一切的黑客马拉松，我们首先将AI整合到出血边缘，到建立可能更像人类玩家的AI代理商，到世界和人类行动模型，能够梦想着全新的流血边缘序列在人类的指导下，游戏玩法令人大开眼界，看到这种技术的潜力。

缪斯培训数据

当前的Muse实例接受了Xbox游戏出血边缘的人类游戏玩法数据（视觉和控制器动作）的培训。Muse（使用WHAM-1.6B）已接受超过10亿张图像和控制器动作的培训，相当于连续7年的人类游戏玩法。

游戏智能和可教的AI体验团队一起玩流血的边缘游戏。

在2022年底之前，我们一直使用出血边缘作为类似人类的导航实验的平台，但是我们尚未有意义地使用我们现在已经可用的大量人类玩家数据。通过强大的文本模型演示，下一个问题很明确：如果我们在大量的人类游戏数据上训练了基于变压器的模型，我们该怎么办？

扩展模型培训

当团队开始工作时，一些关键挑战包括扩大模型培训。我们最初使用了V100群集，在那里我们能够证明如何扩展到最多100 GPU的培训；最终，这为H100的大规模训练铺平了道路。我们早期做出的关键设计决策集中于如何最好地利用大型语言模型（LLM）社区的见解，并包括选择诸如如何有效地代表控制器行动，尤其是图像的选择。

扩大培训的辛勤工作是取得了回报的第一个迹象是，演示给我留下了深刻的印象。蒂姆·皮尔斯（Tim Pearce）当时是一名游戏智能研究人员，汇总了早期发生的情况与培训后期发生的例子。您可以在这里看到演示就像看模型学习。这导致了我们的后续工作这类模型中如何出现缩放定律。

缪斯在培训过程中的一致性

地面真相人类游戏玩法	Muse与206m参数产生的游戏视觉效果在真实游戏玩法的1秒钟和9秒的动作中进行条件
原来的	10K培训更新	100K培训更新	1M培训更新

角色可识别		基本运动和几何形状	随着时间的流逝没有变性
		纠正与电池的互动
		正确飞行机械师
		将人类游戏玩法（左）与使用Muse（使用WHAM-206M）产生的视觉效果进行比较时，将1秒钟的人类游戏玩法（视觉和控制器动作）和从地面真相的控制器动作进行9秒。	在这种情况下，如果缪斯能够产生与地面真相紧密相匹配的视觉效果，那么它就捕获了游戏动态。
我们看到，在培训过程中，生成的视觉效果的质量明显提高。	在早期培训（10K培训更新）中，我们看到了生活的迹象，但质量迅速恶化。	经过100k培训更新后，该模型随着时间的推移是一致的，但尚未捕获游戏动力学（例如飞行机械师）的频率相对较小的方面。	与地面真理的一致性通过额外的培训继续改善，例如，在100万培训更新后，捕获了飞行机械师。

多学科合作：从一开始就参与用户

我们已经开始研究如何尽早评估这些类型的模型。

例如，我们想了解使用线性探测学到的表示形式，这是由研究实习生Gunshi Gupta和高级研究科学家Sergio Valcarcel Macua驱动的。在高级研究科学家Raluca Georgescu驱动的探索在线评估中；为了产生视觉和动作，最初被称为“梦想”，并由研究实习生塔伦·古普塔（Tarun Gupta）驱动。但是，通过如何系统地评估缪斯，需要进行更广泛的见解。更重要的是，我们需要了解人们如何使用这些模型才能知道如何评估它们。

在这里，进行多学科研究的机会变得至关重要。我们已经与高级首席研究经理Cecily Morrison讨论了这项工作的各个方面可教的人工智能经验团队几个月。而且，我们已经与游戏创意（由Cecily，设计研究员Linda Wen和首席研究软件开发工程师Martin Grayson驾驶）合作，以研究游戏创建者希望如何在其创意实践中使用生成的AI功能。

Cecily说：``这是一个很好的机会，可以在早期阶段扎根模型能力，以从一开始就可以满足创意者的需求，而不是尝试改造已经开发的技术。”

琳达（Linda）提供了一些关于我们如何处理工作的宝贵见解：我们看到以技术为驱动的AI创新打乱了创意行业，这经常使创作者措手不及，并使许多人感到被排除在外。”这就是为什么我们邀请游戏创建者从一开始就帮助我们塑造这项技术的原因。认识到大多数AI创新是在全球北部开发的，我们还将从代表性不足的背景和地理位置招募游戏创作者成为当务之急。我们的目标是创建一种使每个人都受益的技术，不仅是那些已经处于特权的地方。

与WHAM示威者解锁新的创意用例

现在，考虑到模型的新兴功能和用户见解，是时候将所有零件放在一起了。这些团队在Microsoft内部黑客马拉松期间联手探索了缪斯可以解锁的新互动范式和创意用途。结果，我们开发了一个称为WHAM演示器的原型，该原型允许用户直接与模型接口。

马丁说，全球黑客马拉松是每个人聚在一起建立我们的第一个工作原型的绝佳机会。”我们想为WHAM模型开发一个界面，以使我们能够探索其创造力，并开始测试我们从与游戏开发人员的访谈中学到的想法和用途。”

WHAM示威者

为了与诸如Muse之类的世界和人类行动模型进行互动，WHAM示威者提供了与WHAM实例互动的视觉接口。

在此示例中，用户将视觉效果加载为模型的初始提示，在这里，游戏出血边缘的单个促销图像。他们利用缪斯从这个起点产生多个潜在的延续。

用户探索生成的序列并可以调整它们，例如使用游戏控制器指导角色。这些功能证明了缪斯的能力如何使迭代成为创作过程的一部分。

识别关键功能以及如何评估它们

与WHAM示威者一起探索Muse能力的动手经验，并利用从用户研究中获得的见解，使我们能够系统地识别游戏创意者需要使用Muse等生成模型的能力。反过来，这使我们能够建立三个关键功能的评估协议：一致性，多样性和持久性。一致性指模型的能力生成尊重游戏动态的游戏序列。例如，角色与控制器动作保持一致，不会穿过墙壁，并且通常反映了基础游戏的物理。多样性指在同一初始提示下生成一系列游戏玩法的模型的能力，涵盖了游戏玩法可以发展的多种方式。最后，持久性是指将（或持久）用户修改合并到生成的游戏序列中的模型的能力，例如将副本贴在游戏视觉上的字符。我们在下面概述了这些功能。

缪斯对一致性，多样性和持久性的评估

一致性

我们通过通过地面真相游戏序列和控制器操作提示模型来评估一致性，并让模型生成游戏视觉效果。此处显示的视频是使用Muse（基于WHAM-1.6B）生成的，并演示了模型能够生成长达两分钟的一致游戏序列的能力。在我们的论文中，我们还使用FVD（frâChet视频距离）将生成的视觉效果与地面真相视觉效果进行了比较，这是视频生成社区中已建立的指标。

多样性

缪斯（基于WHAM-1.6B）产生了行为和视觉多样性的示例，并以相同的最初10帧（1秒）为条件的真实游戏玩法。顶部的三个示例显示了行为多样性（不同的相机运动，在产卵位置附近闲逛，并导航到中间跳跃垫的各种路径）。下面的三个示例显示了视觉多样性（角色的不同气垫板）。在本文中，我们还使用Wasserstein距离（两个分布之间的距离度量）进行定量评估多样性，以将模型生成的序列与人类游戏录音中反映的多样性进行比较。缪斯创作了行为和视觉多样性的例子，以相同的10帧真实游戏玩法为条件。行为多样性的三个例子显示了各种相机的运动，在产卵位置附近游荡，并导航了中间跳板的各种路径。视觉多样性的三个示例显示了该角色的不同气垫板。

有了我们的评估框架，并访问了H100计算分配，该团队能够进一步改善MUSE实例，包括更高的分辨率图像编码器（我们当前的模型以300ã180像素的分辨率生成视觉效果，从128到提高128最早模型的分辨率）和较大的模型，并扩展到所有七个出血边缘图。为了显示我们今天发布的模型的某些功能，我们在上面包含了2分钟生成的游戏序列的视频，这些视频对模型可以生成的游戏序列的一致性和多样性给人留下了深刻的印象。

根据高级研究员塔比什·拉希德（Tabish Rashid）的说法：h100s的分配最初是非常艰巨的，尤其是在早期阶段，弄清楚如何充分利用它，以使用新图像编码器扩展到更大的模型。经过几个月的实验，最终在不同地图上看到该模型的输出（不要敲开Skygarden的可爱绿化）是非常有益的，而不必对较小的图像斜视。我敢肯定，在这一点上，我们中的许多人都观看了许多缪斯的视频，以至于我们忘记了真实的游戏的样子。

该模型最喜欢的功能之一是如何通过游戏序列进行修改并持续新引入元素来提示它。例如，在下面的演示中，我们在游戏的原始视觉效果上添加了一个角色。通过修改的视觉效果提示模型，我们可以看到该模型如何持续添加的字符，并生成合理的变体，即游戏序列如何从这个修改后的起点开始演变。

持久性

缪斯（基于WHAM-1.6B）如何持续进行修改的演示。从原始的游戏数据中获取视觉效果，并将附加字符的图像编辑到图像中。生成的游戏序列显示了角色如何适应生成的游戏序列。

结论

今天，我们的团队很高兴能在自然界发表我们的作品，并同时发布缪斯女神，狂人的示威者，并向社区采样数据。

我期待看到社区探索这些模型并基于我们的研究的多种方式。我迫不及待地想了解这些模型和随后的研究将有助于塑造和增进我们对人类游戏的生成AI模型如何支持游戏玩法的理解，并为未来，基于AI的游戏体验（包括）为未来的方式铺平道路我们的用例Xbox的同事（在新标签中打开）已经开始探索了。