AI 实时生成可玩的 DOOM - New Atlas

2024-09-09 03:09:46 英文原文

<正文>

扩散模型、降噪数据、峰值信噪比、强化学习代理、自回归模型和热力学走进酒吧……现在我们可以玩 1993 年的经典第一人称射击游戏,DOOM,由 AI 实时生成。

Google 和特拉维夫大学的一些人创建了一种名为 GameNGen 的新游戏引擎,该引擎完全由神经模型(又名人工智能)实时驱动。

其要点是他们训练了一个强化学习代理(RL 代理)来玩《DOOM》。一遍又一遍,这个 RL 智能体会在玩游戏的同时记录和存储每个会话,学习如何不被射击、吃掉或以其他方式死亡,同时还学习如何简单地与环境交互。

其次,扩散模型实际上是一种模型,它学习在对数据进行去噪以将图像恢复到以前的辉煌之前通过多个步骤用噪声破坏原本完美的图像,这使得它非常擅长预测和创建图像。在这种特殊情况下,它是一个游戏引擎,能够根据前一帧预测下一帧的游戏内容。

使用从一遍又一遍地观看 RL 代理玩 DOOM 中学到的数据,它可以生成所有纹理、颜色、模型、皮肤以及在 DOOM 中可视化地图所需的所有其他内容。

通常,纹理、精灵、模型、着色器、预制件等都保存在本地并在每个关卡开始时加载。每个都将预加载独特的物理交互。

扩散器模型可以预测并绘制下一帧的样子,例如,武器何时发射、发射的目标是什么,以及霰弹枪爆炸对其击中的物体产生的物理影响。坏人?现在他们死了。一桶有毒污泥?现在已经爆炸了。

添加一些用户输入,现在您就拥有了一款游戏。实时生成并交互的游戏,无需预加载或缓存。本示例中使用了《DOOM》,但任何游戏都可以使用。即使是可能还不存在的东西。如果给定一些参数,GameNGen 理论上可以制作自己的游戏。

所有这一切都是使用类似于 GPU 处理图形的单个张量处理单元 (TPU) 实现的,但专门为迎合 AI 而设计,用于大容量、低精度计算处理,并且能够实现 20 fps。与现代游戏的 60 fps 基准相去甚远,但与每一项新技术一样,它只会不断改进。1993 年的老式版本最高运行速度为 35 fps。

使用单 TPU 设置时,内存成为一个问题,AI 模型只能“记住”大约三秒的游戏内容,然后在用户玩关卡时“忘记”它。虽然人工智能能够推断大多数数据,例如你的弹药数量以及你是否已经击败了地图上的特定区域,但由于上下文长度约为三秒,有时会导致错误。

另一个值得注意的事实是,仅依靠 RL-agent 进行训练也有其缺陷;与使用 RL 代理试图获得最高分数并找到 FPS 游戏中经常隐藏的所有秘密位置不同,它经过训练以从普通人可能玩的方式收集数据。RL 代理可以访问其之前在训练期间执行的 32 个操作。

根据 GameNGen 发布的白皮书,“我们的代理即使在训练结束时,仍然没有探索所有的游戏位置和交互,从而导致在这些情况下出现错误的行为。”

视频游戏一直是由编写了数百万行代码的人创建的。GameNGen 是第一个依赖神经模型的公司;一个潜在的游戏规则改变者,请原谅这个双关语。

自从几年前我开始云游戏以来,能够以我老化的 Xbox 或我的旧的、硬壳的 GTX 760 Ti 根本无法达到的速度和分辨率玩游戏真是太棒了。没关系,我可以跳过讨厌的 160 GB 下载来尝试一个我不确定自己是否会喜欢的游戏。

从最初为 DOS 发布到由 AI 运行生成......30 多年前谁会想到这样的事情?生成式人工智能游戏引擎是未来吗?我们是否只需拥有一个连接到我们的全息甲板的盒子,然后给它一些提示,就可以开始玩适合我们口味的完全独特的游戏?我知道我迫不及待地想在立体显示器上尝试《DOOM》!

如果您感觉特别书呆子气,请在此处查看完整的白皮书 (PDF)。

来源:GameNGen

摘要

因此,扩散模型、去噪数据、峰值信噪比、RL 代理、自回归模型和热力学走进酒吧……现在我们可以玩 1993 年的经典第一人称射击游戏《DOOM》,由人工智能实时生成。谷歌和特拉维夫大学的一些人创建了一种新的游戏引擎,称为 GameNGen,它完全由神经模型(又名人工智能)实时驱动。添加一些用户输入,现在您就拥有了一款游戏。另一个值得注意的事实是,仅依靠 RL-agent 进行训练也有其缺陷。与使用 RL 代理试图获得最高分数并找到 FPS 游戏中经常隐藏的所有秘密位置不同,它经过训练以从普通人可能玩的方式收集数据。自从几年前我开始玩云游戏以来,能够以我老化的 Xbox 或我的老旧 GTX 760 Ti 根本无法达到的速度和分辨率玩游戏真是太棒了。