自动驾驶是人工智能在现实世界中面临的终极挑战。在 Waymo,我们通过优先考虑明显安全的 AI 来解决这个问题,其中安全性是我们从头开始设计模型和 AI 生态系统的核心。因此,我们构建了一个极其先进的人工智能系统,可以在现实世界中大规模安全运行。凭借超过 1 亿英里的全自动驾驶里程,我们正在让我们运营所在地的街道变得更加安全 – 实现了超过减少十倍与人类驾驶员相比,在严重受伤的事故中。
现在,我们邀请您进入机舱。这篇文章详细介绍了 Waymo 的人工智能战略,以及它如何推动我们的发展势头,使我们能够比以往更快、安全地为更多乘客提供服务。我们将围绕 Waymo 基金会模型展开我们的整体人工智能方法,该模型为一个统一且明显安全的人工智能生态系统提供支持,从而推动加速、持续的学习和改进。
Waymo 的 AI 整体方法
与其他人工智能应用程序可能首先优化功能,然后再优化安全性不同,在自动驾驶中,安全性不能是事后才想到的。在 Waymo,这是我们构建 AI 生态系统不可协商的基础。
实现明显安全的人工智能(其中安全性是经过验证的,而不仅仅是承诺的)需要采取整体方法。超越聪明能干司机,你还需要一个闭环的、现实的模拟器在无数具有挑战性的情况下训练和严格测试驾驶员,以及敏锐的批评家评估车手的表现并确定需要改进的领域。
力量在于团结。我们的 Driver、Simulator 和 Critic 是联合开发的,以安全为核心,均由相同的底层 AI(Waymo 基金会模型)驱动,从而创建持续的良性循环。

Waymo 基金会模型:Waymo AI 的基石
Waymo 基金会模型是一个多功能、最先进的世界模型,为我们的人工智能生态系统提供动力。与纯粹的端到端或模块化方法相比,其创新架构具有显着的优势。
特别是,该模型利用学习嵌入的完整可表达性作为模型组件之间的丰富接口,并支持训练期间完整的端到端信号反向传播。同时,其附加的紧凑、物化结构化表示(例如对象、语义属性和路线图元素)允许:
推理时强大的正确性和安全性验证司机
高效、物理正确且逼真的闭环模拟极其大规模
强大的可验证反馈信号供评估批评家以及训练期间的强化学习

Waymo 基金会模型采用 Think Fast 和 Think Slow(也称为系统 1 和系统 2)架构,具有两个不同的模型组件:
传感器融合编码器用于快速反应。基础模型的感知组件随着时间的推移融合了摄像头、激光雷达和雷达输入,为下游任务生成对象、语义和丰富的嵌入。这些输入帮助我们的系统做出快速、安全的驾驶决策。
驾驶VLM用于复杂的语义推理。我们基础模型的这个组件使用丰富的摄像头数据,并根据 Waymo 的驾驶数据和任务进行微调。它使用 Gemini 进行训练,利用 Gemini 广泛的世界知识更好地理解道路上罕见、新颖和复杂的语义场景。例如,在一种极其罕见的情况下,前方道路上有车辆着火,而物理空间和可行驶车道可能畅通无阻,VLM 可以提供语义信号,提示 Waymo 驾驶员采取不同的路线或掉头。
两个编码器都输入Waymo 的世界解码器,它使用这些输入来预测其他道路使用者的行为,生成高清地图,生成车辆轨迹以及轨迹验证信号。
Waymo 的 AI 生态系统:从教师模型中提取知识到学生模型
根据我们的整体方法,Waymo 基金会模型为驾驶员、模拟器和评论员提供支持。为了实现这一目标,我们首先将其适应这三项任务,从而产生在特定角色中表现出色的大型、高质量教师模型。然而,这些教师模型太大,无法在车辆上运行以进行实时决策,也无法在云端运行以模拟和评估数亿英里,因此我们安全地将它们提炼为更小的学生模型。蒸馏是关键,因为它使我们能够保留大型机型性能优越在其更紧凑和高效的版本中。因此(并反映了人工智能其他领域的类似趋势),通过首先训练强大的高容量教师模型,然后利用高效的蒸馏技术,我们能够为最终的学生实现更好的缩放法则。

司机。我们的驾驶员教师模型经过训练,可以生成安全、舒适且合规的动作序列。通过蒸馏,我们将其丰富的世界理解和推理能力转移到更高效的学生模型中,并针对实时机载部署进行了优化。为了最大限度地发挥蒸馏的优势,我们的机载架构旨在反映 Waymo 基金会模型结构。重要的是,Waymo Driver 采用独立且严格的板载验证层,然后验证 Driver 的生成 ML 模型生成的轨迹。
模拟是在各种不同且具有挑战性的场景中对驾驶员进行闭环训练和测试的重要工具,包括潜在的碰撞、恶劣的天气、复杂的十字路口和道路上的异常行为。Simulator Teacher 模型能够创建高保真度、多模式动态世界来评估我们的驾驶员。学生模型是这些较大模型的计算高效版本,旨在运行稳健评估驱动程序所需的大规模模拟。Waymo 基金会模型的架构使我们能够无缝地结合紧凑的物化世界状态表示和传感器模拟,解锁大规模、超现实和物理正确但计算高效的虚拟环境。

通过对全局场景元素(例如天气条件和时间)使用基于文本的提示,以及场景中动态元素(例如其他道路使用者和交通信号灯)的语义调节,我们可以将现实世界场景(左侧)转换为高度逼真的模拟(中间是相机模拟,右侧是激光雷达模拟)。值得注意的是,在这个例子中,传感器数据是纯粹合成的,是由我们的生成传感器模拟模型根据底层紧凑的结构化世界表示生成的。
评论家。我们世界一流的评估系统旨在对 Waymo 驱动程序进行压力测试,主动识别微妙的边缘情况,并实现快速、有针对性的改进。Critic Teacher 模型可以分析驾驶行为并生成高质量信号,用于训练 Student 模型并自动构建丰富的评估数据集。然后,Critic Student 模型分析驾驶日志,识别有趣或有问题的场景,并提供有关驾驶质量的细致入微的反馈。
在 Waymo 基金会模型的支持下,所有这些组件构成了一个无缝的 AI 生态系统,并为持续学习和改进创建了一个飞轮。
创建飞轮以实现持续改进
优秀的车手并不是一成不变的,而是不断学习和完善的产物。Waymo Driver 的演变有多种机制。我们的内部学习循环由模拟器和评论家提供支持,利用强化学习来训练驾驶员。在这个安全且受控的模拟环境中,它获得经验,根据其行为接受奖励或惩罚,从而实现大规模学习。
我们的外部学习循环根据 Waymo 的真实驾驶情况创建了一个更强大的学习飞轮。这个周期开始于我们的评论家根据我们丰富的全自动驾驶经验自动标记任何次优的驾驶行为。接下来,我们从这些事件中生成改进的替代行为,作为驾驶员的训练数据。这些改进在我们的模拟器中经过严格测试,并由评论家验证修复。最后,一旦我们的安全框架确认不存在不合理的风险,只有那时,增强型驱动程序才会部署到现实世界。

这个飞轮是由我们多年来积累的前所未有的完全自主数据启用的,并且仍在以指数级增长的速度继续积累。从历史上看,我们严重依赖高质量的手动驾驶数据来训练和完善 Waymo Driver。如今,我们的全自动驾驶里程远远超过了手动数据。如此大量的现实世界完全自主体验是无可替代的– 无论进行多少模拟、手动驱动的数据收集或测试驾驶员的操作,都无法复制 Waymo 驾驶员在完全负责时遇到的一系列情况和反应。将这些丰富的、真实世界的完全自主数据直接集成到我们独特的飞轮中,使 Waymo Driver 能够从自己的丰富经验中学习并不断改进。
通过采用这种整体的人工智能方法并构建学习飞轮,我们不仅改进了 Waymo Driver,还为大规模安全自动驾驶制定了标准。我们不断创新并突破可能的界限,人工智能领域的许多令人兴奋的工作仍在前方进行。