2024 年 12 月 11 日
[[读取时间]] 分钟读取时间
要点
- 谷歌 DeepMind 推出 Gemini 2.0,这是一种专为“代理时代”设计的新人工智能模型。
- Gemini 2.0 比以前的版本功能更强大,具有原生图像和音频输出以及工具使用。
- Gemini 2.0 Flash 可供开发人员和值得信赖的测试人员使用,并计划于明年初进行更广泛的可用性。
- Google 正在探索 Gemini 2.0 的代理体验,包括 Project Astra、Project Mariner 和 Jules。
- 谷歌致力于负责任地构建人工智能,并将安全作为首要任务。
摘要由 Google AI 生成。生成式人工智能尚处于实验阶段。
谷歌和 Alphabet 首席执行官桑达尔·皮查伊 (Sundar Pichai) 的注释:
信息是人类进步的核心。这就是为什么我们 26 年多来一直专注于组织全球信息并使其易于访问和有用的使命。这就是为什么我们继续推动人工智能的前沿,组织每个输入的信息,并使其可以通过任何输出访问,这样它才能真正对您有用。
这就是我们的愿景我们去年 12 月推出了 Gemini 1.0。Gemini 1.0 和 1.5 是第一个原生多模态模型,在多模态和长上下文方面取得了巨大进步,可以理解文本、视频、图像、音频和代码中的信息,并处理更多信息。
现在,数以百万计的开发人员正在使用 Gemini 进行开发。它帮助我们重新构想我们的所有产品(包括拥有 20 亿用户的全部 7 种产品)并创造新产品。笔记本LM这是一个很好的例子,说明了多模态和长上下文可以为人们带来什么,以及为什么它受到如此多的人的喜爱。
在过去的一年里,我们一直在投资开发更多代理模型,这意味着它们可以更多地了解您周围的世界,提前思考多个步骤,并在您的监督下代表您采取行动。
今天,我们很高兴推出专为新代理时代打造的下一个时代模型:推出 Gemini 2.0,这是我们迄今为止功能最强大的模型。随着多模态的新进展(例如本机图像和音频输出)以及本机工具的使用,它将使我们能够构建新的人工智能代理,使我们更接近通用助手的愿景。
今天,我们将 2.0 交到开发人员和值得信赖的测试人员手中。我们正在迅速努力将其融入到我们的产品中,以 Gemini 和 Search 为主导。从今天开始,我们的 Gemini 2.0 Flash 实验模型将向所有 Gemini 用户开放。我们还推出了一项新功能,称为深入研究,它使用高级推理和长上下文功能充当研究助理,代表您探索复杂的主题并编写报告。今天在 Gemini Advanced 中可用。
没有任何产品比搜索更受人工智能的改变。我们的人工智能概述现已覆盖 10 亿人,使他们能够提出全新类型的问题 - 迅速成为我们有史以来最受欢迎的搜索功能之一。下一步,我们将 Gemini 2.0 的高级推理功能引入 AI Overviews,以解决更复杂的主题和多步骤问题,包括高级数学方程、多模式查询和编码。我们本周开始进行有限测试,并将于明年初更广泛地推广。明年我们将继续将 AI 概述引入更多国家/地区和更多语言。
2.0 的进步得益于我们对人工智能创新的差异化全栈方法长达十年的投资。它基于定制硬件构建,例如我们的第六代 TPU Trillium。TPU 为 Gemini 2.0 训练和推理提供了 100% 的支持,如今 Trillium 已成为一般可用给客户,这样他们也可以用它来构建。
如果说 Gemini 1.0 是关于组织和理解信息,那么 Gemini 2.0 就是让信息变得更加有用。我迫不及待地想看看下一个时代会带来什么。
-桑达尔
Gemini 2.0 简介:我们面向代理时代的新 AI 模型
作者:Google DeepMind 首席执行官 Demis Hassabis 和 Google DeepMind 首席技术官 Koray Kavukcuoglu 代表 Gemini 团队
过去一年,我们在人工智能领域继续取得令人难以置信的进步。今天,我们发布了 Gemini 2.0 系列型号中的第一个型号:Gemini 2.0 Flash 的实验版本。这是我们的主力模型,具有低延迟和增强的性能,处于我们技术的前沿,大规模。
我们还通过展示 Gemini 2.0 原生多模式功能支持的原型来分享我们的代理研究前沿。
双子座2.0闪存
Gemini 2.0 Flash 建立在我们迄今为止最受开发人员欢迎的模型 1.5 Flash 的成功基础上,在同样快速的响应时间内增强了性能。值得注意的是,2.0 Flash 在关键基准测试中的表现甚至优于 1.5 Pro,速度是 1.5 Pro 的两倍。2.0 Flash 还带来了新的功能。除了支持图像、视频和音频等多模式输入之外,2.0 Flash 现在还支持多模式输出,例如与文本混合的本机生成的图像和可操纵的文本转语音 (TTS) 多语言音频。它还可以原生调用 Google 搜索、代码执行以及第三方用户定义函数等工具。
我们的目标是安全、快速地将我们的模型交到人们手中。在过去的一个月里,我们一直在分享 Gemini 2.0 的早期实验版本,并从开发人员那里得到了很好的反馈。
Gemini 2.0 Flash 现已作为实验模型通过 Gemini API 向开发人员提供谷歌人工智能工作室和顶点人工智能向所有开发人员提供多模式输入和文本输出,并为早期访问合作伙伴提供文本转语音和本机图像生成。将于一月份全面上市,并提供更多型号尺寸。
为了帮助开发人员构建动态和交互式应用程序,我们还发布了新的 Multimodal Live API,该 API 具有实时音频、视频流输入以及使用多个组合工具的能力。有关 2.0 Flash 和 Multimodal Live API 的更多信息,请参阅我们的开发者博客。
Gemini 2.0 可在我们的 AI 助手 Gemini 应用程序中使用
也从今天开始,双子座全球用户可以通过在桌面和移动网络上的模型下拉列表中选择来访问 2.0 Flash 实验的聊天优化版本,并且很快将在 Gemini 移动应用程序中提供。通过这个新模型,用户可以体验到更加有用的 Gemini 助手。
明年初,我们会将 Gemini 2.0 扩展到更多 Google 产品。
使用 Gemini 2.0 解锁代理体验
Gemini 2.0 Flash 的本机用户界面操作功能,以及其他改进,如多模式推理、长上下文理解、复杂指令跟踪和规划、组合函数调用、本机工具使用和改进的延迟,所有这些都协同工作,以实现新的代理体验。
人工智能代理的实际应用是一个充满令人兴奋的可能性的研究领域。我们正在通过一系列原型来探索这个新领域,这些原型可以帮助人们完成任务并完成工作。其中包括对 Astra 项目的更新,这是我们探索通用人工智能助手未来功能的研究原型;新的 Project Mariner,从浏览器开始探索人机交互的未来;Jules,一个人工智能驱动的代码代理,可以帮助开发人员。
我们仍处于开发的早期阶段,但我们很高兴看到值得信赖的测试人员如何使用这些新功能以及我们可以吸取哪些经验教训,以便我们可以在未来的产品中更广泛地使用它们。
Project Astra:在现实世界中使用多模式理解的代理
自从我们介绍了阿斯特拉计划在 I/O 大会上,我们一直在向值得信赖的测试人员学习如何在 Android 手机上使用它。他们的宝贵反馈帮助我们更好地了解通用人工智能助手如何在实践中发挥作用,包括对安全和道德的影响。使用 Gemini 2.0 构建的最新版本的改进包括:
- 更好的对话:Project Astra 现在能够用多种语言和混合语言进行对话,并且可以更好地理解口音和不常见的单词。
- 新工具使用:借助 Gemini 2.0,Project Astra 可以使用 Google 搜索、Lens 和地图,使其成为您日常生活中的更有用的助手。
- 更好的记忆力:我们提高了 Project Astra 的记忆能力,同时让您保持掌控。它现在拥有长达 10 分钟的会话记忆,并且可以记住您过去与其进行的更多对话,因此它可以更好地为您个性化。
- 改善延迟:借助新的流媒体功能和本机音频理解,代理可以以人类对话的延迟时间理解语言。
我们正在努力将这些类型的功能引入 Google 产品,例如双子座应用程序、我们的人工智能助手以及眼镜等其他外形尺寸。我们开始将我们值得信赖的测试人员计划扩展到更多人,其中包括一个很快将开始在原型眼镜上测试 Project Astra 的小组。
Project Mariner:可以帮助您完成复杂任务的代理
Project Mariner 是使用 Gemini 2.0 构建的早期研究原型,从浏览器开始探索人机交互的未来。作为研究原型,它能够理解和推理浏览器屏幕中的信息,包括像素和文本、代码、图像和表单等网页元素,然后通过实验性 Chrome 扩展程序使用这些信息来为您完成任务。
当对照评估时WebVoyager 基准测试,测试代理在端到端现实世界网络任务中的性能,Project Mariner达到了 83.5% 的最先进结果作为单一代理设置工作。
现在还为时过早,但 Project Mariner 表明,在浏览器中导航在技术上已成为可能,尽管现在完成任务并不总是准确且缓慢,但随着时间的推移,这将迅速改进。
为了安全、负责任地构建这一点,我们正在积极研究新型风险和缓解措施,同时让人类参与其中。例如,Project Mariner 只能在浏览器的活动选项卡中键入、滚动或单击,并且它会要求用户在采取某些敏感操作(例如购买某些东西)之前进行最终确认。
值得信赖的测试人员现在开始使用实验性 Chrome 扩展来测试 Project Mariner,同时我们也开始与 Web 生态系统进行对话。
Jules:开发商代理
接下来,我们将探索 AI 代理如何通过 Jules 为开发人员提供帮助,Jules 是一种实验性的 AI 支持的代码代理,可直接集成到 GitHub 工作流程中。它可以在开发人员的指导和监督下解决问题、制定计划并执行它。这项工作是我们长期目标的一部分,即构建对所有领域(包括编码)都有帮助的人工智能代理。
有关此正在进行的实验的更多信息可以在我们的开发者博客文章。
游戏及其他领域的代理
谷歌 DeepMind 有一个长的 历史使用游戏来帮助人工智能模型更好地遵循规则、计划和逻辑。例如,就在上周,我们介绍了精灵2,我们的 AI 模型可以通过单个图像创建无数种可玩的 3D 世界。基于这一传统,我们使用 Gemini 2.0 构建了代理,可以帮助您在视频游戏的虚拟世界中导航。它可以仅根据屏幕上的动作来推理游戏,并在实时对话中提供下一步行动的建议。
我们正在与 Supercell 等领先的游戏开发商合作,探索这些代理的工作原理,测试他们解释各种游戏规则和挑战的能力,从《部落冲突》等策略游戏到《部落冲突》等农业模拟器“Hay Day。”
除了充当虚拟游戏伙伴之外,这些代理甚至可以利用 Google 搜索为您提供网络上丰富的游戏知识。
除了探索虚拟世界中的代理功能之外,我们还通过将 Gemini 2.0 的空间推理功能应用到机器人技术中,尝试使用可以在物理世界中提供帮助的代理。虽然现在还为时过早,但我们对可以在物理环境中提供帮助的代理的潜力感到兴奋。
您可以在以下位置了解有关这些研究原型和实验的更多信息谷歌实验室。在代理时代负责任地建设
Gemini 2.0 Flash 和我们的研究原型使我们能够测试和迭代人工智能研究前沿的新功能,最终将使 Google 产品变得更加有用。
当我们开发这些新技术时,我们认识到它所带来的责任,以及人工智能代理在安全和保障方面提出的许多问题。
这就是为什么我们采取探索性和渐进的开发方法,对多个原型进行研究,迭代实施安全培训,与值得信赖的测试人员和外部专家合作,并进行广泛的风险评估以及安全和保证评估。
例如:
- 作为我们安全流程的一部分,我们与我们的责任与安全委员会 (RSC)(我们的长期内部审查小组)合作,以识别和了解潜在风险。
- Gemini 2.0 的推理功能使我们的人工智能辅助红队方法取得了重大进步,包括超越简单检测风险的能力,现在自动生成评估和训练数据以缓解风险。这意味着我们可以更有效地大规模优化模型以确保安全。
- 由于 Gemini 2.0 的多模态增加了潜在输出的复杂性,我们将继续跨图像和音频输入和输出评估和训练模型,以帮助提高安全性。
- 通过 Project Astra,我们正在探索针对用户无意中与代理共享敏感信息的潜在缓解措施,并且我们已经内置了隐私控制,使用户可以轻松删除会话。我们还在继续研究方法,以确保人工智能代理充当可靠的信息来源,并且不会代表您采取意外的行动。
- 通过 Project Mariner,我们正在努力确保模型学会在快速注入时优先考虑用户指令而不是第三方尝试,以便它可以识别来自外部来源的潜在恶意指令并防止滥用。这可以防止用户通过隐藏在电子邮件、文档或网站中的恶意指令等方式遭受欺诈和网络钓鱼尝试。
我们坚信,构建人工智能的唯一方法是从一开始就负责任,随着我们改进模型和代理,我们将继续优先考虑将安全和责任作为我们模型开发过程的关键要素。
Gemini 2.0、人工智能代理及其他
今天的发布标志着我们的 Gemini 型号的新篇章。随着 Gemini 2.0 Flash 的发布以及探索代理可能性的一系列研究原型,我们在 Gemini 时代达到了一个令人兴奋的里程碑。我们期待在迈向 AGI 的过程中继续安全地探索所有触手可及的新可能性。
您已经订阅了我们的时事通讯。