推出了第一个双子座2023 年 12 月推出模型,当时其聊天机器人仍名为 Bard。从那时起,这家搜索巨头几乎所有与人工智能相关的事情都逐渐采用了 Gemini 这个名字。
Bard 聊天机器人是第一个倒下的机器人,今年早些时候更名为 Gemini。紧随其后的是双子座助理很大程度上取代了Android上以前的助手。该公司还在文档和开发人员中使用 Gemini。
在最初的一系列活动之后,谷歌的进展似乎放缓了。该公司没有像以前那样使用新名称,而是加倍努力,将 Gemini 添加到更多的产品和服务中。
然后,到了十二月谷歌发布Gemini 2.0。首席执行官桑达尔·皮查伊 (Sundar Pichai) 将其发布描述为特工时代的开始。这是人工智能模型根据一组初始指令代表您执行任务的地方。
什么是双子座?
双子座 2.0 简介 |我们迄今为止最强大的人工智能模型 - YouTube
Gemini 模型不仅接受过文本训练,而且还作为一种多模态模型进行训练,可以处理图像、视频、音频甚至计算机代码。这类似于开放人工智能的 GPT-4o,从 Gemini 2 开始,它也可以输出这些模式。
与 Google 的典型运营模式一致,该模型的最新版本在过去几个月中悄然开发,并提供了 ChatGPT 等更受炒作的产品所忽视的一些功能。
例如,Hugging Face 上的 Gemini 现在有超过 50,000 个变体,涵盖多种语言和用途。
不幸的是,这种多样性已经产生了相当大的混乱。最新的 Gemini 发射让事情变得更糟,因此我们认为是时候绘制出 Gemini 宇宙的清晰地图,以使事情更容易理解。
首先要意识到的是,谷歌喜欢将模型技术和应用程序与同名的变体混合搭配。一旦你弄清楚了这一点,其他一切就开始就位。
1. 型号
最开始的是2010年在伦敦成立的人工智能实验室DeepMind。这个整个人工智能行业的基石向世界交付了LaMDA、PaLM和Gato人工智能模型。双子座是这一代家族的最新成员。
Gemini 型号的 1.0 版本推出了 Ultra、Pro 和 Nano 三种版本。顾名思义,这些型号的范围从高功率版本到设计用于在手机和其他小型设备上运行的小型版本。
请注意,后续发布的大部分混乱都是由于谷歌搜索和人工智能业务之间的哲学斗争造成的。
人工智能对搜索的蚕食一直是悬在该公司头上的一把利剑,并极大地影响了该公司在发布人工智能产品时“愿意、不会”的态度。
Gemini 1.5 于十个月前发布,是对原始模型的增量改进,融合了专家混合 (MoE) 技术、一百万个代币上下文窗口和新架构。自那时起,我们陆续推出了 Gemini 1.5 Flash、Gemini 1.5 Pro-002 和 Gemini 1.5 Flash-002(后者仅在三个月前发布)。
与此同时,该公司还出人意料地进军开放模型领域,推出了免费的 Gemma 产品。这些 2B 和 7B 参数模型被视为对元— Llama 车型系列的发布。五个月后,Gemma 2.0 发布。
Gemini 2.0于2024年12月推出,被誉为代理时代的典范。第一个发布的版本是Gemini 2.0 Flash Experimental,这是一个高性能的多模式模型,支持Google搜索等工具的使用,以及代码生成的函数调用。
几周内,该公司推出了 Gemini 2.0 Experimental Advanced,显然是当前一代的完整版本。我们说“显然”是因为此时没有人真正确定什么是完整的、什么是早期代码。
可以肯定地说,Gemini 2.0 Flash Experimental 是一个功能极其强大、性能全面的 AI 模型。
双子座车型
- Gemini 1 超强
- Gemini 1 Pro - 中档
- Gemini 1 Nano — 小号
- Gemini 1.5 Flash — 更快、更便宜
- Gemini 1.5 Pro — 更慢、更贵
- Gemini 2.0 Flash实验
- 双子座2.0闪思维
- Gemini 2.0 实验高级版
杰玛模型(Gemmaverse)
- Gemma 1(2B、7B 参数)
- Gemma 2(2B、9B、27B):从头开始训练的 27B。
- CodeGemma(2B 和 7B):针对代码生成进行了微调。
- RecurrentGemma (2B, 9B):基于 Griffin,而不是基于 Transformer。
- PaliGemma 2(3B、10B、28B):视觉模型接受文本和图像输入。多种语言。
- DataGemma:以数据为中心的模型
- GemmaScope:人工智能研究工具
2. 应用
谷歌既是一家研究公司,也是一家产品公司。DeepMind 和 Google AI 领导了这项研究并发布了模型。谷歌的另一边则采用这些模型并将其应用到产品中。这包括硬件、软件和服务。
聊天机器人
正如许多其他基础模型供应商一样,聊天机器人在 Google 应用程序方面处于领先地位。再说一次,这是谷歌,在名称和功能方面事情变得有点模糊。
双子座聊天机器人。这曾经被称为 Bard,与 Gemini 模型完全独立。十个月前,Bard 和另一款 Google 产品 Duet AI 合并在一起,并推出了 Android 应用程序,并命名为 Gemini 品牌。
在此行动之后,Gemini 聊天现已集成到更多 Google 产品中,包括 Android Assistant、铬合金浏览器、Google 相册和 Google Workspace。
在撰写本文时,Gemini 聊天机器人和旧版 Android 助手在最新版本的 Android 手机操作系统上作为双重选项提供。Gemini Live 被视为 OpenAI 低延迟、高速高级语音模式的 Google 替代方案,预计将在不久的将来在 Google Pixel 智能手机上推出。
产品
虽然 Gemini 作为聊天机器人可能会吸引人工智能爱好者的大部分新模型和关注,但大多数人工智能的目光将集中在移动设备上的 Gemini。
这有两种形式,首先通过 iPhone 和 Android 上的 Gemini 应用程序,然后通过其深度集成到 Android 操作系统中。
在 Android 上,开发人员甚至可以在自己的应用程序中使用 Gemini Nano 模型,而无需使用基于云的或昂贵的模型来执行基本任务。
深度集成允许从 Gemini 触发系统功能,以及使用 Gemini Live(AI 语音助手)播放歌曲等。
实验
最新的 Gemini 模型的发布伴随着一系列与新模型相关的主要 Google 应用程序发布或预览。这个清单很长而且令人印象深刻。其中一些包括:
- Project Astra:人工智能助手视觉理解能力的精彩展示
- Project Mariner:展示多模式人工智能在现实世界用例中的威力
- NotebookLM:研究和学习应用的令人惊叹的新范式
- 深度研究:强大的代理研究工具,具有深度搜索能力和庞大的背景
3. 平台
除了 Gemini 的移动和网络版本之外,还有一些优质的、以开发人员为中心的产品。这些通常提供最先进的模型和功能,例如 Gemini Advanced 中的 Deep Research。
- Gemini Advanced:Google 先进的基于订阅的人工智能产品网关。
- Google Cloud:按使用量付费使用全系列 Google 企业和消费者产品
- AI Studio:免费的 AI 游乐场,用于测试和评估 Gemini 系列 AI 模型
- Vertex AI:人工智能开发平台集成为 Google Cloud 服务的一部分
- Google One:面向消费者的基于订阅的云存储服务