2024年：AI的一年取得了非凡进步和进步

2025年1月23日

[[读取时间]]最低阅读

回顾一年的突破，进步和非凡的成就。

子弹点

本文总结了Google在2024年的AI进步，强调了他们对负责任发展的承诺。
Google发布了Gemini 2.0，这是一种强大的AI模型，为“代理时代”设计，并将其集成到各种产品中。
他们在生成AI中取得了重大进展，发布了对Imagen，VEO和MusicFX的更新，从而增强了创造力。
Google还具有量子计算和芯片设计中的突破性，高级机器人技术，硬件和计算。
他们探索了AI在科学，生物学和数学方面的潜力，并在蛋白质结构预测和几何形状方面取得了显着成就。

摘要由Google AI生成。生成的AI是实验性的。

Collage showing robot arms tying sneaker laces; text saying Gemini 2.0 against a blue and black background; and a dachshund wearing goggles while swimming in a Veo 2 video still

当我们进入2025年时，我们想花点时间认识到去年的惊人进步。从为代理时代建造的新双子座模型和授权Creativ它，到一个AI系统设计新型的高强度蛋白质粘合剂，AI启用了神经科学甚至地标进步在量子计算中，我们大胆而负责任地推进了人工智能的前沿以及它可以使人类受益的所有方式。

作为我们和我们的同事写两年前在一篇题为为什么我们专注于AI：

我们开发和利用AI潜力的方法是基于我们的创始使命 - 组织世界信息并使其普遍访问和有用 - 这是我们致力于改善AS的生活的承诺。很多人……

今天，这与我们第一次写它一样真实。

在2024年的评论帖子中，我们回顾了AI的一年价值，这是Google中许多令人难以置信的团队的实现，这有助于实现这一使命和承诺的进步 - 为今年还有更多。

模型，产品和技术的无情创新

2024年是一年的实验，快速运输，并将我们的最新技术交给了开发人员。

2024年12月，我们发布了我们的第一个模型双子座2.0实验系列âai模型是为代理时代设计的。首先是我们的主力模型Gemini 2.0 Flash，然后是我们代理研究边界的原型，包括：更新Project Astra，探讨了通用AI助手的能力；项目水手，一个早期的原型，能够在Chrome中采取行动作为实验扩展；和朱尔斯，AI驱动的代码代理。我们期待将Gemini 2.0的强大功能带入我们的旗舰产品，我们已经开始进行测试AI概述，现在有超过十亿人将其用于提出新类型的问题。

我们也发布了深入研究Gemini中的一个新的代理功能提出了一项，可通过创建和执行多步计划来找到复杂问题的答案，从而节省了人们的数小时的研究工作；并引入Gemini 2.0 Flash思维实验，一个明确显示其思想的实验模型。

这些进步随后在今年早些时候迅速发展。双子座的功能进入更多的Google产品释放双子座1.5 Pro和双子座1.5闪存 - 针对速度和效率进行了优化的模型。1.5 Flash的紧凑型尺寸使其更具成本效益，并在2024年成为我们最受欢迎的开发人员模型。

我们改进和更新了AI Studio，它为开发人员提供了许多资源。现在可以作为渐进式网络应用程序（PWA）提供，可以安装在桌面，iOS和Android上。

值得注意的是，看到公众接待到几个很令人兴奋新功能对于NotebookLM，例如音频概述，可以拿到上传的原始材料并产生一个深度潜水的讨论之间两个AI主机。

您的浏览器不支持音频元素。

Notebooklm音频概述

在此音频概述中，两个AI主持了NotebookLM更新世界的潜水。

语音输入和输出的更自然和直观的处理仍然是我们几种产品的核心：双子座活着，，，，Project Astra，，，，旅程的声音和YouTube的自动配音。

继续我们为开放社区贡献创新的悠久历史变压器，，，，张量，，，，伯特，，，，T5，，，，JAX，，，，Alphafold和字母我们从芽，我们由用于创建双子座模型的相同研究和技术构建的最新开放模型。芽表现优越同样大小的开放模型，例如问答，推理，数学 /科学和编码等功能。我们发布了杰玛范围，它提供了帮助研究人员了解Gemma 2的内部工作的工具。

我们还继续改善模型的事实并最大程度地减少幻觉。例如，在12月，我们出版了事实扎根这是一个基于Google DeepMind，Google Research和Kaggle之间的合作的新基准，用于评估大型语言模型在提供的源材料中的响应程度准确地基础，并避免幻觉。

接地数据集的事实包括1,719个示例，每个示例都精心制作，需要在上下文文档中扎根的长格式响应。

A table showing an example of a question and response about how to save money, based on the FACTS grounding dataset class.

我们使用事实接地测试了领先的LLMS，启动了事实排行榜在Kaggle上，Gemini 2.0 Flash实验，Gemini 1.5 Flash和Gemini 1.5 Pro当前具有三个最高的事实得分，而Gemini-2.0-Flash-Exp为83.6％。

此外，我们通过开创性提高了基本的ML效率技术喜欢块平行解码，，，，改善了基于置信的延期和投机解码这减少了LLM的推论时间，从而使它们能够更快地产生响应。这些改进在Google产品中使用，并在整个行业设定了标准。

将AI与运动结合在一起，三月我们发行了战术，一种用于足球战术的AI系统，可以为专家提供战术见解，尤其是在角球上。

我们所有的模型和产品的基础是我们对研究领导力的持续承诺。确实，在一个2010-2023 WIPO关于生成AI论文的引用调查，包括Google Research和Google Deepmind的引用在内的Google是第二大所引用的机构的两倍以上。

根据2024年1月的镜头数据，此WIPO图说明了价值十多年的字母生成AI科学出版物。

Bar graph titled: Number of citations to GenAI scientific publications for the top 20 institutions, 2010-2023. Alphabet (US) is at the top with 65,703 citations.

最后，通过Project Starline（我们的魔术窗户技术项目）取得了进步，该项目使朋友，家人和同事可以感觉到他们从任何距离融为一体。我们与惠普合作要开始商业化，目的是直接从视频会议服务（例如Google Meet＆Zoom）中启用它。

通过生成的AI增强创造力

我们认为，AI具有巨大的潜力，可以实现新的创造力，使创造性产出民主化并帮助人们表达其艺术愿景。这就是为什么去年我们在生成媒体工具上介绍了一系列更新，涵盖了图像，音乐和视频。

在2024年初，我们引入ImageFX是一种新的生成AI工具，可从文本提示中创建图像和MusicFX，这是一种基于文本提示的工具，用于创建最新的70秒音频剪辑。在I/O，我们共享早期预览Musicfx DJ的工具，有助于将现场音乐创作的乐趣带给更多人。10月，我们与雅各布·科利尔（Jacob Collier）在使MusicFX DJ更易于使用时，尤其是对于新的或有抱负的音乐家。我们更新了音乐AI工具包音乐AI沙盒并进化了我们的梦想实验这使美国创作者能够探索一系列流派，并提示通过强大的文本到音乐模型来产生乐器配乐。

2024年晚些时候，我们发布了对图像和视频模型的最新更新：VEO 2和成像3。作为我们最高质量的文本到图像模型，Imagen 3能够比以前的模型生成具有更好细节，更丰富的照明和分散的工件的图像。尽管VEO表现出对现实世界物理学以及人类运动和表达的细微差别以及其整体关注和现实主义的细微差别。

VEO代表了高质量视频生成的重要一步。

该领域的研究继续迅速。我们探索了使用AI改进编辑的方法，例如使用它控制对象的透明度，粗糙度或其他物理特性等属性：

在与合成数据生成的AI编辑的这些示例中，输入显示了该模型从未见过的新颖，持有的图像。输出显示模型输出，该输出成功编辑了材料属性。

在音频产生，我们宣布了对视频对审计（V2A）技术的改进，该技术可以通过自然语言文本提示基于屏幕上的动作来产生动态音景。这项技术可以通过AI创建的视频配对VEO。

游戏是对新世界创造性探索的理想环境，以及培训和评估体现的代理商。2024年，我们介绍了Genie 2，一种基础世界模型，能够生成无尽的动作控制，可播放的3D环境，用于训练和评估体现的代理。这跟随介绍Sima，可扩展的可伸缩多世界代理，可以遵循自然语言说明，以在各种视频游戏设置中执行任务。

智能体系结构：机器人技术，硬件和计算的进步

随着我们的多模型模型变得越来越有能力，并更好地了解世界及其物理学，他们正在使机器人技术领域的新进步令人难以置信，并使我们更接近我们越来越有能力且有用的机器人的目标。

借助Aloha释放，我们的机器人学会了系鞋带，挂衬衫，修理另一个机器人，插入齿轮，甚至清洁厨房。

在年初，我们引入Autort，Sara-RT和RT-Trajectory，我们的扩展机器人变压器旨在帮助机器人更好地理解和浏览其环境的工作，并更快地做出决策。我们也出版了阿罗哈释放，关于如何在协调中使用两个机器人臂的机器人教授机器人的突破，以及demostart，它使用增强学习算法通过使用仿真来改善多指机器人手上的现实性能。

机器人变压器2（RT-2）是一种新型的视觉语言操作模型，可以从Web和机器人数据中学习。

A chart showing robot training text and image inputs, such as text saying: Put the strawberry into the correct bowl, with a corresponding image showing the action.

超越机器人，我们的Alphachip加速和改善芯片平面图的加强学习方法正在改变数据中心，智能手机等中发现的芯片的设计过程。为了加速采用这些技术，我们发布了预训练的检查点使外部各方更轻松地使用Alphachip开源发布为了自己的芯片设计。我们做了trillium，迄今为止，我们的第六代和大多数性能的TPU，通常可供Google Cloud客户使用。计算机芯片的进步加速了AI。而现在，AI可以回报青睐。

Alphachip可以学习互连的芯片组件之间的关系并跨芯片概括，从而使Alphachip随着其设计的每个布局而改善。

我们的研究还重点是纠正当今量子计算机的物理硬件中的错误。11月，我们发射了alphaqubit，一种基于AI的解码器，以最先进的精度识别量子计算错误。这项协作工作汇集了Google DeepMind的ML知识和Google Research的错误校正专业知识，以加速构建可靠的量子计算机的进展。在测试中，它的错误比张量网络方法少6％，而相关匹配的错误少了30％。

然后在12月，Google Research的一部分Google Quantum AI团队宣布柳，我们的最新量子芯片可以在五分钟内执行基准计算，这将使当今最快的超级计算机之一10亿年级。柳树可以使用更多Qubits缩放时缩小错误。实际上，它使用我们的量子误差校正将错误率降低了一半，解决了该领域的30年以上的挑战，称为“低于阈值”。年度物理突破奖。

Willow在许多指标上具有最先进的性能。

发现新解决方案：科学，生物学和数学的进步

我们继续通过基于AI的方法来推动科学进步的推动，今年发布了一系列工具和论文，展示了AI在推进科学和数学方面的有用和功能。我们分享了一些亮点。

一月份，我们介绍了字母测定法，一个设计用于解决复杂几何问题的AI系统。我们更新的版本Alphagemementry 2和Alphaproof，这是一种基于加固的学习系统，用于正式数学推理，达到与银牌获得者相同的水平2024年7月国际数学奥林匹克运动会。

Alphage Meterigy 2在2024年7月在获得正式化后的19秒内解决了问题4。问题4要求证明kil和xpy的总和等于180°。

A geometric diagram featuring a triangle ABC inscribed in a larger circle, with various points, lines and another smaller circle intersecting the triangle

与同构实验室合作，我们介绍了Alphafold 3，我们的最新模型可以预测所有生命分子的结构和相互作用。通过准确预测蛋白质，DNA，RNA，配体等的结构以及它们的相互作用方式，我们希望它将改变我们对生物世界和药物发现的理解。

Alphafold 3的功能来自其下一代建筑和培训，现在涵盖了所有生命的分子。

Colorful protein structure against an abstract pink and blue gradient background

我们在蛋白质形成方面做出了几个关键的发展。我们宣布了字母，一种用于设计新型高强度蛋白质粘合剂的AI系统。字母可导致发现新药，生物传感器的发展并提高我们对生物过程的理解。

字母可为多种靶蛋白生成新的蛋白质粘合剂。

与哈佛大学的利希特曼实验室等合作，我们生产以前从未实现过的细节水平的一块人脑的纳米级映射，并使研究人员公开使用。随之而来十年努力提高我们对连接组学的理解，随着较早的脑和小鼠脑连接组学的较早作品，现在可以使人成为大规模和更复杂的人脑连接组学。

在皮质的最深层中，细胞簇倾向于在镜像方向上发生，如该大脑映射项目所示。

然后在11月下旬，作为更广泛的努力为了扩大和加深有关科学和人工智能的公众对话，我们共同主持了AI科学论坛召集的皇家学会科学家，研究人员，政府领导人和高管讨论关键主题就像破解蛋白质结构预测的挑战，绘制人脑的绘制并通过准确的预测和发现野火来挽救生命。我们与四个诺贝尔奖获得者举行了问答，Paul Nurse爵士，Jennifer Doudna，Demis Hassabis和John Jumper，可以通过Google DeepMind聆听。播客。

这也是一个具有里程碑意义的一年，原因是另一个原因：Demis Hassabis和John Jumper以及David Baker被授予2024诺贝尔奖化学因为他们在Alphafold 2上的工作。作为诺贝尔委员会认可，他们的工作：

“ [H]为设计从未见过的蛋白质打开了全新的可能性，现在我们可以使用所有已知蛋白质的预测结构。这些确实是伟大的成就。”

看到2024诺贝尔奖物理学授予最近退休的长期Googler Googler Geoffrey Hinton（以及John Hopfield），“用于使用人工神经网络的基本发现和发明。”

诺贝尔斯遵循了Google的其他认可Neurips 2024 Time Paper Awards测试为了通过神经网络序列学习的顺序和生成对抗网和比尔果园 - 王子奖，该团队被授予由教育工作者和Google专业人员组成的合作团队，从事开创性的工作原始双线性编程（PDLP）。（PDLP，现在的一部分Google或工具，有助于通过现实世界应用程序解决大规模的线性编程问题数据中心网络交通工程到集装箱运输优化）

为了人类的利益，人工智能

今年，我们进行了许多产品的进步和发表的研究，展示了AI如何直接和立即使人们受益，从预防和诊断医学到灾难准备和康复，再到学习。

在医疗保健中，人工智能在关键领域（例如早期心血管疾病的检测。我们的研究证明了如何使用简单的指尖设备来测量血流变化以及与碱性元数据相结合的方式可以预测心脏健康的风险。我们建立在以前支持AI的结核病诊断研究的基础上，展示AI模型如何用于TB和HIV率高的人群中的准确TB筛查。这对于降低结核病的患病率很重要（超过1000万人每年都会生病），因为大约有40％的结核病患者未诊断。

在MEDQA（USMLE风格）基准上，Med-Gemini获得了新的最先进的分数，超过了我们先前的最佳成绩（Med-Palm 2）明显的余量为4.6％。

Scatter plot showing how various models perform on the MedQA US Medical Licensing Exam (USMLE)-style question benchmark, with Med-Gemini achieving 91.1% accuracy

我们的双子座模型通常是专业人士的强大工具，但是我们的团队也在努力为其他领域创建微调模型。例如，我们介绍了Med-Gemini是一个新的下一代模型家族，将培训的培训与双子座的推理，多模式和长篇小说能力相结合。在MEDQA美国医疗许可考试（USMLE） - 式问题基准，Med-Gemini成就91.1％准确性的最先进性能超过了我们的Med-Palm 2的最佳成绩，增长了4.6％（如上所述）。

我们正在探索机器学习如何帮助挣扎的医疗领域，以获取成像专业知识，例如放射学，皮肤病学和病理学。在过去的一年中，我们发行两个研究工具，皮肤基金会和路径基础，这可以帮助开发用于诊断任务，图像索引和策展以及生物标志物发现和验证的模型。我们与斯坦福医学的医生合作开放式，包括皮肤状况图像网络（SCIN）数据集。我们揭幕了CT基金会，用于快速训练模型的医学成像嵌入工具。

关于学习，我们探索了新的生成AI工具来支持教育者和学习者。我们介绍了Learnlm，我们的新模型家族对学习进行了微调，并用它来增强搜索，YouTube和Gemini等产品的学习经验；最近的一份报告显示了Learnlm表现优越其他领先的AI模型。我们也是使其可用向开发人员作为AI工作室中的实验模型。我们的新对话学习伴侣，学习，使用AI来帮助您更深入地了解您对任何主题的好奇，而照亮让您将内容变成参与AI生成的音频讨论。

在灾难预测和准备领域，我们宣布了几个突破。我们介绍了Gencast，我们新的高分辨率AI集成模型，该模型改善了所有可能的天气轨迹的日常天气和极端事件。我们还介绍了我们的NeuralGCM模型，能够在只需模拟19天的基于物理模型的时间内模拟超过70,000天的大气。和Graphcast赢了2024麦克罗伯特奖用于工程创新。

图形广播的预测在10天内滚动的这种选择显示了在700公升的湿度（在表面以上约3公里），表面温度和表面风速下进行的特定湿度。

我们也改善了我们的洪水预测模型要预测提前7天（从五个）预测洪水，并将我们的河流洪水预测覆盖范围扩大到100个国家和7亿人。这标志着Google Research在2018年开始的多年计划中的一个重要里程碑。

现在，我们的洪水预测模型已在100多个国家（左）提供，现在我们拥有150多个国家 /地区的专家和研究人员的虚拟仪表，包括没有物理仪表的国家。

Two maps: one showing expanded flood forecasting coverage in Googleâ€™s Flood Hub, the other showing additional shaded areas to represent virtual gauge locations on the same map

AI还可以帮助进行野火检测和缓解措施，鉴于加利福尼亚州的破坏，这尤其是最重要的。我们的野火边界地图功能现在有22个国家 /地区可用。与领先的野火当局一起，Google Research也创建了开火，一个可以在20分钟内检测和跟踪与教室（大约5x5米）一样小的卫星星座。

我们继续建立我们的承诺，使更多的人更容易访问更多的人，扩展Google翻译有110种新语言，包括广东话，巴布亚新几内亚的Tok Pisin，来自西非的Nâko和Man岛的Manx。Google翻译现在支持240多种语言 - 可以帮助人们克服信息，知识和机会的障碍。

Google翻译中的这些新语言代表了超过6.14亿扬声器，开放了大约8％的世界人口的翻译。

帮助设定负责AI的标准

我们进一步在AI安全方面进行了行业领先的研究，开发了新的工具和技术，并将这些进步整合到我们的最新模型中。我们致力于与他人合作以解决风险。

我们继续研究滥用，进行一项研究发现，发现两种最常见的滥用类型是深层假货和越狱。5月，我们介绍了边境安全框架，该协议建立了识别我们最先进的AI模型的新兴功能的协议，并启动了我们的AI责任生命周期框架向公众。在十月，我们扩展我们的负责的Genai工具包与任何LLM一起工作，为开发人员提供更多负责任地构建AI的工具。

而且，在我们的其他努力中，我们今年发表了一篇论文高级AI助手的道德规范该研究和绘制了AI助手所居住的未来的新技术和道德景观，并描述了社会可能面临的机遇和风险。

我们扩展了合成功能为AI生成的文本水印双子座应用程序和网络体验和视频VEO。为了帮助在线提高整体透明度，不仅是Google Gen AI工具创建的内容，我们还加入内容出处和真实性联盟（C2PA）是指导委员会成员，合作在新的，更安全的技术标准版本中，内容凭证。

当有一系列不同的代币可供选择时，SynthID可以调整每个预测令牌的概率分数，如果它不会损害输出的质量，准确性和创造力。

除了LLM之外，我们分享了我们的方法生物安全为了Alphafold 3。我们还与行业合作伙伴一起启动安全AI联盟（Cosai），我们参加了AI首尔峰会，作为建立和促进国际共识和共同协调的治理方法的一种方式。

当我们开发AI代理等新技术时，我们将继续遇到有关安全，安全和隐私的新问题。由我们的指导人工智能原则，我们是故意服用开发的探索和逐步方法，对多种原型进行研究，迭代实施安全培训，与受信任的测试人员和外部专家合作，并进行广泛的风险评估以及安全和保证评估。

展望2025年

2024年是富有成效的一年，是开创性新产品和AI研究的非常激动人心的时刻。我们取得了很大的进步，我们对未来一年更加兴奋。

随着我们继续在产品，科学，健康，创造力等领域进行开创性的AI研究，深入思考如何以及何时应该部署它变得越来越重要。通过继续优先考虑负责任的AI实践并促进协作，我们将在建立AI受益于人类的未来方面发挥重要作用。

OC

2024年：AI的一年取得了非凡进步和进步

子弹点

模型，产品和技术的无情创新

通过生成的AI增强创造力

智能体系结构：机器人技术，硬件和计算的进步

发现新解决方案：科学，生物学和数学的进步

为了人类的利益，人工智能

帮助设定负责AI的标准

展望2025年

关于《2024年：AI的一年取得了非凡进步和进步》的评论

发表评论

摘要

相关新闻

相关讨论