由于 OpenAI,人工智能新闻本周异常忙碌,其中包括首席执行官 Sam Altman 发表的一篇有争议的博客文章、高级语音模式的广泛推出、5GW 数据中心传闻、重大员工变动以及戏剧性的事件。重组计划。
但人工智能世界的其他领域并没有步调一致,各行其是,每分钟都在推出新的人工智能模型和研究。以下是过去一周其他一些值得注意的人工智能新闻的摘要。
周二,Google 宣布更新其 Gemini 模型阵容,包括发布两款新产品-迭代过去版本的就绪模型:Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002。该公司报告称整体质量有所提高,在数学、长上下文处理和视觉任务方面取得了显着进步。Google 声称 MMLU-Pro 基准测试的性能提高了 7%,数学相关任务的性能提高了 20%。但如您所知,如果您阅读 Ars Technica 一段时间,就会发现人工智能基准测试通常并不像我们希望的那样有用。
除了模型升级之外,Google 还大幅降价对于 Gemini 1.5 Pro,对于 128,000 个令牌以下的提示,输入令牌成本降低了 64%,输出令牌成本降低了 52%。正如人工智能研究员 Simon Willison 在他的博客中指出的那样,“相比之下,GPT-4o 目前的输入费用为 5 美元/[百万代币],输出费用为 15 美元/分钟,而 Claude 3.5 Sonnet 的输入费用为 3 美元/分钟,输出费用为 15 美元/分钟。Gemini 1.5 Pro 是已经是最便宜的前沿型号,现在甚至更便宜。”
Google 还提高了速率限制,Gemini 1.5 Flash 现在支持每分钟 2,000 个请求,Gemini 1.5 Pro 每分钟处理 1,000 个请求。谷歌报告称,与以前的版本相比,最新型号的输出速度提高了一倍,延迟降低了三倍。这些变化可能会让开发者比以前更轻松、更经济地使用 Gemini 构建应用程序。
周三,Meta 宣布发布 Llama 3.2,我们过去广泛介绍过的开放权重人工智能模型阵容的重大更新。新版本包括具有 110 亿和 90B 参数大小的视觉大型语言模型 (LLM),以及专为边缘和移动设备设计的 1B 和 3B 参数的轻量级纯文本模型。Meta 声称,视觉模型在图像识别和视觉理解任务上与领先的闭源模型具有竞争力,而据报道,较小的模型在各种基于文本的任务上优于类似大小的竞争对手。
Willison 做了一些实验一些较小的 3.2 型号,并报告了这些型号尺寸的令人印象深刻的结果。AI 研究员 Ethan Mollick 展示了使用名为 PocketPal 的应用程序在他的 iPhone 上运行 Llama 3.2。
Meta 还推出了第一个官方“Llama Stack”发行版,该发行版旨在简化跨不同环境的开发和部署。与之前的版本一样,Meta 提供免费下载模型,但有许可证限制。新模型支持多达 128,000 个令牌的长上下文窗口。
周四,Google DeepMind 宣布了人工智能领域的一项重大进展 -驱动电子芯片设计,AlphaChip。它于 2020 年开始作为一个研究项目,现在是一种用于设计芯片布局的强化学习方法。据报道,谷歌在最近三代张量处理单元(TPU)中使用 AlphaChip 创建了“超人芯片布局”,这些芯片类似于 GPU,旨在加速人工智能运算。谷歌声称 AlphaChip 可以在数小时内生成高质量的芯片布局,而人工则需要数周或数月的时间。(据报道,Nvidia 也一直在使用 AI 来帮助设计其芯片。)
值得注意的是,Google 还在 GitHub 上发布了 AlphaChip 的预训练检查点,与公众共享模型权重。该公司报告称,AlphaChip 的影响力已经超出了 Google 的范围,联发科等芯片设计公司已在其芯片中采用并构建了该技术。据谷歌称,AlphaChip 引发了芯片设计人工智能的新研究,有可能优化从计算机架构到制造的芯片设计周期的每个阶段。
这并不是发生的一切,而是那些是一些主要亮点。由于人工智能行业目前没有放缓的迹象,我们将看看下周的情况如何。