作者:Kyle Wiggers, Devin Coldewey
嗨,大家好,欢迎来到TechCrunch的常规AI通讯。如果你想每周三都收到这份通讯,请订阅这里.
本周在人工智能领域,合成数据引起了广泛关注。
OpenAI上周四推出了Canvas,一种与之交互的新方式ChatGPT其人工智能驱动的聊天机器人平台。画布打开一个用于编写和编码项目的Workspace窗口。用户可以在Canvas中生成文本或代码,然后如有必要,可以使用ChatGPT突出显示部分进行编辑。
从用户的角度来看,Canvas是一个重大的生活质量改进。但什么是大多数我们对这项功能感兴趣的是其背后经过微调的模型。OpenAI 表示它对其模型进行了定制化的调整。GPT-4o使用合成数据的模型以在Canvas中“启用新的用户交互”。
我们使用了新颖的合成数据生成技术,例如从OpenAI的模型蒸馏输出等。o1-preview“以微调GPT-4o至开放画布,进行针对性的编辑,并留下高质量的一行评论,”ChatGPT产品负责人Nick Turley写道。在X上的帖子“这种方法使我们能够迅速改进模型并启用新的用户交互,所有这些都不依赖于人工生成的数据。”
OpenAI并不是唯一一家越来越依赖合成数据来训练其模型的大科技公司。
在开发中电影类型,一套用于创建和编辑视频片段的AI工具套装,Meta部分依赖于其分支生成的合成字幕 llama 3该公司招募了一支人工标注团队来修正这些字幕中的错误并增加更多细节,但大部分的基础工作主要是自动化的。
OpenAI首席执行官Sam Altman认为人工智能将会有一天生成足够好的合成数据以有效训练自己。这对于像OpenAI这样的公司来说是有利的,该公司在人类标注员和数据许可上花费巨资。
Meta对其自身的Llama 3模型进行了微调使用合成数据据称OpenAI正在从o1采购合成训练数据用于其下一代模型,代号为Orion。
但采用以合成数据为主的_approach_也伴随着风险。正如一位研究人员最近向我指出的,用于生成合成数据的模型不可避免地会产生幻觉(即编造事实)并包含偏见和局限性。这些缺陷会体现在模型生成的数据中。
安全地使用合成数据则要求对其进行全面的整理和过滤——如同处理人工生成的数据的标准做法一样。如果不这样做,可能会导致模型崩溃其中模型变得不再那么“创意”——而是更加偏颇——最终严重损害其功能。
这并不是一项易于规模化完成的任务。但随着现实世界训练数据变得更昂贵的 (更不用说难以获得),人工智能供应商可能会将合成数据视为唯一可行的发展路径。希望他们在采用时能够谨慎行事。
AI概览中的广告谷歌表示将很快开始在其中显示广告人工智能概览对于某些Google搜索查询,它提供的AI生成的摘要。
谷歌Lens,现在支持视频功能:谷歌的视觉搜索应用Lens已经升级,具备了回答关于周围环境近乎实时问题的能力。你可以通过Lens拍摄一段视频,并询问视频中感兴趣的物体的相关信息。(这款应用很可能也会加入广告。)
从Sora到DeepMind蒂姆·布鲁克斯,OpenAI 视频生成器的主要负责人之一,斯ора布鲁克斯已经离开加入竞争对手谷歌深度思维。他在X平台上发布消息称,他将从事视频生成技术以及“世界模拟器”的研究工作。
打乱它Andreessen Horowitz支持的初创公司Black Forest Labs是xAI图像生成组件背后的公司格罗克(音译)助理发布了测试版API,并推出了一种新的模型。
不够透明加州最近通过的AB-2013法案要求开发生成式AI系统的公司公布他们用于训练系统的数据的高层次摘要。迄今为止,很少有公司愿意说明是否会遵守该法律。法律规定他们在2026年1月之前遵守。
苹果公司的研究人员多年来一直在努力研究计算摄影,而这一过程的一个重要方面是深度映射。最初这是通过立体视觉或专用的深度传感器(如激光雷达单元)来实现的,但这些方法往往成本高昂、复杂,并且会占用宝贵的内部空间。从软件上严格进行则在许多方面更为理想。这就是这篇论文《Depth Pro》的核心内容。
A列奥谢·博奇科夫斯基等人分享了一种方法对于零样本单目深度估计,具有高细节度,意味着它使用单一摄像头,不需要针对特定对象进行训练(例如即使从未见过骆驼也能正常工作),并且能够捕捉到像毛发束这样的难以处理的细节。它很可能已经被应用在当前的iPhone上(尽管可能是经过改进和定制的版本),但如果你想自己尝试一下深度估计的话,你可以通过使用来体验它该GitHub页面上的代码.
谷歌发布了其Gemini系列的新模型Gemini 1.5 Flash-8B,声称这是它性能最强的模型之一。
“精简版”的版本 Gemini 1.5 Flash已经优化了速度和效率的Gemini 1.5 Flash-8B版本,其使用成本降低了50%,延迟更低,并且提供了两倍的速率限制上限。AI工作室Google的以人工智能为重点的开发环境。
“Google在一份声明中写道:‘Flash-8B在许多基准测试中的表现几乎与今年五月发布的1.5版本的Flash模型相匹配’”博客文章“我们的模型继续根据开发者的反馈以及我们自己对可能实现的功能的测试来完善。”
谷歌表示,Gemini 1.5 Flash-8B 适合用于聊天、转录和翻译,或任何其他“简单”且“高流量”的任务。除了 AI 工作室之外,该模型还可以通过 Google 的 Gemini API 免费使用,请求速率限制为每分钟 4,000 次。
说到廉价AI,Anthropic发布了一个新功能,称为消息批次API(Message Batches API),该功能允许开发人员以更少的成本异步处理大量AI模型查询。
类似于谷歌将 Gemini API 的请求批量处理,使用 Anthropic 的 Message Batches API 的开发者可以每次发送多达 10,000 个查询的批量请求。每个批量在 24 小时内处理完毕,并且成本比标准 API 调用低 50%。
Anthropic表示,消息批次API适用于“大规模”的任务,例如数据集分析、大型数据集分类和模型评估。“例如”,该公司在一篇文中写道:帖子“通过利用[this]批量折扣,分析整个企业文档库——可能涉及数百万文件——变得更具经济可行性。”
消息批次API已进入公开测试阶段,支持Anthropic的克劳德 3.5 十四行诗, 克劳德 3 卿院院士,和克洛德3俳句模型。