英语轻松读发新版了,欢迎下载、更新

埃隆·马斯克(Elon Musk)同意我们已经用尽了人工智能训练数据 |TechCrunch

2025-01-09 04:01:48 英文原文

作者:Kyle Wiggers

埃隆·马斯克(Elon Musk)同意其他人工智能专家的观点,即用于训练人工智能模型的现实世界数据所剩无几。

——我们现在已经基本耗尽了人类知识的累积总量……。马斯克在周三晚间与 Stagwell 董事长 Mark Penn 进行的直播对话中说道。“这基本上发生在去年。”

拥有人工智能公司 xAI 的马斯克呼应了前 OpenAI 首席科学家 Ilya Sutskever 的主题触及12 月份在机器学习会议 NeurIPS 上的一次演讲中。Sutskever 表示,人工智能行业已经达到了他所谓的“数据峰值”,他预测,训练数据的缺乏将迫使人们改变当今模型的开发方式。

事实上,马斯克认为合成数据(人工智能模型本身生成的数据)是前进的道路。“补充[现实世界数据]的唯一方法是使用合成数据,人工智能在其中创建[训练数据],”他说。– 有了合成数据 – [AI] 将会对自己进行评分并完成这个自我学习的过程。 –

其他公司,包括微软、Meta、OpenAI 和 Anthropic 等科技巨头,已经在使用合成数据来训练旗舰人工智能模型。Gartner 估计2024 年,人工智能和分析项目使用的数据中有 60% 是综合生成的。

微软的Φ4周三早些时候开源,接受了合成数据和真实数据的培训。Google 也是如此模型。Anthropic 使用一些合成数据来开发其性能最佳的系统之一, 克劳德 3.5 十四行诗。Meta 对其最新版本进行了微调 骆驼系列型号 使用人工智能生成的数据

对合成数据进行培训还有其他优点,例如节省成本。AI 初创公司 Writer 声称其 Palmyra X 004 模型几乎完全使用合成来源开发,开发成本仅为 70 万美元 – 比较的同等规模的 OpenAI 模型预计耗资 460 万美元。

但也有缺点。一些研究表明合成数据可能导致模型崩溃,即模型的输出变得不那么“有创意”,而且更加有偏见,最终严重损害其功能。由于模型会创建合成数据,因此如果用于训练这些模型的数据存在偏差和限制,它们的输出也会受到类似的污染。 

Kyle Wiggers 是 TechCrunch 的高级记者,对人工智能特别感兴趣。他的文章曾发表在 VentureBeat 和 Digital Trends 以及一系列小工具博客上,包括 Android Police、Android Authority、Droid-Life 和 XDA-Developers。他和他的伴侣(一位钢琴教育家)住在布鲁克林,他自己也涉足钢琴。偶尔——如果大多不成功的话。

关于《埃隆·马斯克(Elon Musk)同意我们已经用尽了人工智能训练数据 |TechCrunch》的评论


暂无评论

发表评论

摘要

埃隆·马斯克(Elon Musk)同意人工智能专家的观点,即可用于训练人工智能模型的新现实数据量正在减少。在X的直播对话中,马斯克表示,人类知识的累积量已经用于人工智能训练。他建议人工智能生成的合成数据作为克服这一限制的解决方案。这与前 OpenAI 科学家 Ilya Sutskever 在 NeurIPS 上关于达到“峰值数据”的预测一致。Microsoft 和 Meta 等公司已经在使用合成数据,这提供了成本效益,但也存在模型偏差和所使用的训练数据的局限性等风险。