人工智能公司已经耗尽了用于训练模型的数据,并且“耗尽”了人类知识的总和,埃隆·马斯克已经说过了。
这位世界首富建议科技公司必须转向“合成”数据或人工智能模型创建的材料来构建和微调新系统,这一过程已经在进行快速发展的技术。
——人类知识的累积总和在人工智能训练中已经耗尽。这基本上发生在去年,”马斯克说。推出了自己的人工智能业务,xAI,2023 年。
AI 模型,例如 GPT-4o 模型,为ChatGPT 聊天机器人他们接受从互联网上获取的大量数据的“训练”,实际上他们学会了发现这些信息中的模式,例如,允许他们预测句子中的下一个单词。
马斯克在其社交媒体平台 X 上直播的采访中表示,解决训练新模型源材料缺乏问题的“唯一方法”是转向人工智能创建的合成数据。
在谈到数据宝库的耗尽时,他说:“补充这一点的唯一方法是使用合成数据……它将写一篇文章或提出一篇论文,然后对自己进行评分,然后——� 经历这个自学的过程。�
Facebook 和 Instagram 的所有者 Meta 已使用合成数据来微调其最大的 Llama AI 模型,而微软也为其 Phi-4 模型使用了 AI 制作的内容。谷歌和开放人工智能ChatGPT 背后的公司也在其人工智能工作中使用了合成数据。
然而,马斯克也警告说,人工智能模型产生“幻觉”的习惯——“幻觉”是指不准确或无意义的输出的术语——对合成数据处理来说是一个危险。
他说在直播采访广告集团 Stagwell 的董事长马克·佩恩 (Mark Penn) 认为,幻觉使使用人造材料的过程变得“具有挑战性”,因为“你怎么知道它是……幻觉的答案还是真实的答案”回答——。
英国艾伦图灵研究所基础人工智能主任安德鲁·邓肯 (Andrew Duncan) 表示,马斯克的评论与最近的一篇学术论文相符,该论文估计人工智能模型的公开数据最早可能会在 2026 年耗尽。-对合成数据的依赖存在“模型崩溃”的风险,该术语指的是模型输出质量恶化。
“当你开始向模型提供合成材料时,你的回报就会开始递减,”他说,并存在产出有偏差且缺乏创造力的风险。
邓肯补充说,人工智能生成的在线内容的增长也可能导致这些材料被吸收到人工智能数据训练集中。
高质量数据及其控制是人工智能热潮中的合法战场之一。OpenAI 去年承认不可能创建 ChatGPT 等工具无法访问受版权保护的材料,而创意产业和出版商要求对其在模型训练过程中使用其输出进行补偿。