作者:Kyle Wiggers
一个AI是否可以仅仅通过另一个AI生成的数据来进行训练?这听起来可能像是个荒谬的想法。但这一概念已经存在了相当长一段时间——随着新的真实数据越来越难以获取,这个想法正在逐渐受到重视。
Anthropic 使用了一些合成数据来训练其旗舰模型之一。克洛德 3.5 十四行诗Meta进行了微调其Llama 3.1模型使用人工智能生成的数据据说OpenAI正在从合成训练数据源获取数据o1其“推理”模型,即将推出的猎户座.
但是为什么AI首先需要数据——以及什么种类它需要多少数据?而且这个数据能否真的被合成数据取代?
AI系统是统计机器。通过大量示例的训练,它们学习这些示例中的模式以进行预测,例如在电子邮件中,“to whom”通常出现在“it may concern”之前。
注释通常是以文本形式标记数据含义或组成部分,是这些例子中的关键要素。它们起到引导的作用,通过“教导”模型区分事物、地点和概念。
考虑一个用于分类照片的模型,展示了许多标有“厨房”标签的厨房图片。随着模型的训练,它将开始在“厨房”和一般厨房特征之间建立联系。特征关于厨房的识别(例如,它们包含冰箱和台面)。经过训练,给定一张未包含在初始示例中的厨房照片,模型应该能够将其识别为厨房。(当然,如果厨房的照片被标记为“牛”,它会将它们识别为牛,这强调了良好标注的重要性。)
对人工智能的需求以及为其发展提供标注数据的必要性使得标注服务市场急剧膨胀。Dimension Market Research估计值它目前价值8亿3820万美元——在未来十年内将价值10亿3400万美元。虽然没有精确估计参与标注工作的人数,但根据2022年的一项研究纸张把这个数字定在“百万”。
大大小小的公司都依赖于数据标注公司雇佣的工人来为人工智能训练集创建标签。其中一些工作报酬相当不错,特别是如果标注工作需要专门知识(例如数学专业知识)。另一些工作则可能非常辛苦。发展中国家的数据标注员平均每小时只有几美元的收入没有任何未来的兼职福利或保证。
因此,从人道主义的角度来看,寻求人类生成标签的替代品是有理由的。但实际上也有实用的原因。
人类只能标注这么快。标注人员也有偏见这可能体现在他们的标注中,进而反映在基于这些标注训练的任何模型上。标注者会错误或者获取绊倒通过标注指令。并且支付人类来做这些事情是很昂贵的。
数据通常来说很贵,说白了。Shutterstock向AI供应商收取数千万美元来访问其档案,而Reddit有从中谷歌、开放人工智能等公司许可数据获得了数十亿美元。注意:“hundreds of millions”通常翻译为“数亿”,但是考虑到上下文和实际商业语境,这里可能更接近“数十亿”。如果需要保持原意应译为“数十亿元”。如有具体数值需求,请提供进一步信息以便更准确翻译。如果没有更多上下文,默认使用“数十亿美元”以符合常见表述习惯。
最后,数据也变得越来越难获取。
大多数模型都是在海量的公共数据集上训练的——这些数据的所有者越来越倾向于限制访问,因为他们担心自己的数据会被滥用。抄袭的,或者他们不会因为这些作品获得信用或署名。全球排名前1000的网站中有超过35%现在阻止OpenAI的网络爬虫大约有25%的来自“高质量”来源的数据被限制在用于训练模型的主要数据集中,最近的一项研究指出这一点。学习已找到。
如果当前的访问封锁趋势继续下去,研究小组Epoch AI将会受到影响。项目开发人员将在2026年至2032年间用完训练生成式AI模型的数据。这与人们对版权诉讼 和不当材料进入公开数据集的做法迫使人工智能供应商面对现实。
乍一看,合成数据似乎是解决所有这些问题的方案。需要标注?生成即可。更多示例数据?没问题。天空才是极限。
在一定程度上,这是真的。
“如果‘数据是新的石油’,那么合成数据就像是生物燃料,可以在不产生真实数据的负面影响的情况下创建,”华盛顿大学研究新兴技术伦理影响的博士生奥斯·凯斯向TechCrunch表示。“你可以从一个小的数据集开始,并从中模拟和推断出新的数据条目。”
人工智能行业已经将这一概念付诸实践并取得了进展。
本月,专注于企业的生成式AI公司Writer推出了一款名为Palmyra X 004的模型,该模型几乎完全基于合成数据进行训练。据该公司称,开发这款模型的成本仅为70万美元。相比估计相当于一个规模相似的OpenAI模型的460万美元。
微软的Φ开源模型是使用合成数据训练的,谷歌的模型也是如此。格玛模型。Nvidia这个夏天发布了一个用于生成合成训练数据的模型家族,AI初创公司Hugging Face最近发布了它声称的最大的人工智能训练数据集合成文本。
合成数据生成已经成为一项独立的业务——一项可能成为的业务值得2030年达到234亿美元。Gartner预测今年用于人工智能和分析项目的数据中有60%将是合成生成的。
卢卡·索代尼(Luca Soldaini),艾伦人工智能研究所的高级研究科学家,指出合成数据技术可以用于生成以不易通过抓取(甚至内容许可)方式获取格式的训练数据。例如,在训练其视频生成器时电影类型Meta使用Llama 3为训练数据中的视频片段生成字幕,然后人类对其进行 refinement,以添加更多细节,例如对光线的描述。
沿此相同思路,OpenAI 表示它进行了微调GPT-4o使用合成数据构建类似画板的画布ChatGPT的功能。亚马逊有说它生成合成数据以补充用于训练Alexa语音识别模型的现实世界数据。
“合成数据模型可以用来快速扩展人类对于实现特定模型行为所需数据的直觉,”Soldaini说。
合成数据并非万能药。它与所有人工智能一样存在“垃圾进,垃圾出”的问题。模型创建合成数据,如果用于训练这些模型的数据存在偏见和限制,它们的输出也将受到类似的污染。例如,基础数据中代表性不足的群体在合成数据中也会同样表现不足。
“问题是,你能做的有限制,”凯斯说。“假设你的数据集中只有30个黑人。推断扩展可能会有帮助,但如果这30个人都是中产阶级,或者都是浅肤色,那么所谓的‘代表性’数据就会是这样的。”
截至到此,2023年学习里海大学和斯坦福大学的研究人员发现,训练过程中过度依赖合成数据会导致模型的“质量或多样性逐渐下降。”据研究人员称,采样偏差(对现实世界的代表性不足)导致在经过几代训练后模型的多样性恶化(尽管他们还发现加入一些真实世界的数据有助于缓解这一问题)。
凯斯认为,在复杂的模型中存在额外的风险,例如OpenAI的o1模型,他认为这类模型可能会生成更难被发现的有害内容。幻觉他们在合成数据中产生的幻觉。这些幻觉反过来可能会降低基于这些数据训练的模型的准确性——特别是如果幻觉的来源不容易被识别的话。
“复杂模型会幻觉化;复杂模型生成的数据包含幻觉,”凯斯补充道。“而对于像o1这样的模型,开发者本身也不能解释为什么会出现这些伪影。”
复合幻觉会导致生成乱码的模型。 A学习发表在《自然》期刊上的一项研究揭示了模型如何在错误频出的数据上训练后生成甚至更多错误频出的数据,以及这种反馈循环如何导致未来几代模型质量下降。研究人员发现,随着时间的推移,模型对其掌握的深奥知识逐渐失去理解能力——变得更为通用化,并且经常产生与问题无关的答案。
跟进学习表明其他类型的模型,如图像生成器,并不受此类崩溃的影响:
Soldaini认为“原始”的合成数据是不可信的,至少如果目标是避免训练健忘的聊天机器人和同质化的图像生成器的话。他说,安全地使用它需要彻底审查、整理和过滤这些数据,并且最好与新鲜的真实数据结合使用——就像处理任何其他数据集一样。
未能做到这一点最终可能会导致模型崩溃其中模型变得不够“创新”——并且更加偏向于产生偏见——最终严重损害其功能。虽然这个过程可以在问题变得严重之前被识别和阻止,但它仍然是一种风险。
“研究人员需要检查生成的数据,迭代生成过程,并识别保护措施以移除低质量数据点,”Soldaini说。“合成数据管道不是一种自我完善机制;其输出在用于训练之前必须经过仔细审查和改进。”
OpenAI首席执行官Sam Altman曾经认为AI将会有一天生成足够好的合成数据以有效训练自身。但——假设这是可行的——这种技术目前还不存在。没有主要的AI实验室发布过一个通过这种方式训练的模型。 仅基于合成数据。
至少在可以预见的未来,看来我们需要人类在循环中发挥作用。某个地方确保模型的训练不会出错。