科技公司正在转向“合成数据”来训练人工智能模型——但这存在隐性成本

上周，亿万富翁兼 X 的所有者埃隆·马斯克 (Elon Musk)声称用于训练 ChatGPT 等人工智能 (AI) 模型的人类生成数据池已经耗尽。

马斯克没有引用证据来支持这一点。但其他领先的科技行业人士也做出了贡献类似的主张最近几个月。和早期研究表明人类生成的数据将在两到八年内耗尽。

这主要是因为人类无法足够快地创建文本、视频和图像等新数据，以满足人工智能模型快速而巨大的需求。当真正的数据耗尽时，这将给人工智能的开发者和用户带来一个重大问题。

它将迫使科技公司更加依赖人工智能生成的数据，即“合成数据”。反过来，这可能会导致目前使用的人工智能系统亿万人们不太准确和可靠，因此也没有什么用处。

但这并不是必然的结果。事实上，如果仔细使用和管理，合成数据可以改进人工智能模型。

OpenAI 等科技公司正在使用更多的合成数据来训练人工智能模型。 T.施奈德/Shutterstock

真实数据的问题

科技公司依靠数据（真实的或合成的）来构建、训练和完善生成式人工智能模型，例如 ChatGPT。这该数据的质量至关重要。糟糕的数据会导致糟糕的产出，就像在烹饪中使用低质量的原料会产生低质量的饭菜一样。

真实数据指人类创造的文本、视频和图像。企业通过调查、实验、观察或挖掘网站和社交媒体等方式收集信息。

真实数据通常被认为是有价值的，因为它包含真实事件并捕获广泛的场景和上下文。然而，它并不完美。

例如，它可以包含拼写错误以及不一致或不相关的内容。也可以是严重偏见，例如，这可以导致生成人工智能模型创建图像仅显示从事某些工作的男性或白人。

这种数据也需要花费大量的时间和精力去准备。首先，人们收集数据集，在给它们贴上标签之前使它们对人工智能模型有意义。然后，他们将审查和清理这些数据，以解决任何不一致的问题，然后计算机对其进行过滤、组织和验证。

此过程可能需要长达总时间投入的80%在人工智能系统的开发中。

但如上所述，真实数据也在供应日益短缺因为人类无法足够快地生产它来满足不断增长的人工智能需求。

综合数据是人工创造的或由算法生成，例如生成的文本聊天GPT或由生成的图像达尔-E。

理论上，合成数据为训练人工智能模型提供了一种经济高效且更快的解决方案。

它还解决了隐私问题和道德问题，特别是健康数据等敏感个人信息。

重要的是，与真实数据不同，它并不短缺。事实上，它是无限的。

由于这些原因，科技公司越来越多地转向合成数据来训练他们的人工智能系统。研究公司 Gartner估计到 2030 年，合成数据将成为人工智能中使用的数据的主要形式。

尽管合成数据提供了有前景的解决方案，但它也面临着挑战。

主要担心的是人工智能模型可能“崩溃”当他们过于依赖合成数据时。这意味着它们开始产生如此多的“幻觉”——包含虚假信息的响应——并且质量和性能下降如此之多，以至于无法使用。

例如，人工智能模型已经在挣扎正确拼写一些单词。如果这些充满错误的数据被用来训练其他模型，那么它们也必然会复制错误。

合成数据还存在被泄露的风险过于简单化。它可能缺乏真实数据集中的细微细节和多样性，这可能导致在其上训练的人工智能模型的输出也过于简单且不太有用。

为了解决这些问题，国际机构和组织（例如：国际标准化组织或联合国 –国际电信联盟引入强大的系统来跟踪和验证人工智能训练数据，并确保该系统可以在全球范围内实施。

人工智能系统可以跟踪元数据，允许用户或系统追踪其所训练的任何合成数据的来源和质量。这将补充全球标准的跟踪和验证系统。

人类还必须在人工智能模型的整个训练过程中保持对合成数据的监督，以确保其具有高质量。这种监督应包括定义目标、验证数据质量、确保遵守道德标准以及监控人工智能模型的性能。

有点讽刺的是，人工智能算法还可以在审计和验证数据方面发挥作用，确保人工智能从其他模型生成的输出的准确性。例如，这些算法可以将合成数据与真实数据进行比较，以识别任何错误或差异，以确保数据的一致和准确。因此，通过这种方式，合成数据可以带来更好的人工智能模型。

人工智能的未来取决于高质量数据。合成数据将在克服数据短缺方面发挥越来越重要的作用。

然而，必须谨慎管理其使用，以保持透明度、减少错误并保护隐私——确保合成数据作为真实数据的可靠补充，保持人工智能系统的准确性和可信度。