合成数据可以解决人工智能的隐私问题吗?这家公司正在押注它 - ZDNet

2024-10-01 16:00:00 英文原文

合成数据可以解决人工智能的隐私问题吗?这家公司正在押注

目录

随着越来越多的公司投资于定制用例和产品的生成式人工智能 (gen AI),专有数据对于训练大规模数据变得越来越重要语言模型(LLM)。ChatGPT 是根据从互联网上抓取的数十亿个公共数据点(电子邮件、脚本、社交媒体、论文)进行训练的,与此不同的是,企业一代 AI 通常需要针对该企业的客户数据进行指定。

但是,来自真实客户的数据可能包含个人身份信息 (PII),因此使用时存在隐私风险。这就是结构化合成数据公司 Mostly AI 的用武之地。

此外:Google 的 AI 播客工具可以将您的文本免费转换为极其逼真的音频

周二,该公司推出了合成文本自动生成合成数据的过程并保留用户原始数据集的模式的功能。

通过使用合成数据来训练模型,Mostly AI 旨在帮助企业避免隐私风险,同时又不牺牲洞察客户数据,例如电子邮件、支持记录和聊天机器人交流可以揭示这一点。据该公司称,合成数据还可以代表比原始数据更多的多样性。

除了隐私之外,其他用例还包括重新平衡数据集以使其适合模型或消除偏差以及生成用于软件测试的模拟数据。

工作原理

公司将其专有数据集上传到 Mostly AI 生成器,这些生成器是受隐私保护的可重用包,其中包含原始数据的元数据。用户可以从本地设备或其他外部源上传数据,并在 Mostly AI 平台上微调生成器。

一旦确认了正确的配置和编码类型,用户就可以从他们的 Mostly AI 模型中进行选择。如果您想使用,请从多种语言模型中进行选择,包括 HuggingFace 中的预训练选项。

此外:每项新的 Microsoft Copilot 功能和 AI 升级都即将在您的 Windows PC 上推出

出现的是受隐私保护的数据合成版本,保留其原始统计模式。

此设置有助于培训企业的生成器。然后,用户可以使用模型的报告比较合成数据和实际数据,以确保准确性。

大多数 AI 表示,其数据集看起来“与公司的原始客户数据一样真实,具有同样多的细节,但没有原始的个人数据”数据点可帮助公司遵守 GDPR 和 CCPA 等隐私保护法规。”该公司补充说,其合成文本“与提示 GPT-4o-mini 不提供或仅提供一些真实示例而生成的文本相比,性能提高了 35%。”

此外:2024 年最佳人工智能聊天机器人:ChatGPT、Copilot 和有价值的替代品

那么,合成数据真的是人工智能的未来吗?

4 月份的 Gartner 报告发现,合成数据具有尚未实现的潜力在软件工程中,但建议必须谨慎部署。创建合成数据可能会占用大量资源,因为有效使用它需要针对每个用例进行特定的测试阶段。

“如今,随着模型耗尽公共数据源并产生收益递减,人工智能训练正陷入停滞状态,”“主要是人工智能”首席执行官托比亚斯·汉恩(Tobias Hann)在新闻稿中表示。“为了利用高质量的专有数据(这些数据比目前使用的剩余公共数据提供更大的价值和潜力),全球企业必须迈出一大步,利用结构化和非结构化合成数据来安全地训练和部署即将推出的生成人工智能解决方案。“

一个普遍的担忧是人工智能泡沫即将破裂,部分原因是模型已经耗尽了可供摄取的公开数据。虽然这在技术上是不正确的——任何人类活动都可以是数据,但它可能根本没有被编码、收集、结构化和免费——但确实需要更多可用的数据来训练模型。毕竟,真正擅长生成合成数据比将杂乱的手写笔记数字化要容易得多(而且便宜)。甚至 Meta 也使用人类数据和合成数据来训练 Llama 3.1 405B。

此外:完全自主的人工智能代理之旅以及为其提供资金的风险投资家

但是模型崩溃又如何呢——认为模型一旦摄入过多的合成数据就会恶化?

大多数 AI 在给 ZDNET 的电子邮件中表示,它避免了这种可能性,因为“合成数据生成一次并直接应用于下游任务,“而不是用于重复训练模型。

跨行业增加使用合成数据是否会造成模型崩溃的更大威胁,还有待观察。在此之前,对 Mostly AI 工具感兴趣的企业可以访问其网站。

关于《合成数据可以解决人工智能的隐私问题吗?这家公司正在押注它 - ZDNet》的评论


暂无评论

发表评论

摘要

合成数据可以解决人工智能的隐私问题吗?Mostly AI 表示,其数据集看起来“与公司的原始客户数据一样真实,具有同样多的细节,但没有原始个人数据点帮助公司遵守 GDPR 和 CCPA 等隐私保护法规。”创建合成数据可能会占用大量资源,因为有效使用它需要针对每个用例进行特定的测试阶段。甚至 Meta 也使用人类数据和合成数据来训练 Llama 3.1 405B。另外:完全自主的人工智能代理之旅和为其提供资金的风险投资家但是模型崩溃又如何呢?即模型一旦摄入过多的合成数据就会恶化?Mostly AI 在给 ZDNET 的电子邮件中表示,它避免了这种可能性,因为“合成数据生成一次并直接应用于下游任务”,而不是用于重复训练模型。跨行业使用合成数据的增加是否会造成模型崩溃的更大威胁,仍有待观察。