作者:Kyle Wiggers
谷歌正在将其技术SynthID Text对外开放,该技术允许开发人员为生成式AI模型编写的内容添加水印并进行检测。
SynthID 文本可以从AI平台下载Hugging Face以及谷歌更新的负责任的生成式人工智能工具包.
该公司写道:“我们将开源我们的SynthID文本水印工具”帖子在X上。“免费提供给开发人员和企业,它将帮助他们识别其生成的AI内容。”
SynthID Text究竟是如何工作的?
给定一个提示如“你最喜欢的水果是什么?”,文本生成模型预测哪一个“标记”最有可能跟随另一个——一次一个标记。这些标记可以是一个字符或单词,是生成模型处理信息的基本单元。模型为每个可能的标记分配一个分数,这个分数表示它出现在输出文本中的百分比概率。SynthID Text 通过“调节生成标记的概率”,在该标记分布中插入额外的信息,谷歌说。
“结合模型词选择的最终得分模式与调整后的概率得分被视为水印,”该公司写道。博客文章“这种得分模式与加水印和未加水印文本的预期得分模式进行比较,有助于SynthID检测文本是否由AI工具生成或可能来自其他来源。”
谷歌声称,其集成了SynthID Text双子座自今年春天以来推出的所有模型,在不影响文本生成的质量、准确性和速度的前提下,甚至可以处理被裁剪、改写或修改过的文本。
但该公司也承认其水印方法存在局限性。
例如,SynthID Text 在处理短文本、已被重写或从另一种语言翻译过来的文本以及对事实性问题的回答时表现不佳。“在回答事实性提示时,调整令牌分布而不影响事实准确性的机会较少,”该公司解释道。“这包括诸如‘法国的首都是什么?’之类的提示,或者像‘背诵威廉·华兹华斯的诗’这样的查询,在这种情况下预期几乎没有或没有变化。”
谷歌并不是唯一一家致力于开发AI文本水印技术的公司。OpenAI多年来也在做这项工作。研究过的水印方法,但延迟他们的发布是基于技术和商业考虑。
文字水印技术如果被广泛采用,可能会有助于扭转不准确但日益流行的“AI检测器”的趋势。虚假标记论文和用更通用语气撰写的文章。但问题是,它们会被广泛采用吗——以及一个组织提出的标准或技术是否会胜过其他组织的?
很快可能会有法律机制迫使开发者采取行动。中国政府有了介绍了一下强制性地对人工智能生成的内容进行水印标记,加州州政府则是希望做同样的事情.
形势紧迫。根据根据欧盟执法机构的一份报告,到2026年,90%的在线内容可能是由合成生成的,这将导致围绕虚假信息、宣传、欺诈和欺骗的新执法挑战。目前,据亚马逊网络服务(AWS)的数据,互联网上近60%的所有句子可能是由人工智能生成的。学习——得益于人工智能翻译的广泛应用。