透明度,清楚地说明您所做的事情以及影响是什么。这听起来很奇怪,但意义重大。像微软这样的公司经常口头上强调透明度,但对其系统如何工作、如何训练或如何内部测试提供的实际透明度却很少,更不用说它们可能造成什么麻烦了。
我们需要知道 [AI] 系统的组成部分,以便了解他们的偏见(政治和社会)、他们对被盗作品的依赖,以及如何减轻他们的许多风险。我们需要知道它们是如何测试的,这样我们才能知道它们是否安全。
公司并不是真的想分享,但这并不意味着他们不会假装不分享。
例如,2023 年 5 月,微软总裁 Brad Smith 宣布了一项新的人工智能治理 5 点计划,据称旨在提高透明度;首席执行官立即扩大了他的言论,他说:“我们正在采取全面的方法来确保我们始终以安全、可靠和透明的方式构建、部署和使用人工智能。
但在我写这篇文章时,你无法查明微软的主要系统接受了哪些培训。你无法得知他们对受版权保护的材料的依赖程度。你无法找出他们对材料的选择可能会带来什么样的偏见。而且你无法充分了解他们接受的训练内容以进行良好的科学研究(例如,为了弄清楚模型的推理能力如何,以及它们是否只是简单地重复训练的内容)。你也无法得知他们是否在现实世界中造成了伤害。例如,是否使用大型语言模型来做出工作决策,并且是以有偏见的方式进行的?我们只是不知道。
在接受《华尔街日报》的 Joanna Stern 采访时,OpenAI 首席技术官 Mira Murati 甚至不愿给出关于训练他们的系统 Sora 时使用了哪些数据的最基本答案,并声称,这不太可能,不知道。
不久前,在我在联合国做的关于人工智能的简报中,我强调了言语与行动之间的差距。此后,由计算机科学家 Rishi Bommasani 和 Percy Liang 领导的由斯坦福大学、麻省理工学院和普林斯顿大学成员组成的团队创建了一个仔细而彻底的透明度指数,研究了 10 家公司的 100 个因素,包括数据的性质等。这被用来了解为降低风险所做的工作所涉及的劳动力的来源。
每家人工智能公司都获得了不及格的分数。Meta 得分最高(54%),但即使在数据透明度、劳动力、使用政策和反馈机制等因素上也未能成功。没有一家公司对其使用的数据真正透明,甚至微软(尽管他们口头上强调透明度)或 OpenAI(尽管他们的名字如此)。
报告的结论是严厉的:
现状的特点是开发商普遍缺乏透明度。透明度是其他更实质性社会进步的广泛必要条件,如果不加以改进,不透明的基础模型可能会造成危害。基金会模型正在以疯狂的速度开发、部署和采用:为了使这项技术能够促进公共利益,必须做出真正的改变,以纠正生态系统中根本缺乏透明度的问题。
更糟糕的是,随着斯坦福大学/普林斯顿大学/麻省理工学院团队表示,虽然这些模型的社会影响力正在上升,但透明度却在下降。
当我正在草拟[我的书]时,一个非营利组织放心地称其为“数据”