如果人工智能创建的内容充斥互联网,谁来决定哪些在线信息值得存档?
-分析-
在成长过程中,我们这一代人被告知要小心我们在网上发布的内容,因为互联网是永恒的。但实际上,人们丢失了家庭照片,这些照片分享到他们早已被锁定的社交媒体帐户上。流媒体服务可以访问人们喜爱的节目,甚至无法拥有的内容。当网络公司和技术平台消亡时,记者、动画师和开发人员将失去多年的工作成果。
对于来自世界各个角落的最新新闻观点,Worldcrunch Today 是唯一真正的国际时事通讯。在这里注册。
与此同时,ChatGPT 和图像创建器 Midjourney 等人工智能驱动的工具越来越受欢迎,一些人相信它们有一天会取代人类传统上所做的工作,例如撰写文案或拍摄视频 B-roll。不过,无论他们执行这些任务的实际能力如何,有一点是肯定的:互联网即将被大量人工智能生成的轻松内容所淹没,这可能会淹没人类的工作。
这股即将到来的浪潮给像我这样每天思考数据隐私、保真度和传播的计算机科学家带来了问题。但大家应该注意。如果没有明确的保存计划,我们将失去大量好的数据和信息。
最终,数据保存是一个资源问题:谁将负责存储和维护信息,谁将为完成这些任务付费?此外,谁来决定什么值得保留?开发所谓基础人工智能模型的公司是希望对在线数据进行编目的主要参与者,但他们的兴趣不一定与普通人的兴趣一致。
随着时间的推移,无限期地保存数据所需的电力和服务器空间成本会不断增加。数据基础设施必须得到维护,就像桥梁和道路一样。特别是对于小规模的内容发布商来说,这些成本可能会非常高昂。即使我们可以定期下载并备份整个互联网,但这还不够。正如图书馆如果没有某种组织结构就毫无用处一样,任何形式的数据保存都必须谨慎归档。兼容性也是一个问题。例如,如果有一天我们不再将文档保存为 PDF,我们将需要保留旧计算机(具有兼容的软件)。
但是,在保存所有这些文件和数字内容时,我们还必须尊重版权所有者并与版权所有者合作。例如,Spotify 去年在音乐授权上花费了超过 90 亿美元;任何面向公众的数据归档系统都将拥有数倍于此的价值。如果数据保存系统因诉讼而破产,那么它就毫无用处。如果内容是由一个团体制作的,或者如果内容易手几次,即使作品的原始创作者批准,这可能会特别棘手,但仍然有人会保护他们购买的版权。
最后,我们必须小心,只归档真实有用的信息,这一任务在互联网时代变得越来越困难。在互联网出现之前,生产实体媒体书籍、报纸、杂志、棋盘游戏、DVD、CD等的成本自然限制了信息的流动。在网上,发布的门槛要低得多,因此每天都会传播大量虚假或无用的信息。当数据分散时,就像在互联网上一样,我们仍然需要某种方法来确保我们正在推广最好的数据,无论这是如何定义的。
足够的软盘来存档互联网吗?
在充斥着人工智能生成的胡言乱语的互联网上,这一点从未像现在这样重要。ChatGPT 等生成式人工智能模型已被证明会无意中记住训练数据(导致《纽约时报》提起诉讼)、产生虚假信息,有时还会冒犯人类的情感,而人工智能生成的内容在网站上变得越来越普遍和社交媒体应用程序。
因为人工智能生成的内容可以被复制,所以我们不需要保留它。
虽然许多领先的人工智能开发人员不想泄露他们如何收集训练数据的秘密,但这些模型似乎极有可能是根据从互联网上抓取的大量数据进行训练的,因此即使是人工智能公司也警惕所谓的在线合成数据会降低模型的质量。
虽然制造商、开发商和普通民众可以解决其中一些问题,但政府处于独特的地位,拥有资金和法律权力来拯救我们集体智慧的广度。图书馆保存和记录了无数的书籍、电影、音乐和其他形式的物理媒体。国会图书馆甚至保留了一些网络档案,主要是历史和文化文献。然而,这还远远不够。
互联网的规模,甚至只是纯数字媒体的规模,几乎可以肯定远远超过了国会图书馆当前的数字商店。不仅如此,数字平台还认为像现已过时的 Adobe Flash 这样的软件也必须保留。就像自然资源保护主义者维护和保养他们处理的书籍和其他实物一样,数字产品也需要技术人员来维护和保持原始计算机和操作系统正常工作。虽然美国国会图书馆确实采取了一些旧媒体格式数字化的做法,但它们无法满足广阔的计算领域的保存需求。
像维基媒体基金会和互联网档案馆这样的团体在弥补这一缺陷方面做得很好。后者尤其保留了已弃用软件和网站的完整记录。然而,这些平台在实现归档目标方面面临严重障碍。维基百科经常要求捐款,并依靠志愿者的投入来撰写和审查文章。这存在很多问题,其中最重要的是文章的撰写方式和撰写方式存在偏见。互联网档案馆还依赖于用户输入,例如其 Wayback Machine,这可能会限制归档数据的内容和时间。互联网档案馆还面临来自版权所有者的法律挑战,这威胁到其范围和生计。
Wayback Machine 主页截图
然而,政府却几乎不受同样的约束。在我看来,扩大国会图书馆归档网络数据的目标所需的额外资金和资源对于美国预算来说几乎可以忽略不计。政府还有权以对各方都有利的方式对知识产权进行必要的划分,例如,纽约公共图书馆剧院的电影和磁带档案馆,它保存了许多百老汇和非百老汇的作品尽管这些节目强烈禁止人们拍摄它们的照片或视频,但出于教育和研究目的而制作的作品。
平台在实现归档目标方面面临严重障碍。
最后,从理论上讲,政府是公众意愿和利益的管理者,其中必须包括我们的集体知识和事实。由于任何形式的归档都涉及某种形式的选择要保留的内容(以及补充,选择不保留的内容),因此我认为没有比负责任的公共机构做出该决定更好的选择了。
当然,就像模拟记录保存并没有随着物理图书馆的结束而结束一样,数据归档也不应该随着该提案而结束。但这是一个好的开始。特别是当政客们让图书馆消亡时(就像他们在我纽约市的家中所做的那样),我们比以往任何时候都更重要的是我们要正确定位。我们必须将注意力重新集中在更新我们的图书馆(它们本身就是信息中心)以适应信息时代。