Anthropic 如何衡量人工智能在就业市场上的“理论能力”？

2023 年的研究对未来“预期由 LLM 驱动的软件”做出了很多假设。

人工智能是否准备像巨大的机器人手压垮办公室工人一样压垮就业市场？信用：盖蒂图片社

如果您关注有关人工智能日益增长的经济影响的持续争论，您可能会在本月看到下图。它来自关于人工智能对劳动力市场影响的人择报告旨在将法学硕士（红色）职业的当前“观察到的暴露程度”与 22 个工作类别中相同法学硕士（蓝色）的“理论能力”进行比较。

虽然当前的“观察到的暴露”区域本身就很有趣，但跳出来的是蓝色的“理论能力”。乍一看，该图表明基于 LLM 的系统可以在极其广泛的人类职业中执行至少 80% 的个人“工作任务”，至少在理论上是这样。Anthropic 似乎预测，法学硕士最终将能够胜任广泛类别的绝大多数工作，从“艺术与媒体”、“办公室与管理”到“法律、商业与金融”，甚至“管理”。

信用：人择不过，深入研究这些“理论能力”数字的基础，可以为人工智能未来的职业影响提供一个不那么令人毛骨悚然的景象。

当你深入研究细节时，那个蓝色区域代表了一些过时且高度推测性的猜测，即人工智能可能会在哪些方面提高人类生产力，但不一定会在哪些方面完全取代人类。

2023 年可以买到的最好的人工智能

Anthropic 在此引用的法学硕士“理论能力”基线并非基于该公司自己对其当前模型的实证测试或随着时间的推移对绩效增长的量化预测。相反，Anthropic 引用了 2023 年 8 月的一份报告，标题为–GPT 就是 GPT：对大型语言模型对劳动力市场影响潜力的早期观察 –由 OpenAI、OpenResearch 和宾夕法尼亚大学的研究人员共同撰写。

研究人员从O*NET 的详细工作活动报告，它以极其细粒度的级别分解了许多工作中涉及的各个任务。然后，他们使用人工注释和 GPT-4 辅助标记的混合来判断“当时最强大的 OpenAI 大语言模型”是否可以在同等质量的情况下将单个任务所需的时间减少至少 50%。如果不能，他们还判断访问“预期的 LLM 支持的软件”是否可以在未来实现类似的时间节省。

至关重要的是，为这个标签提供咨询的人并不是真正执行这些工作的人，甚至不是熟悉这些工作的人。相反，他们是熟悉 2023 年人工智能最新技术的人，被要求对法学硕士和未来由法学硕士支持的软件最有用的地方做出广泛的猜测。

信用：埃罗杜等人研究人员承认，由于人类注释者“大多不知道正在评估的具体职业”，因此“标签的主观性”形成了“我们方法的基本限制”。该标签的结果显示了研究人员所说的“聚合任务和职业的逻辑不清晰，以及一些明显的差异”。

标签。——对于创建客观的人工智能职业影响衡量标准来说，这些是一些相当大的警告。

深入研究研究人员使用的详细标准，我们还可以看到他们对当时可能最“直接接触”法学硕士的职业做出的各种假设。该标题提供了法学硕士可以执行的各种任务的许多方便的示例，包括：

根据复杂的指令编写和转换文本和代码
按照规范对现有文本或代码进行编辑
编写可以帮助执行过去需要手动完成的任务的代码
在语言之间翻译文本
总结中等长度的文档
提供文件反馈
回答有关文档的问题
生成用户可能想询问的有关文档的问题

总而言之，这并不是法学硕士在 2023 年最擅长的任务类型的一份糟糕清单。但仅仅因为法学硕士可以在某种程度上执行这些任务，并不一定意味着它可以以某种方式做到这一点，即可以将完成同等质量的任务所需的时间减少至少一半。

例如，请记住，2025 年的一项研究发现，使用 AI 的开源程序员比不使用 AI 的人慢 19%一旦花在编写提示和审查生成的代码上的时间被考虑在内。另外，请记住法学硕士众所周知的偏好幻觉和阿谀奉承在假设它们的输出与人类“具有同等质量”之前。

“预期的 LLM 支持软件”的承诺

即使对 2023 年法学硕士与工作相关的能力进行了如此广泛的解读，研究人员估计，当时法学硕士只能将所有与工作相关的任务中大约 15% 的效率提高至少 50%。总而言之，只有大约 2.3% 的职业以这种方式将至少 50% 的 O*NET 任务“暴露”给当时的法学硕士。

为了获得本文开头图表中显示的更可怕的数字，研究人员必须开始预测“预期的 LLM 支持的软件”对各种工作的影响。

回想一下 2023 年 8 月人工智能行业的状况，就在OpenAI 的 GPT-4 模型发布。那一刻可能标志着某个高点为了人工智能炒作。大约在这个时候，埃隆·马斯克和其他人呼吁暂停人工智能开发六个月出于对我们“可能失去对我们文明的控制”的恐惧，埃利泽·尤德科夫斯基警告如果一个超人类的人工智能实体威胁到地球上的所有生命，我们应该愿意“通过空袭摧毁一个流氓数据中心”。杰弗里·辛顿正在退出谷歌这样他就可以说出对人工智能“实际上可能比人类更聪明”并且“变得无法控制”的担忧。人工智能幻觉对工作的影响备受瞩目。刚刚开始受到广泛关注。

在这种环境下，人工智能专家被要求预测法学硕士驱动的软件未来改变工作的能力。

信用：埃罗杜等人重要的是，研究人员甚至没有为未来软件中何时看到这些影响设定自己设定的最后期限。

研究人员写道，“我们不会对此类法学硕士的发展或采用时间表做出预测”，这创造了一个本质上无限的视野，限制了此类预测的预测能力。

深入研究一些例子可以看出贴标者对法学硕士未来能力的假设程度。例如，研究人员预测，采购或合同谈判可能会受到法学硕士的影响，因为“你可以让各方抄写他们的观点，然后将其提供给法学硕士来解决任何争议。”虽然有些人可能在某些时候以这种方式使用法学硕士，但研究人员也愉快地承认“许多人需要接受使用新技术工具来实现这一目标。”

正是这些关于 LLM 支持的软件的前瞻性假设产生了更令人瞠目结舌的“理论能力”数字，例如 Anthropic 引用的那些数字。通过对这一衡量标准的最广泛解读，研究人员预测，“所有任务中的 47% 到 56%”最终将由法学硕士加快至少 50%，而所有工人中的 19% 所从事的职业中，一半以上的任务都被标记为“暴露”。对于一些“完全暴露”的人来说，这扩大到了所有与工作相关的任务的 100%研究人员称，这些职业包括“数学家”、“作家和作家”以及“网络和数字界面设计师”。

我想我们会发现的

但即便如此，值得注意的是，研究人员并不建议法学硕士能够取代人类或在无人协助的情况下完成这些任务。使用法学硕士驱动的软件来加速人类工作任务并不等同于用相同的软件完全取代人类劳动力。

有时，研究人员甚至明确表示对人类劳动力的持续需求。例如，当谈到开药时，研究人员指出——该模型可以为不同的诊断提供猜测，并编写处方和病例说明。然而，它仍然需要一个人在循环中利用他们的判断和知识来做出最终决定。研究人员还明确指出，他们正在进行分析，而没有区分劳动力增强效应或劳动力取代效应。

信用：人择在查看当前的失业统计数据时，Anthropic 表示，目前最受法学硕士使用影响最大的工作和最不受该工作影响的工作没有任何不同的影响。但 Anthropic 还警告称，人工智能对就业的影响可能会缓慢地在就业数据中体现出来，就像中国制造业或互联网的影响一样，而且可能很难与常规的经济周期问题区分开来。

无论如何，Anthropic 表示，虽然它观察到的当前人工智能使用情况确实与 2023 年时代的预测有一定的相关性，但当前的使用情况“远未达到其理论能力：实际覆盖范围仍只是可行的一小部分”。但在这一点上，这种“可行”能力是基于过时的猜测，即使是最初的研究人员也承认其有用性非常有限。

“准确预测未来的法学硕士申请仍然是一项重大挑战，即使对于专家来说也是如此，”他们当时写道。

一些目前看来不太可能对法学硕士或法学硕士支持的软件产生影响的任务可能会随着新模型功能的引入而发生变化。相反，看起来暴露的任务可能会面临限制语言模型应用的不可预见的挑战。

Kyle Orland 自 2012 年起担任 Ars Technica 的高级游戏编辑，主要撰写有关视频游戏背后的商业、技术和文化的文章。他拥有马里兰大学新闻学和计算机科学学位。他曾经写了一整本书扫雷舰。

OC

Anthropic 如何衡量人工智能在就业市场上的“理论能力”？

2023 年可以买到的最好的人工智能

“预期的 LLM 支持软件”的承诺

我想我们会发现的

关于《Anthropic 如何衡量人工智能在就业市场上的“理论能力”？》的评论

发表评论

摘要

相关新闻

相关讨论