工作中的人工智能:为什么 GenAI 更有可能支持员工而不是取代他们 - Indeed 招聘实验室

2024-09-25 11:33:29 英文原文

Indeed 招聘实验室评估了 OpenAI 开发的 GenAI 模型 GPT-4o 执行 2,800 多项工作技能的能力。每项技能都在三个主要领域进行评估:GenAI 提供与该技能相关的理论知识的能力;GenAI使用技能解决问题的能力;GenAI 确定了实际存在对于利用该技能的重要性。该模型将这三个评级视为 GenAI 可以取代人类执行这 2,800 多项个人技能中任何一项的可能性的最终评估的一部分。您可以在此处找到可下载的 PDF 版本的报告。

要点

  • 在 Indeed 评估的 2,800 多项工作技能中,没有一项被认为很可能被取代由 GenAI 提供。在五种可能的结果(非常不可能、不太可能、可能、可能、非常可能)中,评估的大多数技能(68.7%)非常不可能或不太可能被 GenAI 取代。
    • 如果企业改变一些做法并且改进工具,未来大约四分之一 (28.5%) 的技能可能会被 GenAI 取代。
  • 大致如果企业改变一些做法并且改进工具,未来四分之一的技能(28.5%)可能会被 GenAI 取代。
  • 总体而言,GenAI 普遍擅长提供技能理论知识,但在提供技能理论知识方面则较差。使用技能来解决问题。只要一项技能需要大量的实践执行(例如,航空或烹饪技能),GenAI 的用处就会受到限制。
  • 最终,GenAI 对特定职业的影响将取决于无论是现在还是将来,该职业中的技能可以或不能通过该技术很好地发挥。
    • 在需要亲自执行技能的工作(包括护理)中,GenAI 可以帮助完成一些重复性任务(例如文档),并允许员工重新专注于这些角色所需的核心技能。
    • 在更传统的办公室工作中,包括软件开发,GenAI 可能能够提供重要的知识并解决一般的问题,强调持续提升技能和持续学习对人类员工的重要性。

尽管生成人工智能(GenAI)技术迅速进步,并且人们担心人类工人即将大规模流离失所,但人类工作技能不会很快在劳动力中轻易被取代。今天的 GenAI 工具不太可能真正取代有能力的人类工人掌握和执行 Indeed 确定的数千种常见工作技能中的任何一种。

每种职业都需要工人使用多种技能三个关键领域的技能:获取、保留和提供与这些技能相关的理论知识;使用这些技能来解决问题;并以亲自/手动或数字方式执行这些技能。成功的人类工作者可以在这些维度上无缝地平衡和调整他们的技能,以完成他们的工作。但是,由 GenAI 支持的数字工作者虽然在其中一项甚至两项指标上可能表现强劲,但将很难在所有三项指标上实现同样的无缝平衡。

这些模型有继续学习和发展的巨大潜力。有一天,某些技能会取代人类,但首先需要在数字化和工作规范方面发生有意义的变化。这些工具可以为某些耗时的任务提供巨大的帮助,例如总结密集的文本或快速生成高度精美的图像或音频。未来,结合机器人技术的进步,这些工具可能会更加擅长模仿和掌握人类手动应用技能的方式。但就目前情况而言,GenAI 最适合运用其技能来帮助完成相对简单的工作任务,这些工作只需要适度解决问题,最重要的是,不需要亲自执行。

一种复杂的方法

h2>

从 Indeed 上数亿个职位发布的数据出发,我们确定了 2,800 多种常见工作技能,从客户管理到伤口护理。有了这个详细的技能分类,招聘实验室随后开发了一个复杂的提示框架,使用 OpenAI 开发的大型语言模型 GPT-4o 来评估这些技能。该模型被要求评估其自身在上述三个维度上执行某项技能的能力。这三项评估均按 5 分制评分,1 分表示在该维度应用技能的能力非常有限或没有能力,5 分表示能力很强。最后,模型将这三个维度的评级作为最终评估的一部分,要求它以类似的 5 分制(从 1 到 1不太可能,很可能为 5)。

此分析是长达数月的人类/人工智能激烈合作的结晶,最终产生了 1,000 多个字的高度具体提示,以确保我们的数字同事遵循我们人类的指示是不折不扣的。设计提示需要进行多次尝试才能正确,GenAI 的要求越复杂,提示就需要越复杂和详细。所有发现均经过人类研究人员验证,如果结果未达到预期,提示会进行相应调整。一旦提示最终确定,分析就会运行 15 次并合并为最终评级,以提高 GenAI 衍生响应的稳健性。具有讽刺意味的是,这种涉及的方法有助于证明这项研究的主要发现:即使 GenAI 不断发展并学会完成艰巨的任务,监督、指导和纠正 GenAI 衍生输出的人类也不会轻易被取代。

应用知识

总体而言,GenAI对其提供理论知识的能力评价较高,但其解决问题的能力稍差。对于 79.7% 的评估技能,GenAI 在提供理论知识的能力方面给自己打了 4 分(良好)。它表示它可以使用 70.7% 的技能解决中等问题(5 分制中的 3 分)。至关重要的是,对于所分析的绝大多数技能(54%)来说,身体执行力被认为是必不可少的(5 分制中为 1 分)或非常必要(5 分制中为 2 分)。总而言之,GenAI 认为自己没有任何技能很可能能够取代人类工人。随着 GenAI 的不断改进,如果工作场所和/或工作规范未来发生某些变化,超过四分之一 (28.5%) 的技能可能会被 GenAI 取代。但总体而言,超过三分之二的分析工作场所技能 (68.7%) 被确定为非常不可能(5 分制中的 1 分)或不太可能(5 分制中的 2 分)被 GenAI 取代.

理论强大

我们的研究表明,提供与技能相关的理论知识的能力是目前GenAI的最大优势。理论知识是唯一一个在所分析的 2,800 多种技能中获得最高评级 5 的维度(除了物理必要性之外)。这些模型经过数年的大量数据训练,包括来自学术界、私人数据库和其他专有培训信息。即使模型没有接受过最新数据的训练,它们通常也可以访问搜索引擎并进行查找。这些产品可以在眨眼间总结、重新格式化和显示大部分知识,作为参考工具,它们很可能只会不断改进。

但它们并不是完美的参考工具。虽然今天的基本网络搜索只会重复其他地方已经写过的内容,但 GenAI 更有可能做出新的推论,并有时错误地得出新的结论。支持这些工具的大型语言模型 (LLM) 在语言和写作方面有强大的理论支持,但也容易出现逻辑上的跳跃和失误,并且可能会弥补某些东西。

许多 GenAI 产品也旨在创建令人印象深刻、有时甚至很奇怪的图像或音频。用于训练音频/视频生成工具的数据通常存在问题,导致图像或音频可能强化负面的种族主义和/或性别歧视刻板印象。GenAI 本身也没有真正的道德意识,无法知道它对给定提示的反应在道德上是正确还是错误。对要求这些文本、音频和/或视觉输出的提示进行人工监督,并仔细检查输出本身以确保准确性、真实性和/或适当性,这一点至关重要。

实践问题

除了提供一般知识之外,模型使用技能解决问题的相对能力以及应用该技能时物理执行的重要性对确定 GenAI 取代人类的可能性影响最大在那个给定的技能上。解决问题的能力是人类聪明才智的标志,GenAI 模型使用特定技能解决问题的能力越强,取代人类的可能性就越大。在评估的 10 项技能中,超过 7 项 (70.7%),GenAI 解决问题的能力被评为 3 分(中等)。对于超过四分之一 (27.7%) 的解决问题能力评分为 3 的技能,GenAI 取代人类的可能性也被评为 3。对于 2.8% 的技能,GenAI 将其解决问题的能力评为 4(好),它还为自己分配了 4 的人类替代评级(可能)。

让我们记住,这些工具还没有允许它们执行手动任务的实体,尽管这可能会改变未来与机器人技术的进步一起。但在那之前,手动、亲自执行特定技能的必要性在帮助确定 GenAI 替代的最终可能性方面发挥着巨大作用。对于所有 101 项在解决问题方面获得良好评级(满分 5 分制为 4 分)的技能,身体执行的必要性被评为仅轻微必要或不必要。这表明,即使GenAI模型使用某种技能解决问题的能力比较强,但只要该技能需要亲自执行,GenAI替代人的能力很可能仍然有限。GenAI 表示,在分析的所有技能中,有近三分之一 (30.1%) 的技能被认为是必不可少的,因此不太可能或不太可能取代人类。

对工作的影响

GenAI 可能更好或更差的技能分布在数百万工人每天从事的数千种职业中并不相同。例如,许多技术职位需要更大比例的数字技能,这些技能需要有限的动手执行,并且更有可能通过 GenAI 模型在高水平上完成。护理角色,包括护理或儿童保育,具有更多的技能组合,GenAI 可能能够提供一些知识,但也更可能需要身体执行。

这项分析发现,例如,GenAI 有可能取代人类 71% 以上的软件开发职位常见技能。另一方面,在典型的护士职位发布中发现的技能中,只有约 32.9% 被认为可能或有可能被 GenAI 取代。

一般来说,技能的比例越低在需要物理执行的给定工作中,可能被 GenAI 取代的技能比例越高。

解决问题的强大能力也与最终取代人类的可能性更高相关。但目前,GenAI 在使用许多常见工作中的技能解决问题方面并不是特别擅长。例如,几乎 78% 的典型会计职业常见技能被认为可能或有可能被 GenAI 取代,GenAI 表示,其解决问题的技能适合会计职位发布中 30.5% 的常见技能。但会计职业是一个异常值,它是唯一一个 GenAI 表示它至少擅长解决至少 30% 通用技能问题的职业。对于所分析的大多数其他职业,模型解决问题的能力更加有限,并且可能被 GenAI 取代的技能比例也较低。如果 GenAI 模型提高了解决问题的能力,在更多工作中获得更多技能,那么这些工作中最终可能被取代的技能比例也可能会上升。

通用技能

考虑一名护士和一名软件开发人员。这两项工作通常都需要类似的软技能,包括沟通技巧和领导技能。但每个工作的特定技能代表了 GenAI 具有不同能力的不同类型的技能。GenAI 擅长学习和应用软件开发人员招聘启事中常见的各种编码语言,例如 Python 或 JavaScript,并在需要时对人类编写的代码进行故障排除。但是,虽然它可能能够帮助护士为患者制定适当的护理计划,但 GenAI 实际上无法管理任何类型的身体护理,包括给药或进行急性护理。

平均而言,大约 40.6% 的软件开发人员职位需要 Java(一种编码语言)技能。GenAI 对 Java 的理论知识(4 分良好)、问题解决能力(3 分中等)和替代潜力(3 分可能)给予自己相对较高的评分。GenAI 本身对该技能的总体评级是合理的,该模型可以帮助解决编码问题、调试和生成代码片段,但复杂的问题解决和集成需要人类专业知识。

在护理领域,事实恰恰相反。护理职位发布中最常见的技能之一是护理(这并不奇怪),平均在 44.8% 的护士职位发布中出现。对于这项特定技能,虽然 GenAI 在理论知识方面给自己打了很高的分数(4 分好),但在解决问题方面给自己的分数相对较低(2 分基本)。它认为该技能的物理执行至关重要,简单的解释是,护理需要物理存在来护理患者、给药等。因此,护理技能的替代潜力被评为不太可能 (2) 因为,该模型可以帮助提供信息和建议,但不能取代护理的物理方面。

在这个例子中,护理需要更多的技能,而GenAI在解决问题方面相对较差,并且需要一些动手执行,因此护理工作最终有可能被 GenAI 取代的技能比例较低。实际存在被认为对于典型护理职位发布中常见的大多数(58%)技能来说是非常必要或必不可少的。在软件开发人员招聘启事中常见的技能中,只有 13% 的技能中,实际存在被认为是非常必要或必不可少的。

未实现的潜力

会计就是一个具有高职位要求的职业的一个很好的例子。不太可能或不太可能被 GenAI 取代的技能份额。会计职位发布中常见的大部分技能(58%)只有被 GenAI 取代的可能性(5 分制中为 3 分),而 GenAI 对会计领域的最终影响将由以下因素决定:许多尚未可知的因素。

许多会计工作不需要亲自到场,处理数字和确定利润/亏损率长期以来一直是数字软件的优势。但某些会计业务可能比其他业务需要更多的实践工作。例如,小型夫妻店会计业务可能会定期处理客户提交的纸质报表,或者定期与客户进行面对面会议讨论策略等。在这些情况下,虽然 GenAI 可能擅长在处理实际数字时,它不能接受一批新文件,也不能在拥有业务后对其进行物理扫描,也不能嘲笑客户的笑话。

高水平解决问题的能力也极大地影响了会计师工作常见技能被替代的总体可能性。超过三分之二 (68%) 的技能属于会计师的中等问题解决能力范围(评级为 3),这主要是因为随着问题变得更加复杂,GenAI 开始动摇。例如,组织技能(平均存在于 18.8% 的会计职位发布中)被分配了中等的解决问题能力,因为该模型可以为组织任务和管理时间提供实用的解决方案,但可能难以应对高度复杂或动态的场景。对于会计技能(在 74.8% 的会计职位发布中发现),它给自己提供了相同的解决问题评级,因为该模型可以解决中等会计问题并为常见场景提供实用建议,但可能难以解决高度复杂的问题。随着工具的发展和学习更多,它们解决更复杂问题的能力也可能会提高。但其并不确定。因此,这些技能中的许多技能最终被取代的可能性仍然是有可能的,而且还不太可能。

展望未来,对数字化和电子记录保存的大量投资是有可能的。为了让 GenAI 助手提供更多帮助,才能充分发挥 GenAI 对包括会计在内的许多企业和行业的潜力。每个企业都需要自行决定此类投资是否值得。如本分析所述,了解工具的优点和缺点可以帮助企业领导者确定使用哪些杠杆和旋钮来最大化其业务,并在人力和数字帮助之间取得适当的平衡。

结论

广泛采用 GenAI 的最大障碍可能是工具本身的严格性质。在与工具交互时,从 GenAI 模型中提取尽可能多的有用信息可能需要大量的特异性和谨慎。当第二次以同样的方式询问时,针对宽松的提示而生成的答案可能会发生一点或很多变化。更高级的查询或寻求更高级任务的帮助将需要更高级的提示写作技能。期望大量员工能够快速学习从当今 GenAI 模型中获取最大价值所需的各种高级即时工程技能是不现实的。公司和学术机构需要大力投资开发和部署大规模培训项目,教授基本和高级 GenAI 特定技能。随着越来越多的软件和特定于工作的应用程序直接整合 GenAI 模型(例如 Microsoft 的 Copilot、Salesforce 的 Einstein 或 Github 的 Copilot 产品),GenAI 将进入日常工作流程。这两种方法都需要时间。

全球劳动力继续老龄化,未来全球劳动力市场将需要以更少的工人来保持生产力的增长。帮助最大限度提高员工生产力的 GenAI 工具是应对这一挑战的解决方案的必要组成部分。它们可能有助于填补某些行业的技能差距,并缓解某些类型工作的需求超过劳动力现成供应的地区的劳动力市场紧张状况。但这一分析表明,GenAI 无法在紧张的市场中均匀应用。如果市场缺乏熟练的技术人员,GenAI 可能会比市场缺乏熟练的医疗保健人员提供更大的帮助。身体必要性的重要性继续凸显。

在需要亲自执行的技能比例较高的工作中,GenAI 可以帮助员工重新专注于这些角色所需的核心技能。在医疗保健领域,它可以用来帮助记录医疗工作,使护士或医生能够更多地专注于执行实际的患者护理或更多地了解它。在更加放手的、刻板的办公室工作中,GenAI 可能能够获得与职业生涯早期专业人员相同水平的知识,并能够解决中等问题。仅这一事实就强调了持续提高人类技能和在职业生涯中持续学习以追求专业知识的重要性,确保这些工具能够增强有能力的人类,而不是取代他们。

结论对所有人来说都是一样的工人:虽然 GenAI 不太可能抢走一个人的工作,但知道如何高效使用 GenAI 的人几乎肯定会抢走一个人的工作。现在是时候探索这些工具,了解它们的功能,评估它们的优点和缺点,并评估它们如何影响所有类型的工作。

方法论

这项分析利用了 Indeeds技能数据库,目前包含美国职位发布中常见的 2,800 多种技能以及这些技能的定义。使用生成人工智能本身,我们评估了 GenAI 如何在工作环境中支持这些技能。

为此评估制定的提示在几个月内进行了重新审视。我们从三个维度考察了 GenAI 的能力:提供有关该技能的理论知识的能力、将该技能应用于解决问题的能力以及实际存在对有效执行该技能的重要性。每个维度均按 5 分制评分,其中 1 分表示该维度能力极低或没有能力,而 5 分则表示熟练程度较高。然后,模型会考虑这些分数,并使用类似的 5 分评分系统,最终确定 GenAI 可以在 2,800 多种个人技能中取代人类参与的总体可能性。

我们使用了OpenAI API 将此数据发送到 GPT 版本 gpt-4o-2024-05-13 并应用温度 0。为了提高结果的稳健性,我们运行了完整分析 15 次。最终的 GenAI 评级是使用每个评级模式的这 15 次运行结果的合并。如果出现平局,则采用较低的值,这是一种保守的方法。所有输出均由人类作者审核,并进行及时修订,直到所有结果都被确定为合乎逻辑、稳健且可重复。

然后,我们将这些评估与 8 月份在美国 Indeed 上发布的招聘信息结合起来2023 年 1 月 1 日和 2024 年 7 月 31 日。我们计算了 GenAI 对代表广泛劳动力市场的 16 个职业(以及这些职业的帖子中提到的技能)的影响,以计算 GenAI 的影响某些常见工作。

关于《工作中的人工智能:为什么 GenAI 更有可能支持员工而不是取代他们 - Indeed 招聘实验室》
暂无评论

摘要

Indeed 招聘实验室评估了 OpenAI 开发的 GenAI 模型 GPT-4o 执行 2,800 多项工作技能的能力。实践问题除了提供一般知识之外,模型使用某项技能解决问题的相对能力以及应用该技能时物理执行的重要性对于确定 GenAI 在给定情况下取代人类的可能性影响最大技能。例如,几乎 78% 的典型会计职业常见技能被认为可能或有可能被 GenAI 取代,GenAI 表示,其解决问题的技能适合会计职位发布中 30.5% 的常见技能。在这个例子中,护理需要更多的技能,而 GenAI 在解决问题方面相对较差,并且需要一些动手执行,因此护理工作最终有可能被 GenAI 取代的技能比例较低。在这些情况下,虽然 GenAI 可能擅长处理实际数字,但它不能接受一批新文件,也不能在拥有业务后对其进行物理扫描,也不能嘲笑客户的笑话。