英语轻松读发新版了,欢迎下载、更新

生成式人工智能的 80/20 问题 — 用户体验研究洞察

2024-12-21 16:31:38 英文原文

作者:Zombor Varnagy-Toth

当法学硕士正确解决任务 80% 时,通常只相当于用户价值的 20%。

Zombor Varnagy-Toth

Towards Data Science

帕累托原则说,如果你解决了 20% 的问题,你就获得了 80% 的价值。对于生成式人工智能来说,情况似乎恰恰相反。

作者简介:Zsombor Varnagy-Toth 是 SAP 的高级用户体验研究员,拥有机器学习和认知科学背景。使用定性和定量数据进行产品开发。

我第一次意识到这一点是在我研究使用法学硕士撰写营销文案的专业人士时。我观察到,当这些专业人士开始使用法学硕士时,他们的热情很快就消失了,大多数人又回到了手动编写内容的旧方式。

这是一个完全令人惊讶的研究发现,因为这些专业人士承认人工智能生成的内容还不错。事实上,他们发现它出乎意料地好,说80%好。但如果是这样,为什么他们仍然依赖于手动创建内容呢?为什么不采用 80% 的人工智能生成的优质内容,然后手动添加最后 20% 的内容?

这是直观的解释:

如果你有一首平庸的诗,你不能仅仅通过在这里或那里替换几个词来把它变成一首伟大的诗。

假设,您有一栋 80% 建造良好的房子。或多或少还可以,但墙不直,地基也薄弱。您无法通过一些额外的工作来解决这个问题。你必须把它拆掉并从头开始建造它。

我们进一步研究了这一现象并确定了其根源。对于这些营销专业人士来说,如果一份文案的质量只有 80%,那么他们在文本中就没有任何单独的部分可以替换以使其达到 100% 的质量。为此,整个文案需要逐段、逐句地重新修改。因此,从 AI 的 80% 到 100% 所需的努力几乎与从 0% 到 100% 的手动操作一样多。

现在,这有一个有趣的含义。对于此类任务,法学硕士的价值是“全有或全无”。它要么表现出色,要么毫无用处。两者之间没有什么。

我们研究了几种不同类型的用户任务,并发现这种逆帕累托原理会影响特定类别的任务。

  • 不易分解
  • 任务规模大
  • 100% 质量预期

如果不满足这些条件之一,则逆帕累托效应不适用。

例如,编写代码比编写散文更具可组合性。代码有其单独的部分:可以单独挑选和修复的命令和函数。如果人工智能将代码提高到 80%,那么实际上只需要大约 20% 的额外努力就可以达到 100% 的结果。

至于任务规模,法学硕士在撰写简短的文案(例如社交帖子)方面非常有用。法学硕士生成的简短内容仍然是“全有或全无”——要么好,要么毫无价值。然而,由于这些副本都很简短,人们可以一次生成十个副本,并在几秒钟内找到最好的一个。换句话说,用户不需要解决 80% 到 100% 的问题,他们只需选择最初 100% 成功的变体即可。

至于质量,有些用例不需要专业级质量。例如,内容工厂可能对 80% 的优质文章感到满意。

如果您正在构建一个由法学硕士支持的产品,该产品涉及大任务那是难以分解但用户预计会产生100% 品质,你必须围绕 LLM 构建一些东西,将其 80% 的表现变成 100%。它可以是后端的复杂提示方法、额外的微调层,或者是各种工具和代理的认知架构,它们协同工作以解决输出问题。无论这个包装器做什么,都可以带来 80% 的客户价值。这就是埋藏宝藏的地方,LLM 只贡献了 20%。

这一结论与红杉资本的观点一致Sonya Huang 和 Pat Grady 的主张人工智能领域的下一波价值将由这些“最后一英里应用程序提供商”创造,这些包装公司知道如何跨越最后一英里,创造 80% 的价值。

关于《生成式人工智能的 80/20 问题 — 用户体验研究洞察》的评论


暂无评论

发表评论

摘要

大型语言模型 (LLM) 的有效性常常达不到用户的期望,特别是对于需要高质量输出的复杂任务。Zsombor Varnagy-Toth 的研究强调,虽然法学硕士可以达到 80% 的准确率,但这只能为需要近乎完美结果的用户提供最小的价值。这种现象被描述为逆帕累托原理,即人工智能的初步改进几乎不会带来总体效益,除非任务可以轻松分解并且输出可以有效地微调。范围大、难以分解、要求 100% 质量的任务受到的影响最大。关键的一点是,法学硕士对于此类任务的价值更多地在于后处理的改进,而不是其主要输出,这表明需要辅助工具或方法来将人工智能生成的内容增强到完美。