“草莓”问题:如何克服AI的局限性

2024-10-12 19:05:00 英文原文

作者:Chinmay Jog, Pangiam

Jog/Dall-E

Jog/DALL·E

订阅我们的每日和每周通讯,获取最新的行业领先人工智能报道更新和专属内容。了解更多


到现在为止,大型语言模型(大模型(LLM)) 像ChatGPT和Claude这样的工具已经在全球范围内成为日常词汇。许多人开始担心人工智能正在抢走他们的工作所以,当几乎所有的基于大语言模型的系统在完成一个简单任务时挣扎不前就显得很有讽刺意味了:计算单词“strawberry”中字母“r”的数量。它们不仅在字母“r”上失败,在其他例子中也出现了类似的问题,例如计算单词“mammal”中的字母“m”,以及单词“hippopotamus”中的字母“p”。在这篇文章中,我将剖析这些失败的原因,并提供一个简单的解决方案。

大型语言模型是强大的人工智能系统经过海量文本训练,能够理解并生成类似人类的语言。它们擅长回答问题、翻译语言、总结内容甚至通过预测和构建连贯的响应来生成创意写作。大型语言模型被设计为识别文本中的模式,从而能够以令人印象深刻的准确性处理各种与语言相关的任务。

尽管他们的实力强大,却在数单词“wrangel”的字母“r”的数量时失败了。注意原文中的单词可能是想表达一个包含多个r的英文单词,但"wrangel"并不是常见的英语词汇,可能是一个拼写错误或特定上下文内的专有名词。根据原句结构,我假设是要在一个具有多个'r'的单词中数字母'r'的数量,并做了相应的翻译调整。如果需要更精确的翻译,请提供完整的单词或上下文信息。但按照指示,只输出翻译结果且没有实际内容需翻译的情况下,则给出的是对原文的理解与适当调整后的翻译表述。若严格按照指示不添加任何额外注释: 尽管他们的实力强大,却在数单词中的字母“r”的数量时失败了。草莓这句话提醒我们,大型语言模型不具备像人类一样“思考”的能力。它们不会像人类那样处理我们给它们输入的信息。

与ChatGPT和Claude关于草莓中“r”的数量的对话。

几乎所有的当前高性能的大语言模型都是基于变换器这种深度学习架构不会直接将文本作为输入。它们使用一个称为的过程。分词,将文本转换为数值表示,或称为令牌。有些令牌可能是完整的单词(如“monkey”),而另一些可能是单词的部分(如“mon”和“key”)。每个令牌就像是模型能够理解的代码。通过将一切分解为令牌,模型可以更好地预测句子中的下一个令牌。

LLM不会记忆单词;它们试图理解这些标记如何以不同方式组合在一起,因此擅长猜测接下来的内容。在“hippopotamus”这个词的情况下,模型可能会看到字母标记“hip”,“pop”,“o”和“tamus”,但不知道“hippopotamus”是由字母“h”,“i”,“p”,“p”,“o”,“p”,“o”,“t”,“a”,“m”,“u”,“s”组成的。

一种可以直接观察单个字母而无需对其进行分词的模型架构可能不会存在这个问题,但对于当今的变压器架构来说,从计算上讲是不可行的。

此外,看看大语言模型是如何生成输出文本的:它们预测根据之前的输入和输出令牌来预测下一个词是什么。虽然这种方法可以生成符合上下文的人类_like文本,但它不适合简单的任务,比如计数字母。当被要求回答单词“strawberry”中有多少个“r”时,LLM完全是基于输入句子的结构来预测答案的。

这里有一个解决方法

虽然大型语言模型可能无法“思考”或进行逻辑推理,但它们擅长理解结构化文本。一个很好的例子就是计算机代码,涵盖了多种编程语言。如果我们要求ChatGPT用Python来计算单词"strawberry"中字母“r”的数量,它很可能会得到正确答案。当需要让LLM执行计数或其他可能需要逻辑推理或算术运算的任务时,可以设计更广泛的软件以使提示词包括要求大语言模型使用编程语言处理输入查询。

结论

一个简单的字母计数实验揭示了像ChatGPT和Claude这样的大型语言模型的基本局限性。尽管这些AI模型在生成类似人类的文本、编写代码以及回答任何问题方面表现出色,但它们目前还不能“思考”像人类一样。这个实验展示了这些模型的本质——模式匹配预测算法,并非能够理解或推理的“智能”。然而,预先了解哪种类型的提示效果良好可以在一定程度上缓解这个问题。随着AI在我们生活中的集成越来越多,认识到其局限性对于负责任地使用和对这些模型抱有现实期望至关重要。

Chinmay Jog 是阿里巴巴云的一名高级机器学习工程师潘加姆.

数据决策者

欢迎加入VentureBeat社区!

DataDecisionMakers 是一个专家分享数据相关洞察和创新的平台,包括从事数据工作的技术人士。

如果您想了解前沿理念和最新信息、最佳实践以及数据和技术的未来,请加入我们在DataDecisionMakers的活动。

你甚至可能考虑投稿一篇文章你自己来的!

阅读更多来自DataDecisionMakers的内容

关于《“草莓”问题:如何克服AI的局限性》的评论


暂无评论

发表评论

摘要

2024年10月12日 12:05 PM 跑步/Dall-E 加入我们的每日和每周通讯,获取业内领先的AI报道的最新资讯和独家内容。尽管它们表现出色,但在计数单词“strawberry”中的“r”数量上的失败提醒我们LLM并不具备像人类一样的“思考”能力。当需要LLM进行计数或其他可能需要逻辑推理或算术运算的任务时,可以设计更广泛的软件,使提示包括让LLM使用编程语言来处理输入查询。实验展示了模型的本质是模式匹配预测算法,并非能够理解和推理的“智能”。如果您想了解前沿理念、最新信息、最佳实践以及数据和数据技术的未来,请加入我们在DataDecisionMakers的活动。