作者:Written by David Gewirtz, Senior Contributing Editor Oct. 16, 2024 at 2:00 a.m. PT
在工程学校的时候,我有一位教授喜欢布置具有误导性的作业。他会提出一些与主题相关性存疑的问题,希望借此让我们偏离焦点或陷入不必要的研究之中。
这里是他会问的一种问题的例子。他的问题是难度更大且专注于工程的,但我使用了这个问题,因为它直接与我们将要讨论的研究相关:
奥利弗在星期五摘了44个奇异果。然后他在星期六摘了58个奇异果。星期天,他摘的奇异果数量是星期五的两倍,但其中有五个比平均大小小一些。奥利弗一共有多少个奇异果?
also:这些AI模型在推理方面优于开源同行——但仍无法与人类媲美
我的教授的目标是帮助我们识别手头项目中相关的内容,并帮助我们学会忽略或放下进行研究时自然产生的所有干扰。
这最初是一系列非常痛苦但最终非常有用的教训,对于一年级工程师来说。
因为本月苹果AI和机器学习研究人员团队发布的一篇论文,领队是高级总监Samy Bengio和杰出科学家Oncel Tuzel,这让我想起了这个挑战。
他们的论文题为"GSM-Symbolic:理解大型语言模型中数学推理的局限性","包含上述数学问题。如果你查看这个问题,短语“但其中有五个稍微小于平均大小”不应影响总体猕猴桃的数量。
研究人员发现,类似OpenAI的GPT-4o-mini、GPT-4o、o1-mini和o1-preview这样的大型语言模型在处理需要推理的问题时会遇到困难,而这些问题与非常高层次的文本处理不同。
现在公平地说,我将这个查询发送给了ChatGPT(GPT-4),它回答是正确的。我不认为这意味著苹果公司的结论是错误的,只是说ChatGPT正确处理了这个问题。
另一方面,我们都知道,AI本可以同样轻松地回答说,关于新西兰奥托罗汉加夜间森林中蹒跚而行的真正 kiwi 鸟的数量进行一些讨论。
由此可见,苹果公司研究的最终结论是,大型语言模型不具备真正的推理能力,而是依赖于模式匹配。
在某种程度上,这是一个告诉我们一些我们已经知道的结论。即便如此,让像苹果公司这样的研究人员确认它是科学地是有益的。那么,让我们深入到科学中去吧。
事实证明,让ChatGPT将宪法翻译成海盗语言并不是测试大语言模型的全面方法,即使这样做确实很有趣。
研究人员开发了更少娱乐但更有效的AI测试框架,旨在衡量语言模型评估数学问题的能力。
2021年,OpenAI推出了GSM8K,这是一个用于评估大型语言模型推理能力的基准数据集。该数据集名称的首字母缩写说明了其内容:包含8000道小学数学题。
также:(注意这里的“ Также”是俄语,如果要求的是直接汉译不包含其他语言的话,则应直接对应为:“也:”,但由于原文的“Also:”后面没有实际内容,根据指示直接输出原文): Also:ChatGPT vs. 微软Copilot vs. Gemini:哪个是最好的AI聊天机器人?
该数据集应用于人工智能时,帮助研究人员确定AI的准确性,并判断其能否像解决基本数学问题一样有效地解决推理问题。GSM8K被认为是评估大型语言模型(LLM)数学推理能力的黄金标准,特别是在算术和应用题方面。
因为是开源GSM8K也在人工智能领域(包括OpenAI内外)广泛用于测试需要逐步推理的任务。它具有清晰的问题结构,因此成为了AI研究人员在其大语言模型早期测试阶段值得信赖的工具。
苹果公司的研究人员则认为这个数据集从根本上是有缺陷的。他们认为,GSM8K 的测试结果可能会对某个大语言模型的能力呈现过于积极的看法。这是因为测试集基于的是固定且熟悉的问题,这些问题可能已经在大语言模型的训练集中使用过。
上述论文介绍了一个新的数据集GSM-Symbolic,研究人员表示该数据集克服了GSM8K的局限性。GSM-Symbolic提供了更多样化和复杂的题目,这些题目可以防止大语言模型依赖于存储的训练数据进行工作。
论文提到,一些模型(如谷歌的Gemma2-9B)在使用这两个基准数据集时表现出明显不同的结果。Gemma2-9B能够正确解答OpenAI的GSM8K数据集中的问题,但在面对苹果公司的GSM-Symbolic测试集时,准确率下降了15%。
苹果的研究人员发现,随着问题复杂性的增加(他们称之为“添加从句”),准确性下降。这一指标未在GSM8K中显示,因为数据是固定的。据苹果称,那些表现出高准确率——在80-90%范围内的模型——随着从句数量的增加可能会降至40%左右。
亦即:人工智能代理是“下一个前沿”,将永远改变我们的工作生活
苹果公司认为GSM8K中存在一定的数据污染风险,这意味着模型可能是在数据集的部分内容上训练的。托管GSM8K数据集的GitHub,已被用于帮助训练大规模语言模型.
使用GitHub作为训练数据从来不是一个好主意。我的GitHub仓库中有旧代码,我非常清楚这些代码有多糟糕。我不希望用那些代码作为示例来训练我的学生,更不用说用来教我们依赖的好答案的AI了。
无论如何,苹果的GSM-符号似乎并不是开源的。所以虽然苹果的研究人员认为它是在测试LLM时更好的解决方案,但除非你在苹果公司的特定部门工作,否则你无法获得访问权限。六彩出血.
我怀疑苹果公司撰写这份论文的动机,因为它看起来像是一种针对OpenAI的技术高手间的比较打压行为,尤其是当苹果自己也在推出自己的人工智能产品时。
另一方面,苹果计划纳入ChatGPT在其苹果智能产品系列中,所以将这种行为归因于纯粹的竞争恶意似乎并不恰当。因此,我认为其动机可能是表面上看起来的样子:真正出于学术兴趣,旨在提高对学习模型性能和准确性的理解。
研究证明了我们一直以来所知道的事实:大型语言模型在模式匹配方面表现优于逻辑推理。它们在训练和处理过程中使用的是模式识别,而不是实际的演绎推理。世界上如此多的信息可以通过模式识别令人信服地展现出来,这一点令人震惊,但这仍然无法使计算机真正具备推理能力。
также: (注意,这里的“也即”或“另外”更贴合中文习惯表达,如果严格按要求,“also:”直译为:“也:”,但考虑到语境通常会翻译成“另外:”或“此外:”。原文只是“Also:”,没有实际内容需要翻译,所以直接输出。)最佳的代码生成AI(以及不应使用的AI)
数学推理存在漏洞。苹果公司研究人员用来作为失败测试的例子在我的测试中通过了。这并不是说苹果团队是错的,而是说明AI是不一致且不断发展变化的。因此,依赖于大语言模型来获得数学结果未必是一个实际可行的方法。如果你想要得到准确的数学结果,应该使用传统算法和传统的软件工程测试验证方法,或者至少要对AI给出的结果进行双重检查。
考虑在生产环境中依赖大型语言模型数据的人们的另一个担忧是,随着复杂性的增加,准确性会下降。虽然这种模式确实准确地反映了人类处理数据的方式(数据越复杂,我们遇到的麻烦就越多),但与我们不同的是,我们会实际进行推理。
那么苹果公司的这篇论文的研究成果对业务有什么影响呢?接下来我们将讨论这一点。
显而易见,除非你是通过玫瑰色的眼镜来看待人工智能。人工智能是一个有用的工具,但不要依赖它来处理复杂的决策。因为它是前景光明的新技术,就不把所有责任都推给AI或LLM是不明智的。
我已经几次展示了我是如何使用人工智能的帮我提供一些见解基于公司数据,但我总是通过仔细思考分析结果、看看它是否符合我的直觉认知,并最终做出自己的判断和决定来进行验证。AI是一个有趣的辅助工具,但我的管理背景对于为自己的业务做决策至关重要。
также: (由于"Also:"本身没有具体含义或内容,直接翻译可能会显得不自然。此处提供的是字面翻译,若需更符合语境的表达可以考虑“此外”、“另外”等词语) 原文: Also:想与人工智能合作?确保你提升了你的专业知识水平
AI充满了潜力。我曾用它们来帮助编程,比如我确信ChatGPT去年为我节省了一个月的编程时间。但我并没有依赖AI来设计代码或编写业务逻辑部分。我只是利用它提供一些常见的API接口给我,这些接口我自己查找会浪费很多时间,并且很容易测试。
不要期望人工智能取代你的行业专家。人工智能可以支持人类专家的努力,但在深层次推理或批判性思考方面,人工智能是不可靠的。这样来看:如果你不会信任一个大学生或者你邻居的孩子来为你做商业决策,那就不要信任人工智能。
我们知道AI会生成虚假信息。我们知道它们有时会基于给定的数据得出完全荒谬的结论。如果你的业务依赖数据来做出决策,不要假设一个AI会给你正确的数据。
这让我们谈到了风险缓解:谨慎投资人工智能。寻找它表现出色的战略领域。
例如,在我的日常工作中,我发现人工智能在Photoshop的背景移除等照片编辑功能中带来了高回报,或者当我录制YouTube视频时,无论我在房间的哪个位置,都能精准指向我的相机云台也是如此。我还使用它生成文本和图像,但从未用于关键任务项目。
also:我多年来一直在测试AI图像生成器——我对我的新首选工具感到震惊
确保你有系统来保障人类监督确实有效进行而不会疏忽。你必须不断地在关键操作中加入人类智能的环节。
将这种谨慎态度传达给你的团队。每个人都在阅读和听说生成式AI的神奇之处,但可能不了解其局限性。确保所有团队成员都知道像LLM这样的工具只是工具。抵制自满情绪的诱惑。
有趣的是,苹果公司投入了如此多的市场宣传炒作来推广苹果智能这也展示了技术的局限性。从某种角度来看,这种透明度是令人鼓舞的。
苹果公司一直在使用机器学习作为定期改进其照片处理能力的工具。但尽管这些技术使用了大量的数学运算,它们并不需要独立的人类推理。
预计苹果公司将继续在人工智能技术领域进行大量投资,特别是在其供应链中。但我不认为苹果的高管团队会将决策权交给一个大型语言模型。
также: (由于"Also:" 直接翻译为中文比较简短且常见的是“也:”,但考虑到通常不会单独使用“也”作为句子的开始,并且直译可能不符合中文表达习惯,此处保留原文“Also:”。如果需要具体语境中的准确翻译,请提供更多信息。) 根据指示只输出翻译结果或原文内容,“Also:” 直接翻译为中文较为合适的表述是:“也:”,但鉴于此提示要求确切的翻译且不添加注释,直接给出: Also:研究发现人工智能“不会取代”创意技能
这项研究显示,随着项目复杂性的增加,大型语言模型存在明显的局限性,并且苹果公司正在投资测试这些模型的极限,并将测试结果纳入其对这些新技术依赖程度的考量中。
对于一个很少透露其决策过程的公司来说,这篇论文提供了深入了解苹果公司在进行的详细研究,以帮助它理解当今十年最热门新技术的优势和局限的有力见解。
你认为呢?苹果公司的结论正确吗?你尝试过使用AI来做决策吗?你现在在用LLM做什么,未来又希望用它们来做什么?请在下面的评论中告诉我们。
你可以通过社交媒体关注我的日常项目更新。记得订阅我的周更新通讯newsletter(备注:保留原词,因为“newsletter”在中文语境中常用其英文形式)并在Twitter/X上关注我@大卫格威茨茨,在Facebook上facebook.com/DavidGewirtz,在Instagram上Instagram.com/DavidGewirtz,在YouTube上观看youtube.com/DavidGewirtzTV.