新的秘密数学基准难倒人工智能模型和博士

Epoch AI 允许菲尔兹奖获得者陶哲轩和蒂莫西·高尔斯审查该基准的部分内容。“这些都极具挑战性，”陶在给 Epoch 的反馈中说道。“我认为，在短期内，基本上解决这些问题的唯一方法是缺乏该领域真正的领域专家，而是由相关领域的研究生等半专家组成，也许与某种组合相结合现代人工智能和许多其他代数包的一部分。”

A chart showing AI model success on the FrontierMath problems, taken from Epoch AI's research paper. — 该图表显示人工智能模型在 FrontierMath 问题上取得的有限成功，摘自 Epoch AI 的研究论文。信用：时代人工智能

为了帮助在测试期间验证正确答案，FrontierMath 问题必须具有可通过计算自动检查的答案，无论是精确整数还是数学对象。设计者通过要求大量的数字答案或复杂的数学解决方案来使问题“无法猜测”，而随机猜测正确的几率不到 1%。

数学家陈埃文，在他的博客上写，解释了他认为 FrontierMath 与传统数学竞赛（如国际数学奥林匹克竞赛（海事组织）。他说，竞争中的问题通常需要创造性的洞察力，同时避免复杂的实施和专业知识。但对于 FrontierMath，“他们保留了第一个要求，但完全颠倒了第二个和第三个要求，”陈写道。

虽然 IMO 问题避免了专业知识和复杂的计算，但 FrontierMath 拥抱了它们。“由于人工智能系统具有强大得多的计算能力，因此实际上可以使用与 IOI 或欧拉计划相同的想法，通过易于验证的解决方案来设计问题——基本上，‘编写证明’被‘用代码实现算法’取代，’”陈解释道。

该组织计划根据基准定期评估人工智能模型，同时扩大其问题集。他们表示，他们将在未来几个月内发布更多示例问题，以帮助研究界测试他们的系统。

OC

新的秘密数学基准难倒人工智能模型和博士

关于《新的秘密数学基准难倒人工智能模型和博士》的评论

发表评论

摘要

相关新闻

相关讨论