Epoch AI 允许菲尔兹奖获得者陶哲轩和蒂莫西·高尔斯审查该基准的部分内容。“这些都极具挑战性,”陶在给 Epoch 的反馈中说道。“我认为,在短期内,基本上解决这些问题的唯一方法是缺乏该领域真正的领域专家,而是由相关领域的研究生等半专家组成,也许与某种组合相结合现代人工智能和许多其他代数包的一部分。”
为了帮助在测试期间验证正确答案,FrontierMath 问题必须具有可通过计算自动检查的答案,无论是精确整数还是数学对象。设计者通过要求大量的数字答案或复杂的数学解决方案来使问题“无法猜测”,而随机猜测正确的几率不到 1%。
数学家陈埃文,在他的博客上写,解释了他认为 FrontierMath 与传统数学竞赛(如国际数学奥林匹克竞赛(海事组织)。他说,竞争中的问题通常需要创造性的洞察力,同时避免复杂的实施和专业知识。但对于 FrontierMath,“他们保留了第一个要求,但完全颠倒了第二个和第三个要求,”陈写道。
虽然 IMO 问题避免了专业知识和复杂的计算,但 FrontierMath 拥抱了它们。“由于人工智能系统具有强大得多的计算能力,因此实际上可以使用与 IOI 或欧拉计划相同的想法,通过易于验证的解决方案来设计问题——基本上,‘编写证明’被‘用代码实现算法’取代,’”陈解释道。
该组织计划根据基准定期评估人工智能模型,同时扩大其问题集。他们表示,他们将在未来几个月内发布更多示例问题,以帮助研究界测试他们的系统。