用准确的成功衡量来取代期刊文章中对人工智能的炒作

围绕机器学习（人工智能的一种形式）的炒作可能会让这看起来只是时间问题在这些技术被用来解决所有科学问题之前。虽然人们经常提出令人印象深刻的主张，但这些主张并不总是经得起审查。机器学习可能有助于解决某些问题，但对解决其他问题却无能为力。

在《自然机器智能》杂志上发表的一篇新论文中，美国能源部普林斯顿等离子体物理实验室 (PPPL) 和普林斯顿大学的研究人员进行了一项研究对机器学习与求解流体相关偏微分方程 (PDE) 的传统方法进行比较的研究的系统回顾。这些方程在许多科学领域都很重要，包括支持电网聚变发电发展的等离子体研究。

研究人员发现，求解流体相关偏微分方程的机器学习方法与传统方法之间的比较通常偏向于机器学习方法。他们还发现负面结果一直被低估。他们提出了进行公平比较的规则，但认为还需要文化变革来解决看似系统性的问题。

“我们的研究表明，尽管机器学习具有巨大潜力，但目前的文献过度描绘了PPPL 计算科学副主任兼该研究首席研究员 Ammar Hakim 表示：“乐观地描绘了机器学习如何解决这些特定类型的方程。”

将结果与弱基线进行比较

偏微分方程在物理学中无处不在，对于解释自然现象特别有用，例如热、流体流动和波浪。例如，此类方程可用于计算放入热汤中的勺子沿长度方向的温度。

了解汤和勺子的初始温度，以及勺子的类型通过将勺子中的金属放入汤中，偏微分方程可用于确定器具放入汤中后给定时间沿任意点的温度。此类方程用于等离子体物理学，因为许多控制等离子体的方程在数学上与流体方程相似。

科学家和工程师开发了各种数学方法来求解偏微分方程。一种方法被称为数值方法，因为它以数字方式而不是分析或符号方式解决问题，以找到难以或不可能精确解决的问题的近似解决方案。

最近，研究人员探索了机器学习是否可以用于求解这些偏微分方程。我们的目标是比其他方法更快地解决问题。

系统评价发现，在大多数期刊文章中，机器学习并不像宣传的那样成功。“我们的研究表明，在某些情况下，机器学习在解决与流体相关的偏微分方程时可能会稍微快一些，但在大多数情况下，数值方法更快，”尼克·麦克格雷维说。McGreivy 是该论文的主要作者，最近在普林斯顿等离子体物理项目中完成了博士学位。

数值方法在准确性和运行时间之间需要进行根本性的权衡。“如果你花更多的时间来解决问题，你就会得到更准确的答案，”麦克格雷维说。“许多论文在比较时没有考虑到这一点。”

此外，数值方法之间的速度可能存在巨大差异。McGreivy 说，为了发挥作用，机器学习方法需要超越最好的数值方法。然而他的研究发现，进行比较的数值方法常常比最快的方法慢得多。

因此，本文提出了两条规则尝试克服这些问题。第一条规则是仅将机器学习方法与具有相同精度或相同运行时间的数值方法进行比较。第二个是将机器学习方法与有效的数值方法进行比较。

在研究的 82 篇期刊文章中，76 篇声称机器学习方法优于数值方法。研究人员发现，在那些宣扬机器学习方法优越的文章中，79% 实际上基线较弱，至少违反了其中一条规则。其中四篇期刊文章声称与数值方法相比表现不佳，两篇文章声称具有相似或不同的性能。

“很少有文章报告机器学习的性能较差，这并不是因为机器学习几乎总是如此做得更好，但因为研究人员几乎从不发表机器学习表现更差的文章，”McGreivy 说。

McGreivy 认为低标准比较通常是由学术出版中的不正当激励措施驱动的。“为了让一篇论文被接受，它有助于获得一些令人印象深刻的结果。这会激励你让你的机器学习模型尽可能好地工作，这是很好的。但是，如果你使用基线方法，你也可以获得令人印象深刻的结果。结果，你没有动力去改善你的基线，这很糟糕。”他说。

最终的结果是研究人员最终会努力工作。他们的模型，但不是寻找最佳的数值方法作为比较的基线。

研究人员还发现了报告偏差的证据，包括发表偏差和结果报告偏差。当研究人员意识到他们的机器学习模型的表现并不比数值方法更好后选择不发表他们的结果时，就会出现发表偏差，而结果报告偏差可能涉及丢弃分析中的负面结果或使用非标准的成功衡量标准，从而使机器学习模型变得更好。学习模型似乎更成功。

总的来说，报告偏差往往会抑制负面结果，并给人一种整体印象：机器学习比实际情况更能解决与流体相关的偏微分方程。“这个领域有很多炒作。希望我们的工作能够为使用机器学习来提高艺术水平的原则性方法奠定指导方针，”Hakim 说。

为了克服这些系统性、文化问题，Hakim认为资助研究和大型会议的机构应该采取政策来防止使用弱基线，或者要求对所使用的基线及其选择的原因进行更详细的描述。

“他们需要鼓励研究人员对自己的结果持怀疑态度，”哈基姆说。“如果我发现结果好得令人难以置信，那么它们很可能就是真的。”

更多信息：弱基线和报告偏差导致机器学习对流体相关偏微分方程的过度乐观，《自然机器智能》（2024）。DOI：10.1038/s42256-024-00897-5。www.nature.com/articles/s42256-024-00897-5