英语轻松读发新版了,欢迎下载、更新

人工智能发展了:是时候进行更好的评估和成绩单

2025-04-30 13:30:00 英文原文

作者:by Liya Palagashvili and Revana Sharfuddin, opinion contributors

In this photo illustration, Llama 4 AI model is displayed on a smartphone screen with Meta logo in the background on April 8, 2025 in Beijing, China. (Photo by VCG/VCG via Getty Images)

在这张照片插图中,Llama 4 AI模型在2025年4月8日在中国北京的智能手机屏幕上显示。(VCG/VCG通过Getty Images摄影)

新的Llama4型号据说是由Meta推出的无与伦比的速度和效率。但是,这实际上使它成为最好的AI吗?未必。

AI模型通常会获得标准的及格成绩基准和排行榜,但是在现实世界中使用时仍然会犯下令人尴尬的错误。

例如,Google的双子座应该拥有表现优于人类专家,根据几个基准。但是,AI创建了进攻历史图像无论如何 

其他领先的AI模型具有一个 关于真实的人撒谎,建议企业一个 犯法和 排除某些人群从找工作。这表明我们评估AI的有效性的方法不转化为现实世界的应用和结果。 

我们需要更全面地评估AI的成绩单。

如今,根据基准测试了AI模型,这些基准通常衡量模型执行某些任务的能力。流行指标的示例包括模型的准确程度 回答问题,它如何准确地确定了下一个逻辑结果一个 一系列事件,好多一个 写代码和 了解图像以及是否一个 人们喜欢AI的内容。这些指标中有几个是AI在社会中较差和普遍存在的时代的文物,并且它们可以准确地衡量AI今天执行该任务的能力。 

虽然自动驾驶汽车需要正确识别其载板传感器的物体,但仅这就不足以避免碰撞。

他们还需要了解流量将如何移动以及如何快速响应不稳定的不安全驾驶员。 

旨在帮助进行困难的医学诊断或雇用决定的AI不应采用培训数据集固有的种族,社会经济和种族偏见。但是,如果AI在无法评估这些领域的性能的基准上获得及格成绩,则该模型看起来可能比实际的能力更有能力。” 

在新兴的高风险应用程序中,后果可能会令人不安。

为了真正了解AI的性能,我们需要开发以结果为重点的基准,这些基准与当今的应用领域更相关。是否想制作一个可以提供法律或商业建议的聊天机器人?我们需要知道其建议是否合法,可行并带来预期的结果。 

我们还需要了解AI的其他费用。它的收益是否值得不断增长的水和能源成本,我们是否对其使用的所有长期影响感到满意?

我们如何获得更有效的基准? 

首先,AI开发人员需要了解什么使他们的产品从利益相关者和客户的角度有效。有了这些知识,公司和基准开发人员可以确保他们的数据可以充分评估AI。 

我们还需要学习如何更好地确定,检测和最大程度地减少AI向公众发起的有害,意外的后果。AI开发人员与医疗,商业和法律专业人员之间的合作对于真正的成功至关重要。

基准开发人员还需要确保用于基准测试的数据也不是用于训练AI,这可能会使AI通行证有效,因为它已通过熟悉的数据进行了评估。 

理想情况下,基准和AI开发人员将协调以确保对数据集进行培训和基准测试不会重叠。当这很困难或不可能时,基准开发人员需要保持其数据集新鲜,以减少基准数据意外吸收到培训数据中的机会。” 

有效的基准将需要持续维护;随着基准增长的增长,与培训数据重叠的风险会增加。

决策者还可以通过提出正确的激励措施来确保我们获得有效的AI基准。认证可以帮助公司证明,如果他们需要由人类专家验证的透明,以结果为中心的基准,则其AI是有效的。法规还可以执行最佳实践,例如测试AI模型的公共版本,而不是测试 优化的分支,以及确保基准是透明且相关的。 

但是,要使法规有效,我们将需要新的专用机构来制定和执行标准,因为AI并不巧妙地属于现有机构的管辖区。

AI是一种强大的工具,有可能造成很多好处和很多伤害。功能性基准和基准策略可以帮助我们向正确的方向推动AI。

LuâWangâ是密歇根大学的计算机科学与工程学副教授,David Jurgens是密歇根大学信息学院的信息副教授,密歇根大学工程学院电气工程与计算机科学副教授。他们是合着者野外AI系统的评估框架。”

版权所有2025 Nexstar Media Inc.保留所有权利。该材料可能不会出版,广播,重写或重新分布。

关于《人工智能发展了:是时候进行更好的评估和成绩单》的评论


暂无评论

发表评论

摘要

Meta最近推出了Llama4,这是一种AI模型,以其速度和效率而吹捧。但是,鉴于领先的AI模型通常在基准中表现出色,但在现实世界中的应用中失败,因此这种说法的有效性值得怀疑。例如,尽管通过基准测试,但Google的双子座还是制作了令人反感的历史图像。仅基于传统指标(例如准确性和效率)评估AI可能会产生误导;未来的评估应更全面地关注道德考虑因素,社会影响和实际成果,以确保AI技术的真正有效性和安全性。