像食物一样标记数据:减少人工智能偏差的秘诀 - MeriTalk

2024-09-16 19:00:38 英文原文

数据不可能是完美的,但可以使用食品标签方法进行管理,该方法反映了数据的创建者和对象,所有这些都可以增加数据在人工智能(AI)应用中的有用性,这是一项国家卫生研究院 (NIH) 官员表示。

NIH 数据科学分析和系统高级顾问 Deborah Duran 在 9 月 12 日的 NextGov/FCW 活动上发表讲话时表示,透明度是数据管理的关键没有它,人工智能系统和官员就无法理解或解释偏见。

问题在于人们认为数据只是数据,任何人都可以将其用于任何用途,但事实并非如此,杜兰说。在开发模型之前,您必须有一个意图并了解数据是什么,因为当您将数据放入该模型的那一刻,如果您没有正确准备数据或将正确的数据集放入模型中,那么您就只能现在创建了一个有偏见的模型。

美国国立卫生研究院正在通过创建杜兰创造的食品标签数据管理系统来解决这一问题,该系统告诉数据用户数据来自何处以及其预期用途。

“你们所有人都买食物,我相信你们都看过后面那个小食物,看看它有多少卡路里以及脂肪的百分比,”杜兰说。我们为清理和发布的每个数据集开发了同样的外观,但它具有所有重要的透明度问题。最初的来源是什么?采取了什么措施来清理它?它适用于谁,或者适用于什么?

使用某种食品标签方法,很简单、快捷,我可以查看它,然后说,嗯,这不符合我的需要,而且我可以继续前进,如果每个人都用他们的数据和模型做这样的事情,那么我们对数据和模型都有更好的效用,她继续说道。

Mike Horton,该部门的首席人工智能官交通运输部在同一活动中表示,各机构目前正在努力理解人工智能数据使用中的偏见,并指出,除了新的数据管理标签系统之外,该解决方案还需要建立数据基础设施的透明度。

该过程的一部分需要让人类参与进来,并将人工智能视为一个非常快的员工,拥有大量内存,但有点愚蠢,要求它使用特定的参数和训练来处理正确的数据。

<“你必须让[人工智能]变得聪明,你必须给他们正确的数据,你必须给他们这些参数,”霍顿说。你需要确保你向它提供了正确的东西,并且它对于你想要做的事情具有正确的准确性。

Duran 警告说,通过预测人工智能模型,数据的估算将合成数据添加到已有的数据集中可能会导致模型自食其果,需要了解其局限性以避免造成更大的问题。

摘要

美国国立卫生研究院 (NIH) 表示,数据不可能是完美的,但可以使用食品标签方法进行管理,该方法反映了数据的创建者和用途,所有这些都可以增加数据在人工智能 (AI) 应用中的有用性官员表示。在开发模型之前,您必须有一个意图并了解数据是什么,因为当您将数据放入该模型的那一刻,如果您没有正确准备数据或将正确的数据集放入模型中,那么您就只能现在创建了一个有偏见的模型。它适用于谁,或者适用于什么?使用某种食品标签方法,它很简单,快捷,我可以查看它,然后走,嗯,这不符合我的需要,我可以继续前进,如果每个人“用他们的数据和模型做这样的事情,那么我们就可以更好地利用数据和模型,”她继续说道。美国运输部首席人工智能官 Mike Horton 在同一活动中表示,各机构目前正在努力理解人工智能数据使用中的偏见,并指出,除了新的数据管理标签系统之外,该解决方案还需要建立透明度数据基础设施。杜兰警告说,对于预测性人工智能模型,数据的插补(将合成数据添加到现有数据集中)可能会导致模型自食其果,需要了解其局限性,以避免更大的问题长期存在。