阿拉斯加的法院系统构建了一个人工智能聊天机器人。进展并不顺利。
作者:By Jared Perlo
亲人去世后处理其遗物绝非易事。但正如阿拉斯加州法院发现的那样,不准确或具有误导性的人工智能聊天机器人很容易使事情变得更糟。
一年多来,阿拉斯加法院系统一直在设计一款名为“阿拉斯加虚拟助手”(AVA) 的开创性生成式人工智能聊天机器人,以帮助居民浏览遗嘱认证所涉及的错综复杂的表格和程序网络,遗嘱认证是从死者手中转移财产的司法程序。
然而,原本在增加诉诸司法的机会方面,人工智能驱动的快速飞跃却演变成一场漫长的、长达一年的旅程,并受到错误的开始和错误的答案的困扰。
AVA 的顾问奥布里·苏扎 (Aubrie Souza) 说:“AVA 本来应该是一个为期三个月的项目。”国家法院中心(NCSC),他致力于并见证了 AVA 的发展。“我们现在已经超过一年零三个月了,但这都是因为需要进行尽职调查才能做到这一点。”
设计这种定制的人工智能解决方案揭示了美国各地的政府机构在将强大的人工智能系统应用于真实性和可靠性至关重要的现实问题时所面临的困难。
“对于这样的项目,我们需要 100% 准确,而这对于这项技术来说确实很困难,”该公司的行政总监 Stacey Marz 说道。阿拉斯加法院系统也是 AVA 项目的领导者之一。
– 我在其他技术项目上与我的员工开玩笑说,我们不能指望这些系统是完美的,否则我们永远无法推出它们。一旦我们获得了最低限度可行的产品,我们就将其推出,然后我们将在学习过程中对其进行增强。”
但马兹表示,她认为这个聊天机器人应该达到更高的标准。– 如果人们从提示中获取信息并据此采取行动,但信息不准确或不完整,他们确实可能会受到伤害。这可能会对个人、家庭或财产造成难以置信的损害。”
虽然许多地方政府机构正在尝试使用人工智能工具来帮助居民申请驾驶执照到加快市政雇员处理住房福利的能力, 一个德勤最近的报告研究发现,只有不到 6% 的地方政府从业人员优先考虑将人工智能作为提供服务的工具。
AVA 的经验表明,政府机构在尝试利用人工智能提高效率或提供更好的服务时面临的障碍,包括对高风险背景下可靠性和可信度的担忧,以及在快速变化的人工智能系统中人类监督作用的问题。这些限制与今天的情况发生冲突人工智能炒作猖獗并有助于解释之间更大的差异人工智能投资蓬勃发展和人工智能的采用有限。
Marz 将 AVA 项目设想为阿拉斯加项目的尖端、低成本版本家庭法热线该中心由法院工作人员组成,提供从离婚到家庭暴力保护令等法律事务的免费指导。
“我们的目标基本上是尝试用聊天机器人复制我们将由人类协调员提供的服务,”Marz 告诉 NBC 新闻,他指的是 AVA 的律师、技术专家和来自 NCSC 的顾问团队。“我们想要一种类似的自助体验,如果有人能够与您交谈并说:“这就是我需要帮助的事情,这就是我的情况。”
虽然 NCSC 提供了一笔初始拨款,作为其项目的一部分,让 AVA 启动。人工智能方面的工作不断增多该聊天机器人的技术开发者是律师兼法学教授汤姆·马丁 (Tom Martin),他创办了一家专注于法律的人工智能公司,名为法律机器人并设计合法的人工智能工具。
在描述 AVA 服务时,Martin 强调了设计过程中的许多关键决策和考虑因素,例如选择和塑造人工智能系统的个性。
多位评论员和研究人员已经说明了人工智能系统的某些模型或版本如何以不同的方式表现,几乎就像它们采用不同的角色一样。研究人员甚至用户可以改变这些角色正如许多 ChatGPT 用户发现的那样,通过技术调整今年早些时候当 OpenAI 服务的性格在滔滔不绝、阿谀奉承或情感疏远之间波动时。其他模型,例如 xAI 的 Grok,以护栏较宽松和更愿意接受有争议的话题。
“不同的模特有几乎不同类型的性格,”马丁告诉 NBC 新闻。“他们中的一些人非常擅长遵守规则,而另一些人则不那么擅长遵守规则,并且想证明自己是房间里最聪明的人。”
“对于合法的申请,你不希望这样,”马丁说。“您希望它遵守规则,但又聪明,并且能够用简单的语言解释自己。”
即使是本来会受到欢迎的特征,当应用于像遗嘱认证这样重要的主题时也会变得更加成问题。NCSC 的 Souza 与 Martin 合作指出,早期版本的 AVA 过于善解人意,让用户感到恼火,他们可能一直在悲伤,只是想得到遗嘱认证过程的答案:“通过我们的用户测试,每个人都说,‘我厌倦了生活中的每个人都告诉我,他们对我的损失感到抱歉。’”
“所以我们基本上消除了这些哀悼,因为从人工智能聊天机器人中,你不再需要这样的哀悼,”苏扎说。
除了系统肤浅的语气和寒暄之外,马丁和苏扎还必须应对严肃的问题幻觉问题,或人工智能系统自信地分享虚假或夸大信息的情况。
“无论哪种模型,我们都遇到了幻觉问题,聊天机器人不应该实际使用其知识库之外的任何内容,”苏扎告诉 NBC 新闻。“例如,当我们问它:“我在哪里可以获得法律帮助?”它会告诉您,“阿拉斯加有一所法学院,因此请查看校友网络。”但是阿拉斯加没有法学院。”
马丁进行了大量工作,以确保聊天机器人仅引用阿拉斯加法院系统遗嘱认证文件的相关领域,而不是进行更广泛的网络搜索。
整个AI行业,AI幻觉随着时间的推移而减少如今所构成的威胁甚至比几个月前还要小。许多公司构建人工智能应用程序,例如人工智能代理提供商 Manus,最近被 Meta 以超过 20 亿美元的价格收购,强调其服务的可靠性,并包括多层人工智能驱动的验证,以确保其结果准确。
为了评估 AVA 答复的准确性和有用性,AVA 团队设计了一组有关遗嘱认证主题的 91 个问题,例如,询问聊天机器人,如果用户想要将已故亲属的汽车所有权转移到自己的名下,则适合提交哪种遗嘱认证表格。
然而,阿拉斯加法院系统司法服务主管珍妮·佐藤 (Jeannie Sato) 表示,考虑到眼前的利害关系和人工审查的需要,事实证明,这项包含 91 个问题的测试过于耗时,无法运行和评估。
因此,佐藤表示,团队制定了一份仅包含 16 个测试问题的细化清单,其中包括“一些 AVA 回答错误的问题、一些复杂的问题以及一些我们认为 AVA 可能会经常被问到的非常基本的问题。”
成本是佐藤和 AVA 团队面临的另一个关键问题。AI系统的新迭代和新版本引起了使用费急剧下降,AVA 团队认为,鉴于法庭预算有限,这是人工智能工具的一个关键优势。
Martin 告诉 NBC 新闻,在一种技术设置下,20 个 AVA 查询只需花费约 11 美分。“我以使命为导向,这关系到我帮助世界各地的人们所产生的影响,”马丁说。“当然,为了能够完成这一使命,成本极其重要。”
然而,为 AVA 的答案提供动力的不断变化和先进的系统,例如OpenAI 的 GPT 系列模型,意味着管理团队可能必须持续定期监控 AVA 的任何行为或准确性变化。
– 我们预计需要进行定期检查,并可能随着新产品的出现和其他产品的退役而更新提示或模型。这绝对是我们需要掌控的事情,而不是完全不干涉的情况,”马丁说。
尽管经历了多次断断续续的调整,如果一切按计划进行的话,AVA 目前仍计划于 1 月下旬推出。就 Marz 而言,她对 AVA 帮助阿拉斯加人进入遗嘱认证系统的潜力保持乐观,但对人工智能当前的局限性更加清醒。
“我们确实稍微改变了这个项目的目标,”马兹说。– 我们希望复制自助中心的人类协调员能够与人们分享的内容。但我们并不相信机器人能够以这种方式工作,因为存在一些不准确和不完整的问题。但也许随着模型更新的增加,这种情况将会改变,准确性水平将会提高,完整性也会提高。”
“做这件事非常耗费人力,”Marz 补充道,尽管“关于生成式人工智能的讨论很多,而且每个人都说这将彻底改变自助方式并使诉诸法庭的机会民主化。”要真正实现这一目标是一个相当大的挑战。
Jared Perlo 是一位研究人工智能的研究员。他得到了塔贝尔人工智能新闻中心的支持,他的作品由 NBC 新闻独家制作。