又来了。一名学者批评法律人工智能工具无法按预期工作,而法律科技公司则采取行动为自己辩护。反过来,让我们这些夹在中间的买家感到困惑。那么,这次到底发生了什么?
基本上,不列颠哥伦比亚大学的 Benjamin Perrin 教授于 11 月 12 日在加拿大律师协会的《国家杂志》上发表了一篇文章,解释了他使用本地版本的 Lexis+ AI 执行一些研究任务的经验,以及如何使用他对结果一点也不满意。他的结论是,考虑到该系统的挑战,他不能建议他的学生使用该系统,至少根据他所看到的情况。
您可以看到这里有几个主张。
这些主张围绕着一系列尝试,以获取提示以产生与法律研究相关的结果,例如让基于法学硕士的系统起草与最高法院有关的动议,并提供摘要。例如。正如佩林所解释的:我首先要求 Lexis+ AI 起草一份动议获得许可介入对持有毒品罪的宪法质疑。”
但是,LexisNexis 向本网站解释说,Lexis+ AI 有四个主要的“起草用例:论证、备忘录、信件/电子邮件和条款”,但不适用于起草动议。
然后他尝试了其他提示。例如: – 我要求 Lexis+ AI 总结加拿大最高法院关于参议院改革的参考资料。它没有生成原始摘要,而是简单地逐字复制案例的摘要。然后是进一步的提示,以提出这一连串的问题。
但是,Lexis 表示,他们的系统尚未设计用于处理与加拿大摘要相关的多轮对话。还不清楚在这些情况下系统是如何提示的,以及什么会导致摘要作为响应到达。
此外,“我向 Lexis+ AI 提出了一些我所教授和熟悉的法律领域的法律问题,例如“刑法中因果关系的检验是什么?”得到的答复简洁、自信并与实际案例联系起来,但内容却错误百出。”现在看来,确实是落地了。
18号晚th11 月(即昨晚),杰夫·普法伊弗LexisNexis 北美和英国首席产品官发表了一条评论,该评论已发送给 Artificial Lawyer。他们指出:“Perrin 教授尚未与 LexisNexis 联系,但我们欢迎有机会探讨他的建议,以改善产品体验。”
注:然而,Perrin 教授刚刚通过社交媒体告诉本网站以下内容:“我在 2024 年 9 月 10 日的教师培训课程中向 LexisNexis 提出了担忧。”
回复还阐述了 Lexis+ AI 如何与加拿大律师进行密切合作,到目前为止,客户似乎很满意。
从伦敦很难判断这一点,但在这里,Artificial Lawyer 最近采访了两位使用该系统的英国主要公司的法律创新负责人,两人似乎都对从该工具中获得的结果感到满意。但是,我们得到的是来自一个小型调查小组的积极和消极的回应。如果我们得到 Lexis+ AI 100 名客户的反馈,那么这在两个方面都更有意义。
也就是说,看来Perrin确实发现了一些容易出错的地方– 除了未能起草动议之外 – 这些显然需要解决。
这里的问题是,这不是一个科学测试,而是一些提示没有达到教授想要的结果。然而,他的批评可能来自任何用户,所以这至少表明人们如何使用该系统与 LexisNexis 和其他法律人工智能工具的法律技术供应商期望或希望他们如何使用该系统之间仍然存在差距。
从外部看,就像聆听一场审判,你听到控方主要证人的一段片段,以及辩方主要证人的一些评论,但你无法真正听到查看全貌。这使得这里的判断变得非常困难。
这强调了在人工智能准确性方面需要明确的基准,即如果教授知道该工具可以做什么以及从他使用的提示中可以期待什么,结果会是同样的吗?那么,谁有责任确保用户知道如何从平台获得最好的效果呢?这必须与软件的卖方有关。
但是,总体而言,虽然有点让人想起今年夏天的“斯坦福大学惨败”,但这似乎并不完全在同一水平上。尽管如此,LexisNexis 仍然感到尴尬,无论佩林对动议有什么误解,他的其他一些批评似乎确实有效。
那么,这会给我们带来什么影响呢?嗯,正如过去所说,这些系统在不断发展。RAG 越来越好了。用户看不到的后端系统提示也变得更加精致。
但是,一项正在进行的工作,用户可能无法完全了解可以做什么和不能做什么,将会造成不信任和此类故事。这是推出产品时用户期望值过高的症状,当事情没有按预期发生时,就会出现强烈的幻灭感。
与以往一样,答案似乎是围绕更好的沟通和共享标准的开发。例如。更多地解释这些工具可以做什么、它们的局限性是什么、哪里会出现问题,以及如何对准确性做出自己的判断。
如果您只是向好奇而聪明的用户扔一个强大(但有时不完美)的工具,那么您就会遇到错误,而这些错误会引发用户的愤怒和怀疑。简而言之,虽然技术改进是答案的一部分,但上述方面的更好沟通也同样重要。
任何道路,以下是其他一些关键部分杰夫·普法伊弗 (Jeff Pfeifer)评论,特别是关于 Lexis+ AI 如何解决准确性问题:
首先,Lexis+ AI 提供对基础案例和立法的引用权威参考的链接验证,以帮助证实输出并减轻幻觉风险。如果引文没有超链接,该产品建议进一步审查。
其次,在快节奏的大语言模型(LLM)演进中,检索增强生成(RAG)和微调是确保最高答案质量的最佳方法。LexisNexis 通过增强的专有技术专注于人工智能答案质量
RAG 平台,现在包括用于复杂且细致的法律查询的 AgenticRAG 功能。我们专有的 RAG 基础设施使我们能够确保 Lexis+ AI 响应基于我们广泛的当前独家法律内容存储库,最终通过最新的经过验证的引文参考文献获得最高质量的答案。由于持续的技术发展,我们看到答案和引文质量逐周提高。
第三,LexisNexis 还采用了其他技术来提高我们回复的质量,例如专有元数据、知识图谱和引文网络技术的使用以及分类服务等。每个都有助于识别最相关的法律权威来支持用户的问题。
重要的是,LexisNexis 正在人类监督下负责任地开发合法的人工智能解决方案。LexisNexis 是 RELX 的一部分,遵循 RELX Responsible AI 原则,考虑我们的解决方案对人们的现实影响,并采取行动防止不公平偏见的产生或强化。重要的是,人类对人工智能系统的开发、使用和结果拥有所有权和责任。我们在解决方案的整个生命周期中进行适当程度的人工监督。这是确保我们解决方案的质量和适当性能的核心。
Perrin教授建议,与人工总结的案例相比,用户更喜欢人工智能总结的案例。我们感谢他的建议,并将在未来的产品开发中考虑这一点。”