自然语言处理(NLP)能为无牙患者提供牙齿治疗的咨询吗?

2024-10-06 18:28:28 英文原文

作者:Why publish in Cureus? Click below to find out.

摘要

目标

本研究旨在评估人工智能(AI)应用程序对牙齿缺失治疗相关问题的回答的准确性和质量。

材料与方法

从Quora平台选择了15个患者/普通人群关于缺牙治疗的问题,并将这些问题分别询问了ChatGPT-4(美国加利福尼亚州旧金山的OpenAI Inc.)和Copilot(美国华盛顿州雷德蒙德的Microsoft Corporation)模型。两名专家医生使用五点李克特量表(LS)评估准确性和全球质量量表(GQS)评估质量。为了评估ChatGPT-4和Copilot的一致性和评分者间的一致性,计算了Cronbach's alpha、Spearman-Brown系数和Guttman分裂半系数来衡量两个工具的可靠性和内部一致性(α=0.05)。

结果

Copilot 的 LS 值平均为 3.83±0.36,而 ChatGPT-4 的平均值较低,为 3.93±0.32。ChatGPT-4 的 GQS 平均值(3.9±0.28)也高于 Copilot(3.83±0.06)(p<0.001)。

结论

可以这么说,AI聊天机器人能够对关于牙齿缺失的治疗问题给出高度准确和一致的答案。随着技术的不断进步,AI聊天机器人将来可以作为牙科治疗的顾问使用。

简介

人工智能(AI)是指用于执行需要人类智能的任务的软件系统的术语。通过算法和数据,它可以模拟类似人的决策过程,并完成诸如解决问题和从经验中学习等任务[1]。作为人工智能的一部分,机器学习(ML)和大型语言模型(LLM)在医学和牙科领域也被用来帮助专业人士提供更好的口腔健康服务[2]。自然语言处理(NLP),是AI的另一部分,专注于让机器理解、解释并生成类似人类的语言文本[1]。聊天机器人通常使用NLP来模拟与人类用户的对话,理解和响应用户输入的自然语言[3]。患者常常通过互联网了解他们的疾病和可能的解决方案,而人工智能聊天机器人可以快速回答患者的问题,并允许他们在任何时间访问信息[4]。

一个新的名为Chat-GPT的人工智能大型语言模型由OpenAI Inc.(位于美国加利福尼亚州旧金山)创建。ChatGPT的新版本,即GPT-4版,仅通过付费订阅的ChatGPT Plus提供[5]。在推出ChatGPT之后,微软公司(Microsoft Corporation,位于美国华盛顿雷德蒙德)发布了Bing Chat AI聊天机器人,目前被称为Copilot [5,6]。据报道,Copilot改进了一些ChatGPT-4常见的关键问题,例如通过互联网访问来保持对当前事件的更新,并为检索到的信息提供带有来源链接的脚注[6]。尽管与ChatGPT-4相比,Copilot在实时网络接入方面具有优势,但它每天仅限于100次请求,而ChatGPT-4每小时可以有70次请求 [5]。另一个不同点是,Copilot公开可用,而ChatGPT-4需要付费订阅并且访问难度更大。

尽管人工智能模型的流行度和潜在益处日益增加[4],但系统提供错误答案、生成无关内容以及将虚假信息当作事实呈现的能力,以及其缺乏专门的医学知识,在医疗等关键领域引起了严重的担忧[2,7]。由医生验证AI生成的与健康相关响应是一个重要问题,因为它可能影响患者对治疗的依从性和医患沟通[4,8]。

我们的研究目的是评估当前人工智能聊天机器人在无牙症解决方案的准确性及质量。我们向AI聊天机器人提出了关于患者的牙科假体(RDPs)、牙齿支持固定桥(FDPs)和种植治疗的问题。有一些关于ChatGPT-4及其他基于自然语言处理技术的聊天机器人的研究在牙科学领域[2-5,8]中有所报道,然而没有研究比较了不同AI聊天机器人对牙齿缺失治疗方法问题的回答情况。本研究旨在评估这两个NLP平台如何回答牙齿缺失患者的提问。零假设是聊天机器人能够以可接受的准确性和质量回答关于无牙症患者治疗的问题。

材料与方法

本研究完全在计算机上进行,不需要伦理审批。Quora 是一个广泛用于互联网问答的程序,问题的选择是通过该网站完成的。从患者缺牙常问的话题中选出了15个问题(治疗方法、种植治疗、桥体和贴面修复)(表)12024年8月30日,对ChatGPT-4和Copilot提出了类似研究中的问题[2,6,8]。每个问题都在一个新的窗口中提出,并且每个问题只问一次。使用Likert量表(LS)和全球质量量表(GQS)作为评估回复的标准[2,6,8]。在GQS中,最低可能的分数是1,最高分数是5 [2]。为了确保最高的准确性水平[8],采用了一个五点的LS。根据这个评分标准,得分为1表示聊天机器人的回答完全不准确;得分为2表示回复包含更多错误而不是正确的信息;得分为3表示正确和错误的信息数量相等;得分为4表示回复中更多的内容是正确的而不是错误的;最后,得分为5表示所有回复都是完全正确的。来自AI平台的回答由一位独立的专业口腔颌面外科医生(A.Ç.Ş.)和一位修复牙医(E.G.S.)进行评估。评分者的人数基于可靠性和一致性的最高水平来决定[9]。为了减少可能的偏见,计算了评分手之间的协议程度。

问题
1 牙冠是什么,什么时候使用?
2 我是否需要为缺失的牙齿做牙种植或桥体?
3 替换缺失牙齿的最佳选项是种植牙、桥齿或活动义齿?
4 获取牙种植体相比其他牙齿替代方法有哪些好处?
5 牙种植体和桥修复缺失牙齿的优势和劣势是什么?
6 种植牙后多久可以安装牙冠?
7 你能给种植体装一个临时牙冠吗?
8 牙冠是如何安装在种植体上的?
9 种植牙修复时,锆冠相比瓷冠有哪些好处?
10 种植体上的牙冠能使用多久?
11 在放置牙种植体冠时会有疼痛吗?
12 牙种植体冠能使用多久?
13 种植体上的牙冠比真牙上的牙冠持久吗?
14 如果牙种植体上的冠松动并掉落,是否只需要修复和更换它,而不需要重新进行整个种植过程?
15 牙冠多久需要更换一次?

统计方法

描述性统计用于表征连续变量,包括均值、标准差、最小值、中位数和最大值。对于分类变量的描述性统计,计算了频率和百分比值。在这项研究中,评估了两种不同评价工具(ChatGPT-4 和 Copilot)的内部一致性和专家间的兼容性。为了测量两个工具的一致性和可靠性,计算了 Cronbach's alpha、Spearman-Brown 系数以及 Guttman 的折半系数。使用 Kappa 整体一致性检验来比较两位观察者在同一类别中对一个分类特征评估的一致性,并根据该类别衡量超出随机性的程度。使用组内相关系数(ICC)来评估观察者之间的一致性和协议。当两个或更多观察者给出连续或有序评分时,ICC 量度这些评分的一致性程度。Bland-Altman 图用于评估两种测量间的差异是否是系统误差,并且衡量这种差异的稳定一致性。统计显著水平被设定为0.05。

结果

LS和GQS评估之间的专家相关性和一致性统计见表所示。2Copilot 的 LS 和 GQS Kappa 值分别为 0.760,表明两位专家的评分高度一致,并且结果具有统计学意义(p<0.001)。ChatGPT-4 的 GQS Kappa 值为 0.630,表示两名评估者之间的评分有相当好的一致性,并且这种一致性在统计上是显著的(p=0.015)。表中列出了 ChatGPT-4 和 Copilot 回答的 LS 和 GQS 得分的平均值和标准差。3具有平均LS值为3.83±0.36的Copilot的平均值低于ChatGPT-4(3.93±0.32)。ChatGPT-4的GQS平均值(3.9±0.28)也高于Copilot(3.83±0.06)。GQS值具有统计学意义(p<0.001)(表3根据LS分类[4]和GQS分类[8],ChatGPT-4和Copilot在专家中的得分均较高(表)4). Copilot(0.861;0.921;0.914)在所有内部一致性量表上的数值都高于ChatGPT-4(0.603;0.506;0.452)。这表明Copilot的评估结果具有高度的一致性,且结果是可靠的(见表)。5).

聊天机器人 鳞片 卡帕 (p) ICC (℗)
ChatGPT-4 LS -0.184 (0.367) -0.001 (0.500)
GQS 0.630 (0.015) 0.788 (0.003)
副驾 LS 0.760 (0.003) 0.873 (<0.001)
GQS 0.760 (0.003) 0.873 (<0.001)
鳞片 ChatGPT-4 副驾 P值
LS 平均值±标准差 3.93±0.32   3.83±0.36   0.596
中位数(最小值-最大值) 4 (3.5-4.5) 4 (3-4)
GQS 均值±标准差 3.9±0.28   3.83±0.36   <0.001
中位数(最小值-最大值) 4 (3-4) 4 (3-4)
专家们 鳞片 得分 ChatGPT-4 副驾
数字 % 数字 %
专家1 LS 低(得分1-2) 0 0% 0 0%
中等(得分3) 1 6.7% 3 20%
高(得分4-5) 14 93.3% 12 80%
GQS 低(得分1-2) 0 0% 0 0%
中等(评分3) 1 6.7% 2 13.3%
高(得分4-5) 14 93.3% 13 86.7%
专家2 LS 低(得分1-2) 0 0% 0 0%
中等(得分3) 3 20% 2 13.3%
高(得分4-5) 12 80% 13 86.7%
GQS 低(得分1-2) 0 0% 0 0%
中等(得分3) 2 13.3% 3 20%
高(得分4-5) 13 86.7% 12 80%
统计分析方法 ChatGPT-4 副驾
克隆巴赫α系数 0.603 0.861
斯皮尔曼-布朗系数 0.506 0.921
古特曼分裂半系数 0.452 0.914

讨论

研究假设未被拒绝。ChatGPT-4和Copilot根据LS和GQS分类对识别的无牙症治疗问题给出了高质量的回答。在牙科领域中已经进行了关于AI平台的研究。Suarez等人[10]报道了ChatGPT在根管治疗领域的性能得到了提升,生成二元问题答案时表现出高准确性和一致性。Mago和Sharma[11]报告称使用ChatGPT描述放射标志的准确性达到了100%。一项比较持证牙医与两个版本(3.5较早版和4.0)的ChatGPT在回答2022年欧洲骨结合牙科认证考试问题时的表现的研究表明,测试中的基于AI的聊天机器人通过了该考试,并且其表现优于持证牙医。此外还观察到,ChatGPT-4的表现优于ChatGPT-3.5[12]。Balel [3] 表示ChatGPT能够提供有效的响应来回答有关口腔颌面外科患者的查询。然而也观察到,在技术问题的背景下,这些响应的有效性可能会受到损害。Balel [3] 向ChatGPT提出了患者通常会问及颌面手术的问题,并发现根据GQS评估,回复的质量和准确性都很高。Acar[4]研究了患者利用AI平台进行医生咨询的可能性,结果显示ChatGPT提供了准确且易于理解的响应。Acar[4]报告称,关于口腔外科问题,ChatGPT-3.5、Bard和Bing的回答在GQS评分中表现优异。最近,有关透明牙套治疗和固定类型的研究在正畸学领域展开[8,13]。Dursun和Bilici Geçer [8] 评估了由ChatGPT-3.5、ChatGPT-4、Gemini和Copilot生成的关于正畸透明牙套的回答的准确性和质量。他们的研究结果表明,Copilot、Gemini和ChatGPT-4能够较好地回答有关透明牙套的常见问题。此外还观察到,Copilot在GQS评分中比ChatGPT-4得分更高。

在本研究中,采用五级LS进行评估。研究结果表明,所有AI聊天机器人模型对无牙症治疗相关患者查询的回复总体上相当准确。ChatGPT-4和Copilot生成的回复由专家评审,并发现其准确性相似。此外,使用GQS(一个全面衡量回复质量的标准)评估了回复的清晰度和一致性。两个AI聊天机器人的质量被评为良好到优秀。与Copilot相比,ChatGPT-4提供的回复在准确性和质量方面均被专家评为更高。

在我们的研究中,大多数AI聊天机器人的回答都与义齿牙科治疗有关。文献回顾显示,关于人工智能在修复牙科学中的应用的研究很少[14,15]。类似于我们研究中的问题,Freire等[15]在其研究中探讨了ChatGPT生成关于可摘局部义齿(RDPs)和牙支持固定局部义齿(FDPs)的回答的能力时报告说,与我们的发现相反,目前ChatGPT在生成有关RDPs和牙支持FDPs的回答方面能力有限。这种差异可能是因为我们研究中的问题包括了种植学和外科手术的询问。除了所有这些之外,还应注意,许多因素如AI聊天机器人的版本、提问的时间以及提问格式会改变答案。此外,Eggmann等[16]评估了像ChatGPT这样的语言模型对牙科学领域的影响。他们得出结论,为了充分利用聊天机器人在临床决策支持、患者信息告知和牙科专业人员信息告知等领域中的潜在益处,需要进一步的研究。虽然AI聊天机器人模型可能作为一种向患者提供信息的工具具有重要意义,但它们可能不能完全可靠地回答技术问题并提供信息[3,8,14,15]。Zohreh等[17]认为,在牙科中使用人工智能将提高诊断和治疗计划中的效率,但他们指出,AI应用程序不应取代人类判断。然而,Thorat等[18]在其综述中报告称,人工智能在帮助患者教育、减少预约次数以及规划诊断和治疗方面具有前景。但是,他们强调在使用AI时应优先考虑伦理问题。

这项研究的局限性在于,提出给聊天机器人的问题并不总能以相同的方式得到回答,因为互联网本质上处于不断的信息流动中。在研究中,每个问题只问了一次并且根据其答案进行了评估。此外,问题是用英语提出的,并且答案也是用英语评价的,因此无法推广到其他语言。

结论

这项研究显示,AI聊天机器人能够持续提供关于无牙症治疗的准确和高质量的答案。根据该研究结果,随着互联网上的信息流增加,AI聊天机器人在未来可以以更加可靠的方式为牙科领域的患者提供咨询。该研究未评估针对牙科专业人员的技术问题和答案。需要在此主题上进行进一步深入的研究。

关于《自然语言处理(NLP)能为无牙患者提供牙齿治疗的咨询吗?》的评论


暂无评论

发表评论

摘要

摘要 目的 本研究旨在评估人工智能(AI)应用程序对牙缺失治疗问题回答的准确性和质量。10 牙齿种植体上的人工冠可以使用多久?Copilot 的 LS 和 GQS Kappa 值为 0.760,表明两位专家评分之间有高度的一致性,并且结果具有统计学意义(p<0.001)。Acar [4] 检查了患者利用 AI 平台作为与医生咨询的潜力,证明 ChatGPT 提供了准确和易于理解的回答。Dursun 和 Bilici Geçer [8] 评估了 ChatGPT-3.5、ChatGPT-4、Gemini 和 Copilot 在正畸隐形矫治器相关问题上生成回答的准确性和质量。