Brain MRI报告的自动化Fazekas分类：GPT-4的人工智能方法

抽象的

背景

这项研究重点是评估GPT-4在基于Fazekas量表分类的放射学报告中的有效性和可靠性，这是评估脑MRI中白质信号异常的关键工具。我们应用了合成数据创建和两个特定的GPT模型Sinteticrmfazekasgpt和Fazekasgpt，以生成和分析50个合成放射学报告。该研究将GPT-4的表现与神经放射科医生的专家判断进行了比较，该判断是大脑MRI报告的Fazekas分类。

结果

我们的分析包括应急表和科恩的kappa，以供评分者间协议。计算了观察到的一致性与预期一致性之间的差异的重要性，I型误差的阈值为5％。关于Fazekas 0，GPT-4与神经放射科医生之间的协议总计（100％），Fazekas 2和Fazekas 3。在Fazekas 1的15个报告中，只有13个（86.7％）被GPT-4正确地分类为GPT-4，其余的2（13.3％）分类为Fazekas 2（28％），总计28％。Cohen的Kappa值为0.94（p<0.001），表明几乎是完美的一致性。结论

我们报道了GPT-4在大脑MRI报告中自动获得Fazekas分类的新颖应用。

结果表明，GPT-4是从Brain MRI报告中获得Fazekas分类的有前途的支持工具。

介绍

人工智能（AI）的整合，尤其是大型语言模型（LLM），例如GPT-4和CHATGPT，是放射学实践中的，这是医学诊断的变革性挑战。这些先进的AI系统在将非结构化的放射学报告转换为结构化格式，可能彻底改变放射学工作流程和疗程间的交流方面提供了有希望的途径[1，，，，2]。这种进步可能有助于有效的数据管理，并提高了放射学解释的清晰度，可能有助于患者护理和临床决策[3，，，，4]。

Fazekas量表是评估白质信号异常（特别是T2-Flair高强度）的众所周知的工具，通常在脑磁共振成像（MRI）研究中观察到[5]。该量表广泛用于临床和研究环境中，强调了其诊断重要性。它将这些白质超强度（WMH）分类，这些高密度性（WMH）在各种神经系统条件（例如认知障碍和血管痴呆症）中可以看出，根据其强度和分布[6，，，，7，，，，8]。这种分类有助于理解这些病变的严重性和潜在临床影响，反映出脑白质参与程度。

向结构化放射学报告的过渡代表了一个重大的范式转移，解决了传统报告格式的固有局限性，并且目前正在各种应用中测试ChatGPT和GPT-4对放射学结构化报告的潜在贡献[9，，，，10]。

目前尚不清楚Chatgpt是否可以根据大脑MRI的放射学报告提供Fazekas分类。因此，在本研究中，我们旨在对GPT-4在Fazekas量表分类中的有效性和可靠性进行深入分析，并与放射科医生的专家判断并列。该研究旨在为放射学中AI的不断发展的景观提供宝贵的见解，从而强调人类专业知识与AI创新之间的协同作用。

材料和方法

不需要道德委员会批准，因为没有涉及患者或可识别的数据。数据搜索是在2023年12月进行的。

合成大脑MRI报告创建

创建并制定了合成的大脑MRI报告，并制定了模仿现实世界的报告。报告中存在可变的白质病变，包括深，脑周期或两者兼而有之。

我们采用了GPT-4和两个特定的“ GPT”（生成预训练的变压器），这是Openai在人工智能领域中引入的新型功能。正如OpenAI所定义的那样，GPT是创建定制版本的GPT-4的创新方法，该版本是针对日常生活，特定任务，工作或家庭以及具有共享功能的。这种自定义使用户可以将这些AI模型适应本研究的特定需求。这两个模型如下：

Sinteticrmfazekasgpt：该模型用于生成综合报告，创建模拟真实报告并在Fazekas量表下进行各种信息的数据。
Fazekasgpt：该模型分析了合成报告，模仿了放射科医生的方法。它的目标是识别和分类报告中与Fazekas量表相关的任何发现，并分配适当的分类级别。Fazekasgpt代表定制GPT的特定应用，用于准确可靠的放射学数据分析。

示例生成的报告：

以下示例说明了使用sinteticrmfazekasgpt生成的合成脑MRI报告的样式和内容：

大脑的MRI在周围或深白质区域都没有表现出白质超强度。（Fazekas 0）
存在轻度脑室周围白质超强度，没有融合，没有深白质的参与。（Fazekas 1）
注意到中等脑室周围的高强度，并注意到汇合和散落的深白质病变。（Fazekas 2）
看到严重和汇合的白质超强度涉及周围和深的白质区域。（Fazekas 3）

所有报告首先通过两位研究人员的共识进行了验证：一位专家神经放射科医生（C.A.M.，12年的经验）和一名放射学居民（A.C.S.，F4年的经验）。然后，专家神经放射科医生（C.A.M.，12年的经验）对Fazekas量表进行了评级。

数据分析

通过GPT-4生成和分析报告后，我们将Fazekasgpt提供的评级与专家神经放射科医生提供的评级进行了比较。我们组织和标记了数据，以确保始终记录来自神经放射科医生和LLM的Fazekas分类。Fazekas分数以计数和百分比为单位，并在4 2个应急表中列出。为了评估神经放射科医生和GPT-4之间的一致性，我们采用了Cohen kappa（Îº），一种统计系数，衡量偶然的评估者一致性。这Îº价值范围从1（总分歧）到1（完美的一致），其值高于0.80，通常被解释为几乎是完美的一致性。除了Kappa统计数据外，我们还报告了观察到的协议（即评估者同意的分类百分比）和偶然的预期协议，该协议是根据评级的边际频率计算得出的。统计意义的Îº使用两尾测试评估值，I型错误的P值阈值设置为0.05（5％）。使用Stata进行统计分析（版本16.0，StataCorp，www.stata.com）。

结果

我们的研究包括50个报告，这些报告分布在各种Fazekas分类等级中：5（10％）Fazekas 0，15（30％）Fazekas 1，15（30％）Fazekas 2和15（30％）Fazekas 3。

关于Fazekas 0，Fazekas 2和Fazekas 3，GPT-4与神经放射科医生之间的协议总计（100％）。

不同的差异，在Fazekas 1的15个报告中，只有13个（86.7％）由GPT-4正确分类，而其余的2个（13.3％）分为Fazekas 2，如表所示。 1和图 1。这两个不一致的案件涉及由神经放射科医生归类为Fazekas 1的报告，而GPT-4的Fazekas 2。这些差异可能源于报告中的边界语言或模棱两可的措辞，例如在没有明确量化的情况下对病变分布的描述。这强调了标准化术语在放射学描述中的重要性，并突出了潜在的领域，在这些领域中，迅速改进或其他模型培训可能会减少错误分类。

表1的表1的表现表，神经放射科医生和GPT-4报告的Fazekas分数分布

总体而言，该协议为96％，而预期的机会协议为28％。Cohen的Kappa值为0.94（p<<0.001），表示几乎完美的协议[11]。讨论

我们的研究重点是评估GPT-4在根据Fazekas量表对50个放射学报告进行分类中的精度，并与专家神经放射科医生的评估并列。

该分析包含不同程度病变的报告。研究结果表明，神经放射科医生和GPT-4之间几乎是一个完美的一致性，强调了LLM在解释大脑MRI报告中进行Fazekas分类的有效性。此任务代表了经过GPT-4测试的新颖努力，并且它具有帮助从Fazekas Classeicing Fire-Free-Free-Free-Brain Mrii MRI MRI MRI MRI MRI MRI MRI MRI MRI MRI持有潜力，以帮助您有潜力。

Fazekas量表是一种基本且广泛接受的工具，甚至在诊断脑白质变化方面越来越超出其传统作用[5，，，，7]。例如，最近的研究应用了它来检查血液标记与痴呆之间的联系，帮助对疾病的早期检测和监测或研究神经红细胞增多对认知功能和疲劳的影响[12，，，，13]。这些应用突出了该规模在医学研究中的多功能性，强调了其在放射学评估和更广泛的医疗状况中的重要性，从而增强了我们对神经系统疾病以及医学诊断和预后方法的了解。

放射学中的标准化结构化报告已成为一个引起人们极大兴趣的话题。实际上，结构化报告可能会增强跨机构的共享语言，沟通，结果解释，分类，工作流以及研究和健康管理的数据分析[14，，，，15]。

鉴于其分析和生成文本的能力，LLM最近已应用于结构化报告领域，并具有有趣的结果[9]。在这方面，最近有报道称，GPT-4可以以最少的努力将自由文本转换为结构化报告，可能会促进放射学，标准化和数据提取方面的结构性报告[1，，，，16]。另外，Lyu等人。强调Chatgpt可以将放射学报告鲁棒性转换为普通语言，获得4.27的分数（基于五点系统），具有0.08个缺少信息的位置和0.07的错误信息[4]。但是，GPT-3.5 Turbo和GPT-4能够有效地将自由文本放射学报告转化为结构化格式，但可能会错过一些发现，甚至可能具有潜在的临床重要性[9]。确实，众所周知，LLM易于某些缺点，包括幻觉，数据漂移和事实错误，并且在处理医学中LLM的应用时，道德，隐私和数据安全仍然不容忽视[10，，，，17]。尽管我们的研究表明GPT-4与Fazekas量表分类中的专家神经放射科医生之间的一致性很高，但我们承认有必要更清楚地表达这些发现的临床意义。将GPT-4整合到临床实践中可以通过简化从非结构化MRI报告中提取结构化数据来支持放射科医生，从而提高报告效率，一致性并促进用于研究和临床审计的大规模数据分析。

此外，此类工具可能在资源有限的设置或缺乏专业知识的机构中特别有益。但是，需要谨慎。LLM在临床工作流程中的使用引起了人们对可靠性，问责制，解释性和自动化偏见风险的关注。因此，任何未来的实施都必须在实际环境中进行严格的验证，并与人类的监督配对，以确保患者的安全性和诊断准确性。但是，在早期AI研究中，使用合成数据越来越普遍，具有可重复性，可能会减少报告异质性的偏见，并在临床验证之前提供安全的途径来实现基准AI的基准AI性能。

这是第一个将GPT-4应用于从Brain MRI报告中获得Fazekas分类的任务。尽管结果有令人鼓舞，但我们的研究并非没有局限性。主要限制是相对较小的样本量，包括50个合成放射学报告。尽管我们的结果显示GPT-4与神经放射科医生之间有希望的一致性，但有限的数据集限制了发现的普遍性。在临床研究中，尤其是在验证AI模型的性能时，更大，更多样化的数据集对于确保稳健，可重现的结果并减轻过度拟合或偏见的风险至关重要。未来的研究应包括可能从实际临床环境中汲取的更广泛的数据集，以充分评估各种诊断环境中此类模型的可靠性和可伸缩性。此外，我们研究的另一个值得注意的局限性是与替代AI模型或传统基于规则的分类系统缺乏比较。通过仅专注于GPT-4对单个专家神经放射科医生的表现，该评估可能无法完全捕获模型的相对优势或劣势。但是，重要的是要注意，这项研究的设计具有探索性目的，旨在评估GPT-4在狭义定义的诊断任务中的可行性和潜力，这是放射学报告中的Fazekas量表分类。未来的研究应旨在包括针对其他自然语言处理算法或已建立的分类框架的基准，以便在放射学环境中对GPT-4的诊断效用进行更全面和比较的评估。最后，这项研究的另一个局限性是依赖与GPT-4进行比较的单个专家神经放射科医生。尽管所涉及的放射科医生具有广泛的临床经验和专业知识，但根据单个评估者的不同，可能会引入潜在的主观偏见并限制评估的客观性。观察者间的变异性是放射学解释中公认的因素，并且包括多个独立专家的包含将为评估模型的性能提供更加平衡和强大的基准。未来的研究应考虑涉及放射科医生的小组以增强方法论严格性并减少个人解释的影响。但是，本研究报告的发现的创新性质表明，在GPT-4的功能中未开发的领域，专门针对解决使用复杂MRI数据的医疗专业人员的独特需求量身定制。

结论

在这里，我们报道了GPT-4在自动从Brain MRI报告中得出Fazekas分类的新应用。结果表明，GPT-4与专家神经放射科医生之间的一致性几乎是完美的一致性。提高从详细和多样化的自由文本报告中提取Fazekas分类的准确性和效率的前景对于医疗保健从业者来说是无价的，简化了解释过程，并最终为在临床环境中更有助于更明智的决策和报告标准化做出了贡献。

缩写

人工智能：: 人工智能
GPT：: 生成的预训练变压器
LLM：: 大语言模型
MRI：: 磁共振成像
WMH：: 白质超强度

参考

Adams LC，Truhn D，Busch F，Kader A，Niehues SM，Makowski MR等人（2023年）利用GPT-4进行了GPT-4的事后转化，将自由文本放射学报告转化为结构化报告：一项多项式可行性研究。放射学。https://doi.org/10.1148/radiol.230725
文章一个 PubMed一个 Google Scholar一个
Mallio CA，Napolitano A，Castiello G，Giordano FM，DâAlessioP，Iozzino M等人（2021）深学习算法接受了Covid-19-19的肺炎培训，还鉴定了免疫检查点抑制剂治疗相关的肺炎。癌症（巴塞尔）13：652。https://doi.org/10.3390/cancers13040652
文章一个 CAS一个 PubMed一个 Google Scholar一个
Lecler A，Duron L，Soyer P（2023）用基于GPT的模型彻底改变了放射学：当前的应用，未来的可能性和局限性。诊断间隔成像104：269 274。https://doi.org/10.1016/j.diii.2023.02.003
文章一个 PubMed一个 Google Scholar一个
Lyu Q，Tan J，Zapadka ME，Ponnatapura J，Niu C，Myers KJ等（2023）使用Chatgpt和GPT-4将放射学报告转化为普通语言，并迅速学习：结果，局限性和潜力。Vis Comput Ind Biomed Art 6：9。https://doi.org/10.1186/s42492-023-00136-5
文章一个 PubMed一个 PubMed Central一个 Google Scholar一个
Fazekas F，Chawluk J，Alavi A，Hurtig H，Zimmerman R（1987）在阿尔茨海默氏症的痴呆症和正常衰老中，MR信号异常为1.5 t。Am J Roentgenol 149：351 356。https://doi.org/10.2214/ajr.149.2.351
文章一个 CAS一个 Google Scholar一个
Kim TW，Kim Y-H，Kim KH，Chang WH（2014年）患有抑制性中风的患者的白质超强度和认知功能障碍。Ann Rehabil Med 38：620。https://doi.org/10.5535/arm.2014.38.5.620
文章一个 PubMed一个 PubMed Central一个 Google Scholar一个
Cedres N，Ferreira D，Machado A，Shams S，Sacuiu S，Waern M等（2020）预测Fazekas得分从白质信号异常的自动分割中得分。年龄12：894 901。https://doi.org/10.18632/aging.102662
文章一个 PubMed一个 PubMed Central一个 Google Scholar一个
Pantoni L，Basile AM，Pracucci G，Asplund K，Bogousslavsky J，Chabriat H等人（2005）与年龄相关的脑白质变化对残疾人的过渡的影响：LADIS研究：基本原理，设计和方法论。NeuroepideMiology 24：51â62。https://doi.org/10.1159/000081050
文章一个 PubMed一个 Google Scholar一个
MALLIO CA，BERNETTI C，SERTORIO AC，ZOBEL BB（2024）放射学结构性报告中的CHATGPT：CHATGPT-3.5 TURBO和GPT-4的分析减少单词计数和回忆发现。定量成像医学
AkincidâantonoliT，Stanzione A，Bluethgen C，Vernuccio F，Ugga L，Klontzas Me等（2023）放射学上的大语言模型：基本原理，应用，道德考虑，风险，风险，风险和未来的方向。诊断间隔放射线。https://doi.org/10.4274/dir.2023.232417
文章一个 PubMed一个 Google Scholar一个
MCHUGH ML（2012）Interfater可靠性：KAPPA统计数据。Biochem Med（Zagreb）22：276 282
PubMed一个 Google Scholar一个
Andreassen S，Lindland EMS，Solheim AM，Beyer MK，LjâstadU，Myglandã等（2021）认知功能，疲劳和Fazekas在急性神经性毛细血管病患者中得分。tick tick tick borte dis 12：101678。https://doi.org/10.1016/j.ttbdis.2021.101678
文章一个 PubMed一个 Google Scholar一个
Dagistan E，Cosgun Z（2019）血液图参数是否可以成为老年患者痴呆症的预测指标？老年男性22：192 - 197。https://doi.org/10.1080/13685538.2019.1618821
文章一个 PubMed一个 Google Scholar一个
Granata V，Faggioni L，Grassi R，Fusco R，Reginelli A，Rega D等（2022）在结肠癌分期中对计算机断层扫描的结构性报告：Delphi共识建议。Radiol Med 127：21 29。https://doi.org/10.1007/s11547-021-01418-9
文章一个 PubMed一个 Google Scholar一个
Goel AK，Dilella D，Dotsikas G，Hilts M，Kwan D，Paxton L（2019）解锁放射学报告数据：在低剂量CT癌症筛查中的概要放射学报告的实施。J数字成像32：1044 1051。https://doi.org/10.1007/s10278-019-00214-2
文章一个 PubMed一个 PubMed Central一个 Google Scholar一个
Mallio CA，Lo Vullo G，Messina L，Beomonte Zobel B，Parizel PM，Quattrocchi CC（2020）在长期暴露于Gadodiamide后，在未增强的磁共振图像上增加了垂体前垂体的T1信号强度。投资Radiol 55：25 29。https://doi.org/10.1097/rli.0000000000000604
文章一个 PubMed一个 Google Scholar一个
Alkaissi H，McFarlane SI（2023）Chatgpt中的人造幻觉：科学写作的影响。肉质。https://doi.org/10.7759/cureus.35179
文章一个 PubMed一个 PubMed Central一个 Google Scholar一个

下载参考

致谢

不适用。

资金

这项研究没有获得外部资金。

作者信息

作者和隶属关系

Fondazione Policlinico Universitorio Campus Bio-Medico，通过Alvaro del Portillo，200，00128，意大利罗马
Carlo Augusto Mallio，Andrea Carlomaria Sertorio，Caterina Bernetti和Bruno Beomonte Zobel
校园生物米迪科·迪罗姆大学医学与外科科学系的研究部
卡洛·奥古斯托·马利奥（Carlo Augusto Mallio）
Azienda Sanitaria Locale di Lecce的Cittadella Della Salute放射学系
费德里科·格雷科（Federico Greco）
卫生科学系医学统计主席，卡坦萨罗大学马格纳·格里亚（MagnaGrâcia），意大利卡塔萨罗
Gianfranco di Gennaro

作者

卡洛·奥古斯托·马利奥（Carlo Augusto Mallio）
Andrea Carlomaria Sertorio
Caterina Bernetti
费德里科·格雷科（Federico Greco）
Gianfranco di Gennaro
Bruno Beomonte Zobel

贡献

C.A.M.，A.C.S.和F.G.参与概念化；方法是由C.A.M.，A.C.S.和F.G.完成的；C.A.M.，A.C.S.和F.G.帮助软件；验证是由C.A.M.，F.G。和B.B.Z进行的；C.A.M.，F.G。和G.D.为正式分析做出了贡献；调查是由C.A.M.，A.C.S.，C.B。和F.G.进行的；C.A.M.，A.C.S.和F.G.帮助资源；C.A.M.，A.C.S.和F.G.有助于数据策划；C.A.M.，A.C.S.和F.G.帮助撰写原始草案准备；C.A.M.和F.G.帮助撰写审查和编辑；可视化是由C.A.M.，C.B。和F.G.进行的；监督是由C.A.M.，F.G。和B.B.Z进行的；C.A.M.和F.G.为项目管理做出了贡献。所有作者都阅读并同意了手稿的已发表版本。

相应的作者

对应费德里科·格雷科（Federico Greco）。

道德声明

道德批准并同意参加

不需要道德委员会批准，因为没有涉及患者或可识别的数据。

同意出版

不需要出版同意，因为没有涉及患者或可识别的数据。

数据和材料的可用性

在当前研究中使用和/或分析的数据集可根据合理的要求从通讯作者获得。

竞争利益

作者宣称他们没有竞争利益。

附加信息

出版商的注释

关于已发表的地图和机构隶属关系中的管辖权主张，Springer自然仍然是中立的。

权利和权限

开放访问本文允许以任何媒介或格式的使用，共享，适应，分发和复制允许使用，分享，适应，分发和复制的国际许可，只要您适当地归功于原始作者和来源，就可以提供与创意共享许可证的链接，并指出是否进行了更改。本文中的图像或其他第三方材料包含在文章的Creative Commons许可中，除非在材料的信用额度中另有说明。如果文章的创意共享许可中未包含材料，并且您的预期用途不得由法定法规允许或超过允许的用途，则需要直接从版权所有者那里获得许可。要查看此许可证的副本，请访问http://creativecommons.org/licenses/4.0/。重印和权限

关于这篇文章

引用本文

Mallio，C.A.，Sertorio，A.C.，Bernetti，C。

等。Brain MRI报告的自动化Fazekas分类：与GPT-4的人工智能方法。埃及j radiol nucl med56 ，142（2025）。https://doi.org/10.1186/s43055-025-01541-x

下载引用

已收到：2024年8月13日
公认：2025年7月9日
出版：2025年8月25日
doi：https://doi.org/10.1186/s43055-025-01541-x

OC