作者:Xiong, Hai
骨质疏松症是一种全身性骨骼疾病,其特征是骨骼质量低,对骨组织的微结构损害,骨骼脆弱性增加和骨折易感性1。2001年,美国国家卫生研究院(NIH)将其定义为骨骼疾病,其特征是骨骼强度降低和骨折风险增加2。全国性骨质疏松症的流行病学调查表明,50岁以上的人的骨质疏松症患病率为19.2%,女性为32.1%,男性为6.9%。对于65岁以上的人,患病率为32.0%,女性为51.6%,男性为10.7%。根据这些流行病学数据,中国的骨质疏松症患者估计数量约为9000万,约有7000万是女性3。在中国,随着寿命的增加以及70岁及以上人口的持续增长,骨质疏松和断裂的负担预计将显着增加。预计到20354。
当前,双能X射线吸收法(DXA)是诊断骨质疏松症和监测骨密度随时间变化的最常用方法。但是,由于DXA的成本相对较高,因此不建议将其作为一般人群的常规筛查测试。为亚洲人(OSTA)的骨质疏松症自我评估工具已开发并作为骨质疏松症的简单筛查工具进行了验证5。该工具已被广泛用于筛查不同种族和性别的骨质疏松症6。人工智能(AI)技术是基于数学建模开发的。AI软件已应用于不同的专业,包括流行病学研究,药物发现和诊断放射学7。XGB是一种大规模的机器学习算法,首次正式发布于2016年8。这是比梯度提升决策树(GBDT)的改进。虽然单个决策树是一个简单而弱的分类器,但决策树的合奏模型可能具有更好的性能,例如随机森林9和GBDT10。与随机森林相比,XGB利用梯度提升技术来最大程度地减少损失函数8,与GBDT相比,XGB采用一种称为“特征亚采样”的技术来防止过度拟合8。XGB算法已被广泛用于行业,但其在医学研究中的应用仍然有限。与传统的机器学习算法相比,XGB更加最新和复杂。这项研究旨在建立基于XGB算法和多中心大规模数据的骨质疏松症的预测筛查工具。SVM11和安12是两种机器学习算法与XGB不同的原理,也通常用于构建分类器。在ANN模型的训练过程中,无需手动确定权重,这可以减少诊断过程中的主观因素,从而提高诊断的可靠性。这有助于使诊断结果更有效和客观,从而有效降低了骨质疏松诊断的误诊和遗体诊断率13。我们还旨在基于这五种不同类型的算法建立筛选模型,以与OSTA指数进行比较以评估其性能。
在西藏,由于其广阔的面积和稀疏的人口,BMD测量值不广泛用于某些基层社区。BMD低的患者的未来骨折风险较高,应积极考虑治疗以降低这种风险。与传统的OSTA简单筛查工具相比,通过积极寻求藏族妇女的筛查工具,它为精密医学策略提供了新的解决方案。
这项研究中使用的数据是从青海地基高原计划中的藏族慢性和地方性疾病预防获得的。该计划于2022年7月至2022年10月在西藏的某些地区进行。在这项研究中,在研究之前,邀请居民参加在社区内指定的医疗机构进行的健康检查。所有参与者在入学研究之前均提供了知情同意书。在所有数据中,将每个患者的连续特征的缺失值替换为其平均值,并且在所有数据中,将每个患者的分类特征的缺失值替换为最常见的值。当没有最常见的值时,该患者的数据被排除在外。在此预处理后,研究中考虑的女性总数为645(图。 1)。纳入标准:(1)所有参与者都是藏族;(2)年龄范围为45至79岁;(3)所有参与者均签署了知情同意。排除标准:(1)参与者左尺骨半径手术,疾病,骨折;(2)服用影响骨代谢的药物,例如糖皮质激素超过3个月;(3)患有严重心脏,肝脏,肾脏和精神疾病的参与者。在此预处理后,研究中考虑的女性总数为645(图。 1)。图1研究人群的流程图。
14。OSTA索引方程:0.2â[体重(kg)年龄(年)]15。1的AUC表示针对区分个体的完全准确的测试,而AUC为0.5表示无用的测试。通常,AUC为0.80 -0.90被认为是好的,0.70 - 0.80被认为是公平的,而0.60 - 0.70被认为很差16。
所有测量均由经过培训的研究人员使用根据制造商说明进行校准的设备进行。使用双能量X射线吸收测定计(DXA,AKDX-09âW-I,深圳Xray电气有限公司,中国沉元)评估左远端前臂的BMD。该评估是基于一个综合数据库,其中包括来自中国各地的12,159个径向骨矿物质密度读数,并遵守该方案,该方案指定了体内精确误差1.0%CV。在调查过程中,DXA设备被车辆运输到各个研究地点。根据制造商的操作手册,实施了质量控制程序。参与者的禁食静脉血液是使用5 ml真空凝结剂管收集的,并在室温下两个小时后离心,以分离血清进行分析。生化标志物,包括同型半胱氨酸(HCY),总蛋白(TP),尿酸(UA),肌酐(CREA),总胆固醇(TC),甘油三酸酯(TG),低密度脂蛋白胆固醇(LDL-C)和高密度脂肪蛋白(HDL-COIRTIEN)均具有HDL-CRIBIS的量量,该杂质素(HDL-COIRTIEN)藏族医学使用全自动生化分析仪(日本日立,日本东京,日本,日本,日本)。
在数据中。有14个生化指标。相关分析用于筛选与T评分统计差异的指标。最后,年龄(p<0.01),LDL-C(p<0.05),ua(p<0.01),ast(p<0.05),crea(p<0.01),BMI(p<0.01),alt(p选择<0.01)进行预测模型的开发(图。 2)。
使用Mann-Whitney U测试分析了测试集和火车集数据的比较,使用SPSS 25.0软件(IBM SPSS统计信息,https://www.ibm.com/products/spss-statistics)。不符合正态分布的变量由M表示(Q1,Q3)。Spearman检验用于在生化指标和T评分之间进行相关分析。使用XGB软件包构建,训练和验证预测模型。使用R版本4.2.1(R统计计算基金会,奥地利维也纳)进行绘图。p值<0.05被认为具有统计学意义。
这项研究遵循赫尔辛基宣布的道德准则,并获得了西藏大学伦理委员会的批准。所有参与者均提供了知情同意,以参与研究。对于未满16岁以下的未成年人,获得了父母或法定监护人的书面知情同意。参与者在收到有关项目内容的信息后签署了知情同意书(具有教育经验的参与者签署了该表格,而没有教育经验的人则了解了该项目的内容,并通过指纹提供了同意书)。所有参与者都自愿参加了这项研究。
所有合格的参与者(n= 645)被随机分为两组,比率为8:2,导致火车集(N1 = 516)和测试SE(N2 =â129),考虑到7个特征,测试集和火车组之间没有统计差异(表) 1)。年龄(57(51,63)和57(51,66)分别在火车和测试集中),LDL-C(2.71(2.15,3.38)和2.8(2.23,3.27)在火车和测试集中),UA(296.5(296.5在火车和测试组中分别为20(15,25),分别为BMI(23.6(21.4,26.7)和23.3(21.1,26.6)在火车和测试组中)(表格 1)。表1研究中包括645名受试者的特征。重要性排名
)。其中,BMI的重要性比率为0.271,这是七个指标中最高的。年龄的重要性比率为0.110;AST的重要性比为0.084,在七个指标中最低(补充1)。
此外,我们采用了Shap依赖图来进一步研究XGB模型对OP风险预测的前七个因素的影响。BMI大约20 kg/mâ²具有很高的外形值,这对模型的预测结果产生了重大积极影响,这表明该模型倾向于预测目标事件在此范围内的发生。颜色代表了OP和特征变量之间的关系,表明BMI和骨质疏松症之间存在显着的负相关。也可以观察到,骨骼的类型对外形值的分布有一定影响,尤其是在塑形值高的区域,红点更加集中(图。 4一个)。超过70岁的年龄具有较高的外形值,这对模型的预测结果产生了重大积极影响,表明该模型倾向于预测该年龄段的目标事件的发生。年龄和骨质疏松症之间存在显着的正相关性(图 4f)。
5)。在火车组中,AUC从最高到最低的AUC顺序是随机森林(1.000),XGB(0.887),SVM(0.868),回归(0.801),Ann(0.793)和Osta(0.739)(图0.739)(图。 6)。在测试集中,AUC从最高到最低的AUC顺序为XGB(0.848),回归(0.801),随机森林(0.772),SVM(0.755),OSTA(0.739)和ANN(0.732)(0.732)(图0.732)(图。 6)。XGB的敏感性(0.889),特异性(0.766)和AUC(0.848 [0.7775,0.9192])高于OSTA的灵敏度(0.7775,0.9192]),其灵敏度为0.624,特异性为0.755,AUC为0.739 [0.739 [0.683,0.7990]。SVM的灵敏度(0.722),特异性(0.811)和AUC(0.755 [0.6376,0.8729])也高于OSTA(图。 6)。图5ROC曲线比较生化指数和OSTA指数。
动物实验表明,脂肪组织中的Kindlin-2表达在衰老期间和对高脂饮食的响应中增加,并伴随着骨骼质量的降低。Kindlin-2通过调节脂肪细胞中的FAS/PPARî³/fabp4/胰岛素轴来维持骨体内平衡至关重要17。在研究中18将单个脂质参数与BMD相关,总胆固醇(TC),甘油三酸酯(TG)和低密度脂蛋白胆固醇(LDL-C)的增加都与骨密度降低有关。AST和ALT升高可能会信号肝脏损害,并研究19,,,,20,,,,21发现慢性肝病和肝功能受损会增加骨质疏松症的风险。AST/ALT比的水平可能间接反映骨质疏松症22,前臂DXA结果最能反映出LDL-C降低对BMD的因果23。研究发现,血液尿酸对骨质疏松症具有保护作用24,,,,25,在西藏高海拔地区的肌酐和骨质疏松症之间存在联系,这种联系可能与局部饮食密切相关26。在这项研究中,将与骨质疏松症相关的生化指数用作预测骨质疏松症发生的特征因素。
这是一项新的研究,旨在建立基于生化指数的骨质疏松症的预测模型。在这项研究中,建立了基于随机森林,回归,XGB,SVM和ANN的骨质疏松预测模型。在火车和测试集中,随机森林,回归,XGB和SVM算法的预测效应优于OSTA,而XGB算法是五个机器学习算法中最好的(表格) 2)。除了AUC之外,提出的XGB模型的灵敏度和特异性表明,它是极好的歧视。对于火车组和测试集,XGB模型的AUC分别为0.887和0.848。在单个索引预测模型中,8个指标的AUC范围为0.606至0.739,OSTA指数优于其他生化指标(表 2)。XGB算法在处理不平衡数据方面具有明显的优势27,本文的结果表明,当数据集处于非平衡状态时,XGB模型可以获得更好的分类和歧视效应(AUC = 0.848),并且模型性能优于SVM和ANN模型。SVM广泛用于图像处理,文本分类和其他字段。但是,当输入变量很大并且样本集很大时,SVM的计算复杂性和空间复杂性将急剧增加,从而导致较长的训练时间和大量的存储资源消耗。SVM以其在医疗应用中的高精度和效率而脱颖而出,这通常涉及小型数据集28,SVM和ANN可以使用饮食和生活方式数据来帮助预测低BMD29这也可能是ANN和SVM在这项研究中的预测效应的原因。
这是一项基于藏族地区老年藏族妇女人口的研究。由于自然环境和宗教习俗的影响,在高海拔地区获取样品是一项挑战。这项研究为使用五种算法建立了骨质疏松症的筛查模型,这是相对创新的。但是,这项研究存在局限性。首先,血液生物化学指标的成本并不低,并且信息获取和筛选执行不如传统筛查工具那么简单和经济。其次,该算法的性能缺乏外部验证,并且是否可以在广泛范围内使用它仍然值得怀疑。此外,算法模型的建立基于一般人群,在具有某些危险因素的人群中(患有影响骨骼代谢的疾病,长期使用影响骨代谢,吸烟,饮酒,咖啡因摄入量等的药物,是否适用XGB及其XGB的适用及其筛查效应,需要进一步验证。
SVM和XGB算法模型对骨质疏松症具有比OSTA在西藏中的中年和老年藏族居民中更好的筛查作用,具有XGB算法的XGB算法可以预测西藏妇女在西藏女性中的骨质疏松症的发生,表现出有希望的预测效果。
支持该研究结果的数据可应相应作者的要求获得。由于隐私或道德限制,数据无法公开可用。
共识开发会议:诊断,预防和骨质疏松症的治疗。是。J. Med。 94(6),646 650。https://doi.org/10.1016/0002-9343(93)90218-E(1993)。
NIH共识开发小组预防骨质疏松,诊断和治疗,2000年3月7日:会议的亮点。S. Med。J. 94(6),569 - 573(2001)。
原发性骨质疏松症诊断和治疗指南(2022)。下巴。J. Osteopor。矿物质 15(06),573 - 611(2022)。
对预防和治疗绝经后妇女的骨质疏松症的共识。下巴。J. Clin。物理。 48(08),903 - 908(2020)。
Koh,L。K.等。识别骨质疏松症风险增加的亚洲妇女的简单工具。骨。int。 12(8),699 - 705。https://doi.org/10.1007/s001980170070(2001)。
文章一个 PubMed一个 数学一个 Google Scholar一个
Chen,C。C.等。亚洲人(OSTA)评分的骨质疏松自我评估工具与住院的股骨骨折患者的临床表现和支出相关。int。J. Environ。res。民众。健康 13(10),995。https://doi.org/10.3390/ijerph13100995(2016)。
文章一个 PubMed一个 PubMed Central一个 数学一个 Google Scholar一个
Bui,H。M.等。使用机器学习方法来预测越南较老妇女的骨质疏松风险。科学。代表。 12(1),20160年。https://doi.org/10.1038/s41598-022-24181-x(2022)。
文章一个 广告一个 PubMed一个 PubMed Central一个 数学一个 Google Scholar一个
Chen,T。&Guestrin,C。XGB:可扩展的树木增强系统。在第22届ACM SIGKDD国际知识发现与数据挖掘会议论文集(2016)。
Svetnik,V。等。.Feuston BP。随机森林:用于复合分类和QSAR建模的分类和回归工具。J. Chem。inf。计算。科学。 43(6),1947年,1958年。https://doi.org/10.1021/ci034160g(2003)。
文章一个 PubMed一个 数学一个 Google Scholar一个
Natekin,A。&Knoll,A。梯度提升机,一个教程。正面。神经机器人。 7,21。https://doi.org/10.3389/fnbot.2013.00021(2013)。
文章一个 PubMed一个 PubMed Central一个 数学一个 Google Scholar一个
Tang,H.,Han,Q。&Yin,Y。使用LASSO回归算法和SVM方法,对外周血单核细胞中重要标记的筛查预测女性骨质疏松症的风险。Evol。生物知识。 18,11769343221075014。https://doi.org/10.1177/11769343221075014(2022)。
文章一个 Google Scholar一个
Meng,J。等。人工神经网络优化女性骨质疏松风险的自我检查。J. Int。医学res。 47(7),3088 3098。https://doi.org/10.1177/0300060519850648(2019)。
文章一个 PubMed一个 PubMed Central一个 数学一个 Google Scholar一个
Mengming,Y。等。回顾人工智能在骨质疏松症中的应用。J. Mini-Micro Syst。 40(09),1839年1850年(2019年)。
数学一个 Google Scholar一个
Xu,H。等。2型糖尿病患者的骨质疏松症和骨质减少症老化50:性别和临床特征的作用。J. Clin。密度。23(1),29 - 36。https://doi.org/10.1016/j.jocd.2019.04.004(2020)。文章
一个 PubMed一个 数学一个 Google Scholar一个 Wu,S。等。基于亚洲人的骨质疏松自我评估工具,不同睡眠模式与骨质疏松症之间的关联。
拱。骨。 15(1),164。https://doi.org/10.1007/s11657-020-00828-y(2020)。
文章一个 PubMed一个 PubMed Central一个 数学一个 Google Scholar一个
Nayak,S。等。临床风险评估工具对骨质疏松症或低骨密度筛查的临床风险评估工具的性能进行系统的审查和荟萃分析。骨。int。 26(5),1543年1554年。https://doi.org/10.1007/s00198-015-3025-1(2015)。
文章一个 PubMed一个 PubMed Central一个 数学一个 Google Scholar一个
Tang,W。等。脂肪细胞中的Kindlin-2通过抑制小鼠中的FAS/PPARî³/Fabp4信号来增加骨量。Acta Pharm。罪。b 13(11),4535 4552。https://doi.org/10.1016/j.apsb.2023.07.001(2023)。
文章一个 PubMed一个 PubMed Central一个 数学一个 Google Scholar一个
Yang,X。L.等。脂质分布与骨矿物质密度之间的因果关系:孟德尔随机研究。骨 127,37 - 43。https://doi.org/10.1016/j.bone(2019)。
文章一个 PubMed一个 数学一个 Google Scholar一个
Nakchbandi,I。A.&van der Merwe,S。W.当前对与肝病相关的骨质疏松症的理解。纳特。胃肠道植物。肝。 6(11),660 - 670。https://doi.org/10.1038/nrgastro.2009.166(2009)。
文章一个 PubMed一个 Google Scholar一个
Wibaux,C。等。评估等待肝移植的患者的骨骼状况。JT。骨脊柱 78(4),387 391。https://doi.org/10.1016/j.jbspin(2011)。
文章一个 Google Scholar一个
Tsai,C。F.等。肝硬化患者的骨科骨折发病率增加:一项基于人群的研究。J. Hepatol。 58(4),706 714。https://doi.org/10.1016/j.jhep(2013)。
文章一个 PubMed一个 数学一个 Google Scholar一个
Yan,H。中年和老年人的骨质疏松症的危险因素分析(华Zhong科学技术大学,2019年)。
Zheng,J。等。血浆脂质和降脂干预措施对骨矿物质密度的影响:孟德尔随机研究。J. Bone Min。res。 35(7),1224年1235年。https://doi.org/10.1002/jbmr.3989(2020)。
文章一个 数学一个 Google Scholar一个
Kim,M。H.,Lee,H。J.&骨质疏松症维生素C摄入量以及50岁及以上的韩国成年人的体育活动。J. Phys。ther。科学。 28(3),725 - 730。https://doi.org/10.1589/jpts.28.725(2016)。
文章一个 PubMed一个 PubMed Central一个 数学一个 Google Scholar一个
Lee,Y。J。等。根据韩国妇女的绝经状态,氧化应激与骨矿物质密度之间的关联。产科。妇科。科学。 58(1),46 - 52。https://doi.org/10.5468/ogs.2015.58.1.46(2015)。
文章一个 MathScinet一个 PubMed一个 PubMed Central一个 数学一个 Google Scholar一个
Zhong,H。等。中国西藏的绝经后妇女骨骼异常的影响。BMC公众。健康 23(1),2100。https://doi.org/10.1186/s12889-023-17015-6(2023)。
文章一个 PubMed一个 PubMed Central一个 数学一个 Google Scholar一个
Fan Ru,X。等。建立基于极端梯度提升算法的高血压识别模型。中国卫生数据。 40(01),74â77(2019)。
数学一个 Google Scholar一个
Abdelfattah,S。等。具有隐私保护的轻型多级支持矢量基于机器的医疗诊断系统。传感器(巴塞尔) 23(22),9033。https://doi.org/10.3390/s23229033(2023)。
文章一个 广告一个 PubMed一个 数学一个 Google Scholar一个
Yoo,T。K。等。使用机器学习对绝经后妇女进行骨矿物质密度评估骨矿物质密度评估的风险预测。Yonsei Med。J. 54(6),1321â1330。https://doi.org/10.3349/ymj.2013.54.6.1321(2013)。
文章一个 PubMed一个 PubMed Central一个 数学一个 Google Scholar一个
作者要衷心感谢所有研究参与者和参与的工作人员。
这项研究得到了当地大学改革和发展的中央财政支持(00060585、00060463、00060381、00060695/051),以及Ali Ali区域科学和技术局的腰带和道路科学与技术创新(18080036)(18080036)。
作者没有宣称没有竞争利益。
在涉及人类参与者的研究中执行的所有程序均符合机构和/或国家研究委员会的道德标准以及1964年的赫尔辛基宣言及其后来的修正案或可比的道德标准。这项研究得到了西藏大学道德委员会的批准。伦理批准号ZDYXLL2024009。所有参与者均提供了知情同意,以参与研究。对于未满16岁以下的未成年人,获得了父母或法定监护人的书面知情同意。参与者在理解项目的内容后签署了知情同意书(受过教育的参与者进行了签名,而那些没有教育经验的参与者被告知了该项目的内容并通过指纹证明)。所有参与者都自愿参加了这项研究。
关于已发表的地图和机构隶属关系中的管辖权主张,Springer自然仍然是中立的。
以下是电子补充材料的链接。
开放访问本文在Creative Commons Attribution-Noncormercial-Noderivatives 4.0国际许可下获得许可,该许可允许任何非商业用途,共享,分发和复制以任何媒介或格式的形式,只要您提供适当的原始作者和来源的信用,请符合原始作者和来源,并提供了与Creative Commons的链接,并指示您是否修改了许可的材料。您没有根据本许可证的许可来共享本文或部分内容的改编材料。本文中的图像或其他第三方材料包含在文章的创意共享许可证中,除非在材料的信用额度中另有说明。如果文章的创意共享许可中未包含材料,并且您的预期用途不得由法定法规允许或超过允许的用途,则需要直接从版权所有者那里获得许可。要查看此许可证的副本,请访问http://creativecommons.org/licenses/by-nc-nd/4.0/。重印和权限
等。比较藏族中年和老年妇女的骨质疏松预测的机器学习模型。Sci代表15 ,10960(2025)。https://doi.org/10.1038/s41598-025-95707-2
已收到:
公认:
出版:
doi:https://doi.org/10.1038/s41598-025-95707-2