作者:Why publish in Cureus? Click below to find out.
背景:近年来,机器学习在医学界得到发展,用于构建包含许多变量的多维数据集并进行同时因素分析。
目的:本研究旨在通过在随机森林算法中应用监督机器学习来构建一个包含50个项目多维数据集,以预测卒中患者出院时是返回家中还是去往护理机构。
方法:将30名因脑血管疾病住院后出院的患者作为研究对象。用于分析的数据集包括特征(三项)、身体和认知功能(七项)、功能独立性测量(FIM,十八项)、血液数据(十六项)和社会特征(六项)。出院目的地变量为家庭或机构。使用机器学习提取对该分类重要的因素。通过五折交叉验证计算随机森林的准确性,并为每个折叠计算平均减基尼指数(一种分类重要性的度量)。
结果表明,FIM(用于衡量日常生活活动(ADL)和认知功能,包括记忆力,这些因素强烈影响了预测方程)是所提出的算法中的重要因素。分析结果显示,该算法以87.1%的准确率预测出院回家或机构照护。
结论:通过这项研究,确定了ADL(日常生活活动能力)和认知功能是预测脑血管疾病患者能否回家康复的重要因素。
中风患者在患病后面临身体、认知、情感和社会方面的挑战。为了应对这些挑战,在住院期间会进行康复治疗。在康复期间,患者可以在医院环境中享受专业的支持,并能够在医院独立完成日常生活活动(ADL),但在出院后独立生活于家中则需要更高的ADL能力。在决定将中风患者送往何处出院时,家庭和设施之间的差异非常大,对出院后的生命影响无法估量。因此,由于患者希望“尽管有后遗症也要回家”的意愿与家人希望“安全地住在设施内”之间存在冲突,通常很难确定应该把中风患者从医院送往哪里。那么,对于中风患者而言,究竟是家庭好还是设施更好呢?之前的许多研究表明,许多中风患者的最终康复目标是返回家中[1]。此外,据报道,在有后遗症的情况下回家比住在机构内能够维持更好的生活质量(QOL)[2]。鉴于这些先前的研究,可以说治疗师需要尽一切可能帮助希望回归家庭的中风患者实现这一愿望,这是医疗界广泛认可的事实。
然而,目前在康复专科医院出院的中风患者返回家庭的比例大约为60%,这表明帮助中风患者回家仍然存在重要的问题需要解决。另一方面,为了使中风患者能够回家,通常会评估许多出现的问题中最具有影响力的因素,并优先进行康复干预。因此,了解影响中风患者回家的因素至关重要,这些信息对于确定问题的优先级也是必要的。先前的研究已经考察了许多影响中风患者返回家庭的因素,广泛认为日常生活活动能力(ADLs)是最具影响力的因素之一[3]。其他身体功能、实验室指标和环境方面也被注意到会对回归家庭产生影响[4-10]。然而,获得的结果并不统一,因为许多早期研究使用的解释变量局限于某一范围内的相对狭义的项目,并且每个报告使用了不同的解释变量,尽管多种因素被认为会影响返回家庭。为了解决这些问题,在近年来开发了一种构建包含多个变量的多维数据集并同时进行因子分析的机器学习技术。机器学习是一种将数据输入计算机并使其从该数据中学习模式和规律的技术。利用这种技术可以自动分类和预测事物。此外,使用传统的多元分析时,根据变量的不同需要大量的受试者,但通过使用机器学习即使在相对较少的受试者情况下也能获得稳定的结果。事实上,之前已经有关于痴呆症神经影像学以及自闭症谱系障碍认知特征亚型分类的研究采用了机器学习,并且可以说机器学习在医学界的发展是显著的[11,12]。因此,为了解决迄今为止出现的问题并明确影响脑血管疾病患者回归家庭的真实因素,可以说使用构建于多维数据集上并进行因子分析的机器学习技术是必要的。能够准确预测影响脑血管疾病患者返回家庭的因素的能力将有助于确定康复环境中的干预优先级。
随机森林是一种用于从多维数据集中预测脑血管意外患者返回家中情况的分析方法。随机森林是一种统计方法,可以从大量数据集预测分类,并具有几个特点。一是它非常准确,因为它结合了多个决策树的方法,通常可以达到很高的准确性。二是它可以抑制过拟合,因为它是通过使用随机子集构建多个决策树来实现的,因此相比于单个决策树来说,不易发生过拟合。即使样本量很小,也可以避免反映群体特征,并假设总体趋势。
因此,在这项研究中,我们构建了一个包含50个数据点的多维数据集,并使用监督机器学习方法随机森林来预测脑卒中患者出院时是回家还是去疗养院。
研究参与者是从2023年1月至2023年6月期间住院在康复病房的30名中风患者,之后他们被出院回家或去往其他设施。这30名参与者包括19名男性和11名女性患者,平均年龄为71.5±13.4岁。先前的研究报告指出,以下因素会影响中风患者的医院到家出院:住院时间、是否与家人同住、身体功能、认知功能、肝功能、肾功能、营养状况、贫血、日常生活活动能力、住院期间跌倒次数、复发和既往病史[10,13-24]。因此,我们根据以下方面创建了总共50个项目:特征(三项)、身体和认知功能(七项)、反映日常生活中独立程度的功能独立测量(FIM)(十八项)、血液数据(十六项)和社会特征(六项)。评估参数如表所示。1出院目的地根据患者是回家还是去护理机构进行二分分类。
评估数据 | |
特征 | 年龄 |
性别 | |
需要护理照料 | |
身体和认知功能 | 桥本痴呆量表修订版(HDS-R) |
膝关节伸肌力量(瘫痪侧/非瘫痪侧) | |
握力(瘫痪侧/非瘫痪侧) | |
berg平衡量表 | |
六分钟步行测试 | |
功能独立性测量(FIM) | 吃东西 |
系腰带器 | |
下衣 | |
打扮;整理(根据上下文可译为不同的意思) | |
洗澡 | |
如厕 | |
括约肌控制膀胱 | |
肛门括约肌控制排便 | |
转移(椅子) | |
转移(厕所) | |
转移(浴缸) | |
行走/轮椅出行 | |
楼梯升降机 | |
沟通理解能力 | |
沟通表达 | |
社交互动 | |
问题解决 | |
内存 | |
血液数据 | 红血细胞(RBC) |
血细胞比容(Ht) | |
血红蛋白含量(Hb) | |
血小板(PLT) | |
平均红细胞血红蛋白浓度(MCHC) | |
平均红细胞体积(MCV) | |
平均红细胞血红蛋白浓度(MCH) | |
白血细胞(WBC) | |
白蛋白(Alb) | |
总蛋白(TP) | |
丙氨酸氨基转移酶(ALT) | |
天冬氨酸氨基转移酶(AST) | |
C反应蛋白(CRP) | |
血尿素氮(BUN) | |
肌酐(Cre) | |
社会特征 | 住院天数 |
跌倒次数 | |
出院地点 | |
反复中风 | |
既往病史 | |
秋季评估修订和风险分类 | |
共同生活 |
在使用机器学习进行的分析中,以是否回家为因变量,其余所有变量为自变量进行了随机森林分析;创建了一个能够分类是否回家的算法,并提取了对分类重要的因素。在随机森林中,所有的自变量都利用训练数据进行了五倍交叉验证,每一份被随机划分为训练和测试数据。将训练数据输入到随机森林中以创建一个用于预测患者是出院回家还是去机构的算法,然后将测试数据输入到获得的算法中进行分类预测。分别计算了每个折中的训练数据和测试数据的准确率,并且计算了五倍交叉验证的平均值。对于每个折中的分类重要性指标平均减少吉尼指数进行了计算,在此之后计算了五个折中的平均值。
R版本4.3.0的“RandomForest”包用于数据分析。数据是从电子病历中回顾性收集的相关项目的记录。该研究遵循《赫尔辛基宣言》的规定,并对获得的数据进行了匿名处理,以确保无法识别个人身份信息。在进行本研究时,向受试者提供了书面的研究说明并签署了同意书。关西健康科学大学的伦理审查委员会批准了此项研究(批准号:22-16),实验开展前已得到该委员会的批准。
表格2显示用于表示研究对象属性的描述性统计信息。
评估数据 | 首页 | 设施 | |
特征 | 年龄 | 71.5±14.4 | 71.7±11.0 |
性别(男/女) | 13/8 | 6/4 | |
需要护理照料 | 2.2±2.2 | 3.9±2.7 | |
身体和认知功能 | 桥本痴呆量表修订版(HDS-R) | 25.0±2.2 | 15.8±6.7 |
膝关节伸肌力量(未瘫痪侧) | 42.0±16.8 | 37.4±17.9 | |
膝关节伸肌力量(瘫痪侧) | 32.3±11.7 | 23.9±16.7 | |
握力(未瘫痪侧) | 26.4±12.4 | 21.9±13.2 | |
握力(瘫痪侧) | 19.3±13.2 | 12.3±10.3 | |
berg平衡量表 | 47.4±9.2 | 31.0±18.3 | |
六分钟步行测试 | 315.0±143.9 | 187.7±167.0 | |
功能独立性测量(FIM) | 吃饭 | 6.5±0.5 | 5.5±0.8 |
穿鞋器(如果是指帮助穿高跟鞋或系带靴的辅助工具)或者拉链提升器(如果是用来提高衣物如裙子、裤子等物品以方便穿戴的装置)。如果没有具体指代,请给出更多上下文。若无实际内容需要翻译,则输出原文:Dressing-upper | 6.4±1.5 | 3.6±2.2 | |
裙摆或者裤装(根据上下文理解,此处可能指的是衣物的下部分,如裤子或裙子) | 6.4±1.6 | 3.5±2.3 | |
打扮;梳理(通常指个人卫生和外观打理) | 6.6±0.8 | 5.3±0.9 | |
洗澡 | 5.9±1.9 | 3.7±2.0 | |
如厕护理 | 6.4±0.8 | 3.6±2.5 | |
括约肌控制膀胱 | 6.4±0.8 | 3.7±2.5 | |
肛门括约肌控制排便 | 6.5±0.6 | 3.8±2.4 | |
转移(椅子) | 6.4±0.8 | 4.8±1.2 | |
转移(马桶) | 6.4±0.8 | 4.6±1.6 | |
转移(浴缸) | 5.2±1.8 | 3.0±2.5 | |
行走/轮椅式行走 | 6.1±1.4 | 3.1±2.5 | |
活动楼梯 | 5.0±1.5 | 3.7±2.4 | |
沟通理解能力 | 6.2±1.3 | 4.5±1.7 | |
通信表达 | 6.0±1.3 | 4.8±1.5 | |
社交互动 | 6.7±0.8 | 5.3±1.3 | |
问题解决 | 6.2±1.4 | 3.2±2.3 | |
内存 | 5.9±1.8 | 2.9±1.9 | |
血数据 | 红血细胞(RBC) | 429.2±53.6 | 422.7±41.7 |
血细胞比容(Ht) | 39.7±4.5 | 39.3±3.4 | |
血红蛋白含量(Hb) | 13.3±1.8 | 14.2±4.2 | |
血小板(PLT) | 21.5±5.8 | 25.5±9.1 | |
平均红细胞血红蛋白浓度(MCHC) | 33.1±0.8 | 32.5±1.2 | |
平均红细胞体积(MCV) | 92.8±3.7 | 92.9±3.2 | |
平均血红蛋白浓度(MCH) | 30.6±1.2 | 30.2±1.6 | |
白血细胞(WBC) | 5879.0±1420.2 | 6226.0±1331.9 | |
白蛋白(Alb) | 4.0±0.4 | 3.7±0.5 | |
总蛋白(TP) | 6.7±0.5 | 6.3±0.7 | |
丙氨酸氨基转移酶(ALT) | 27.3±30.5 | 20.4±12.4 | |
天冬氨酸氨基转移酶(AST) | 23.8±13.9 | 20.2±5.9 | |
C反应蛋白(CRP) | 0.3±0.4 | 0.2±0.3 | |
血尿素氮(BUN) | 14.6±3.7 | 17.8±8.9 | |
肌酐(Cre) | 0.8±0.2 | 0.9±0.3 | |
社会特征 | 住院天数 | 63.8±31.2 | 77.1±36.9 |
跌倒次数 | 0.3±0.5 | 0.2±0.3 | |
出院地点 | 19 | 11 | |
反复中风(有/没有) | 0/19 | 0/11 | |
既往病史(有/无) | 11/8 | 8/2 | |
秋季评估修订及风险分类 | 1.8±0.7 | 2.5±0.8 | |
共同生活 | 1.5±1.0 | 1.8±1.2 |
此外,随机森林的结果表明训练数据的五折平均准确率为100%,测试数据的五折平均准确率为87.1%。均方吉尼减少值最大的前七项分别为FIM进食、FIM着装下部、FIM着装上部、HDS-R、社会互动、括约肌控制排便和记忆力。其中,FIM进食的均方吉尼减少值为1.0933,FIM着装下部为0.8139,FIM着装上部为0.5993,HDS-R为0.5993,社会互动为0.5971,括约肌控制排便为0.4220,记忆力为0.3707。均方吉尼减少值最大的前七项包括六项日常生活活动能力和一项认知功能(图)。1).
在这项研究中,我们通过使用随机森林的机器学习方法构建了一个预测住院患者出院去向的算法。结果显示,该算法预测患者是回家还是进入机构照护的准确率为87.1%。本研究对30名受试者记录了87.1%的准确率,被认为是一个非常不错的结果。这是因为较低的准确率表明过度学习。换句话说,可以说随机森林显示了与传统统计方法相比,在少量样本的情况下使用大量变量进行多变量分析的可能性。算法的关键项目是衡量日常生活活动(ADL)的功能独立性量表(FIM)以及包括记忆在内的认知功能,这些因素对预测方程有很强的影响。
先前的研究报告了ADLs与出院去向之间的关系。例如,以往的研究报告称,ADL中的独立程度和医疗必要性是预测患者出院地点的重要因素[25-27]。此外,之前的研究还报道这些ADLs是返回家中的重要因素,不仅对运动功能如此,对认知功能也是如此[28]。在这项研究中,许多ADLs也被列为重要因素,包括不仅仅是运动功能,还包括认知功能。
关于这些方面,首先,将用餐列为重要因素的原因是,在FIM(功能独立性测量)中,用餐反映了一个人是否能够自主进食以及能否进行口腔进食;而在ADL(日常生活活动能力)中,用餐被视为一个难度较低的动作[29,30]。换句话说,一个人是否能完成低水平的饮食活动可以被解释为他们能否完成其他ADL活动的一个筛选评估。从上述分析来看,这被认为会对回归家庭生活产生重要影响。接下来,当我们检查以往研究中关于为何穿衣(下部和上部)被视为重要因素的原因时,有研究表明穿衣行为对返回家中非常重要[31]。另有报告指出,能够独立完成穿衣上半身的患者其运动障碍发生率低于不能自行完成者[32]。此外,许多中风患者正在接受高频率的康复训练,以学习新的穿衣和脱衣动作[33]。换句话说,如果一个人在中风后穿衣能力下降,则很有可能会出现运动功能障碍,并且需要进行高频次的康复干预来获取新的穿衣技巧。如果患者无法学会如何更换衣物,护理人员每天都需要帮助他们,具体来说,由于需要采用考虑到疼痛和跌倒的方法来进行照护,预计照护负担会增加,这被认为是决定其能否回归家庭的一个因素。
接下来,我们将探讨为什么社交互动被列为从居家恢复到工作的影响因素。社交互动指的是你是否能够与他人适当交往。特别是在康复情境中,可以说拒绝康复、言语暴力和忽视都不利于积极的康复[29]。由于难以在这种方式下连接到积极的康复活动,导致康复量、康复频率以及负荷量的不同可能产生,并且这被认为间接影响了回归家庭的情况。
还发现肠道括约肌控制的独立程度影响患者能否回家。之前的研究也表明,是否存在大便失禁会影响患者能否回家[34,35]。关于这一现象的原因,有报告指出,认识到大便失禁会增加中风患者的护理者的负担感[36]。这种照顾他人的负担感被认为会导致身体和精神疲劳、经济压力以及混乱的情况,最终导致人们被迫选择入住机构以避免照顾他人。
接下来,我们将探讨为什么认知功能被列为一个重要因素。众所周知,患痴呆症后很难返回家中[37,38]。在这项研究中,我们可以发现与之前的研究趋势一致。然而,在这项研究中,FIM中的记忆也被列为影响返家的因素之一。回顾相关研究表明,脑卒中后的记忆力减退和痴呆之间存在深层次的联系[39]。FIM记忆评分基于对日常生活中有密切关系的人的认知、对日常生活规律的认知以及完成他人请求的能力。因此,认知或记忆衰退被解释为需要协助进行日常活动和任务,并且照顾者必须不断提示痴呆症患者执行动作。然而,在现实中,很少有机会一直陪在病人身边,这可能是导致他们选择入住机构的一个因素。
除了这项研究之外,还构建了一个由50个变量组成的多维数据集,其中包括五大项目,并用于分析。在监督机器学习中,变量的积累确保了算法的准确性。因此,在使用机器学习预测因变量时,构建一个包含超过一定数量项目的数据集将是重要的。
其中,先前的研究报告了在数据集中包含认知功能的重要性[38]。一些研究表明,仅使用单一的认知功能数据集难以准确预测中风患者出院去向,但据报道,在认知功能基础上加入身体功能可以提高预测中风患者出院去向的准确性[40,41]。在这项研究中,我们也预测了包括ADL项目和认知功能在内的患者的出院去向,并且结果表明预测的准确性很高,支持了先前的研究成果。因此,我们认为通过将认知功能数据集加入到多个项目之一中而不是单独使用它来提高预测出院去向的准确性是可能的。
由于本研究中受试者数量有限,未来的研究应包括更多的受试者,例如通过进行多中心研究。此外,由于这是一项回顾性研究,在解释结果时需谨慎考虑这些因素。另外,尽管我们在本研究中使用了活动水平和身心功能作为变量,但认为社会背景和其他因素也可能影响返回家庭的情况,因此将这些因素也纳入变量可能有助于提高结果的准确性。我们认为解决这些问题是一个挑战。
本研究通过使用随机森林的机器学习方法构建了一个预测住院患者出院去向的算法。该算法能够以87.1%的准确率预测患者是回家还是进入机构护理。此外,算法表明对于中风患者而言,完成日常生活活动(ADLs)的能力和认知功能对返回家中至关重要。另外,建议通过从大量终点数据集中构建数据集来提高预测回家居住的准确性。