人体不断产生各种信号,可以从身体外部测量可穿戴设备。这些生物信号从心率到睡眠状态和血液氧水平不等 - 可以指示某人是否是心情波动也可以用来诊断多种身体或者脑疾病。
收集大量生物信号数据可能相对便宜。研究人员可以组织研究,并要求参与者使用类似于智能手表的可穿戴设备几天。但是,要教机器学习算法以找到特定的生物信号和健康障碍之间的关系,您首先需要教该算法以识别该疾病。那是像我这样的计算机工程师进来的地方。
许多商业智能手表,例如Apple,Alivecor,Google和Samsung的,目前支持心房颤动检测。心房颤动是一种不规则心律的常见类型,而未经治疗可能会导致中风。一种自动检测的一种方法心房颤动是训练机器学习算法,以识别数据中房颤的外观。这种机器学习方法需要大型生物信号数据集,其中标记了房颤的实例。
该算法可以使用标记的实例学习识别生物信号和心房颤动之间的关系。
标签过程可能非常昂贵,因为它需要专家(例如心脏病专家)经过数百万个数据点并标记房颤的每个实例。同样的问题扩展到许多其他生物信号和疾病。
为了解决这个问题,研究人员一直在开发新的方法来培训具有更少标签的机器学习算法。通过首先训练机器学习模型,以填充大规模未标记的生物信号数据的空白,机器学习模型将启动以了解生物信号和标签较少的疾病之间的关系。这称为训练。预处理甚至有助于机器学习模型在完全无关的生物信号上鉴定生物信号和疾病之间的关系。
与生物信号合作的挑战
由于噪音或无关的数据,人的生物信号之间的差异,并且由于生物信号和无序之间的关系可能不清楚,因此发现生物信号和疾病之间的关系可能很困难。
首先,生物信号包含很多噪音。例如,当您在跑步时穿着智能手表时,手表将四处走动。这会导致生物信号在运行期间在不同位置记录的传感器。由于整个运行的位置各不相同,因此生物信号值的波动现在可能是由于记录位置的变化而不是由于生理过程而引起的。
其次,每个人的生物信号都是独一无二的。例如,静脉的位置在人之间常常有所不同。这意味着,即使智能手表戴在每个人的手腕上完全相同的位置,与这些静脉相关的生物信号也从一个人到另一个人的情况下都有不同的记录。相同的基础信号(例如某人的心率)将导致不同的生物信号值。
基础信号本身对于人或人群也可能是独一无二的。普通人的休息心率约为每分钟60-80次,但运动员可以拥有静止的心率低至每分钟30-40次。
最后,生物信号与疾病之间的关系通常很复杂。这意味着这种疾病从观察生物信号时并不明显。
机器学习算法使研究人员可以从数据中学习并说明人们的复杂性,噪音和可变性。通过使用大型生物信号数据集,机器学习算法能够找到适用于所有人的明确关系。
学会填写空白
研究人员可以使用未标记的生物信号数据作为机器学习算法的热身。这个热身或预训练,机器学习算法是为了找到生物信号与疾病之间的关系。这有点像在公园里走来走去,在锻炼一条跑步的路线之前,要获得土地。
有很多方法可以预见机器学习算法。在我的研究与杜比实验室研究员lie lu和先前的研究,教授机器学习算法填写空白。
为此,我们采用生物信号,并人为地造成一定长度的差距,例如一秒钟。然后,我们教机器学习算法以填写缺失的生物信号。这是可能的,因为机器学习算法看到了间隙之前和之后的生物信号的样子。
如果一个人的心率在差距前每分钟约60次,一秒钟的间隙可能会有心跳。在这种情况下,我们对机器学习算法进行训练,以预测何时发生心跳。
一旦我们训练了机器学习算法来做到这一点,它将发现某人的心率与下一次节拍之间的关系。现在,我们可以通过正常的心率和已经学到的生物信号之间的这种关系来训练机器学习算法。这使算法更容易学习心率与心房颤动之间的关系。由于心房颤动的特征是快速和不规则的心跳,并且该算法现在善于预测何时会发生心跳,因此它可以快速学会检测这些不规则性。
填充空白的想法也可以推广到其他生物信号。先前的研究 已显示, 和我们的工作重新确认的是,在一个没有任何标签的情况下,在一个生物信号上预处理模型可以使其从其他标签很少的生物信号中学习临床有用的关系。此快捷方式意味着,研究人员可以在很难收集和标记的生物学习模型上易于收集和使用机器学习模型的生物信号。
更快的疾病检测发展
通过改进预审进,研究人员可以使机器学习算法更好,更有效地检测疾病和疾病。预处理改进减少了专家标记的成本和时间。
用于早期检测的机器学习算法的最新示例是Google的脉搏损失智能手表功能。生物信号预审进的新兴领域可以帮助更快地使用更广泛的生物信号和更广泛的疾病来开发相似的特征。
随着生物信号类型越来越多的数据,研究人员可能能够发现大幅改善疾病和疾病早期发现的关系。发现了较早的疾病和疾病,对患者的治疗计划工作越好。