我们的身体由大约 750 亿个细胞组成。但是每个细胞执行什么功能以及健康人的细胞与患病者的细胞有多大差异?为了得出结论,必须分析和解释大量数据。为此,应用了机器学习方法。慕尼黑工业大学 (TUM) 和亥姆霍兹慕尼黑大学的研究人员现已测试自我监督学习,将其作为测试 2000 万个或更多细胞的有前途的方法。
近年来,研究人员在单细胞技术方面取得了长足的进展。这使得在单个细胞的基础上研究组织并简单地确定单个细胞类型的各种功能成为可能。例如,该分析可用于与健康细胞进行比较,以了解吸烟、肺癌或新冠病毒感染如何改变肺部的单个细胞结构。
与此同时,分析产生的数据量不断增加。研究人员打算应用机器学习方法来支持重新解释现有数据集、从模式中得出结论性陈述并将结果应用于其他领域的过程。
自我监督学习作为一种新方法
Fabian Theis 担任慕尼黑工业大学生物系统数学建模系主任。他与他的团队一起研究了自监督学习是否比其他方法更适合分析大数据量。该研究最近发表在《自然机器智能》杂志上。这种形式的机器学习适用于未标记的数据。不需要预先分类样本数据。这意味着没有必要提前将数据分配给某些组。未标记的数据可以大量使用,并且可以稳健地表示大量数据。
自监督学习基于两种方法。在屏蔽学习中——顾名思义——输入数据的一部分被屏蔽,模型被训练为能够重建缺失的元素。此外,研究人员应用对比学习,其中模型学习组合相似数据和分离不同数据。
该团队使用这两种自我监督学习方法测试了超过 2000 万个单个细胞,并将其与经典学习方法的结果进行了比较。在对不同方法的评估中,研究人员重点关注预测细胞类型和重建基因表达等任务。
虚拟细胞的发展前景
研究结果表明,自我监督学习可以提高性能,尤其是在转移任务方面,即在根据较大辅助数据集的见解分析较小的数据集时。此外,零样本细胞预测(换句话说,无需预训练即可执行的任务)的结果也很有希望。掩蔽学习和对比学习之间的比较表明,掩蔽学习更适合具有大型单细胞数据集的应用。
研究人员正在利用这些数据来开发虚拟细胞。这些是反映不同数据集中细胞多样性的综合计算机模型。例如,这些模型有望用于分析疾病等细胞变化。研究结果为如何更有效地训练和进一步优化此类模型提供了宝贵的见解。