4月14日,北京大学生物医学前沿创新中心(BIOPIC)、生命科学联合中心(CLS)、生命科学学院、北京未来基因诊断高精尖创新中心(ICG)张泽民实验室联合百奥智汇在期刊《Nature Communications》上发表了题为“SciBet as a portable and fast single cell type identifier”的生物信息方法学论文,正式发布了基于单细胞转录组数据进行快速有监督细胞类型注释的新工具SciBet。
单细胞转录组测序能够揭示单个细胞的基因表达状态,反映细胞间的异质性,并为鉴定各种细胞的功能提供了重要途径。随着测序技术的发展,测得单个细胞转录组的价格不断下降,数据集的大小呈指数函数增长趋势;与此同时,其应用场景也逐渐从孤立的局部领域拓宽到系统性的物种单细胞图谱上。现阶段鉴定细胞类型流程以无监督鉴定方法为主,即通过聚类方法找到各个细胞类群,并通过类群间差异基因得到其可能的功能进而对其作出生物学注释。而我们可以充分利用已有数据作为参照,利用有监督的方法对新产生的数据集进行注释,这将极大加快基于单细胞转录组测序的研究进程。近年来,有监督细胞类型工具如scmap、Seurat3相继问世,并在分类准确率上趋于饱和。然而,其非参数的本质决定了它们在面对超大规模数据集,如处理未来将要问世的具有数亿细胞的人类细胞图谱数据集(Human Cell Atlas)时,就会因消耗过多的计算时间而显得力不从心。
张泽民实验室的博士生李辰威、刘宝琳联合任仙文副研究员开发的SciBet则有效地解决了这一问题:他们从“同一类型的单细胞表达谱服从同一多项分布”这一基本假设出发,对训练集数据中不同细胞类型分别进行建模,进而通过极大似然估计来对测试集细胞进行有监督注释。在一批金标准数据集交叉验证的测试结果上,SciBet相较于scmap和Seurat3不仅在准确率上取得小幅领先,更是在计算速度上取得了上千倍的优势。用户可仅使用个人电脑,就可以使用SciBet实现每秒10万细胞量级有监督细胞类型预测。在实际应用中,本课题还评估了SciBet在诸如跨数据集、跨测序平台、跨物种场景中的表现,结果证明 SciBet均能稳健准确地完成有监督细胞类型注释任务。而对于测试集中出现了训练集中没有覆盖到的细胞类型,SciBet能够在正确识别这部分细胞的同时保持对其他细胞进行准确的注释。
SciBet算法的流程、性能评测及应用
由于SciBet算法采用了简洁的参数模型,除了速度优势及可解释性强之外,其训练后的模型在存储上也非常高效,并且仅依赖细胞类型个数。如一个普通的拥有数十种细胞类型的数据集的SciBet模型大小不足1MB。基于这一“便携“特性,本项目还发布了近一百个高质量数据集的SciBet预训练模型,这些模型均可以直接导入SciBet的R软件包中。除此之外,本课题还提供了基于JavaScript实现的在线版SciBet(http://scibet.cancer-pku.cn/)。这使得用户无需上传自己的数据到服务器,而仅需在线加载预训练模型或本地加载自定义训练集即可在浏览器中快速完成测试集中的细胞类型鉴定,并得到可视化分类结果。任仙文副研究员表示:“作为面向未来超大规模数据集的单细胞快速注释方法,SciBet将会对单细胞测序领域产生重要积极影响。”
北大-清华生命科学联合中心(CLS)博士生李辰威和北京大学生物医学前沿创新中心(BIOPIC)/生命科学学院博士生刘宝琳为该论文的共同第一作者, BIOPIC/生命科学学院任仙文副研究员和张泽民教授为该论文的共同通讯作者。该课题得到了国家自然科学基金委、北京未来基因诊断高精尖创新中心(ICG)及北京百奥智汇的资助。