3月7日,《基因组蛋白质组与生物信息学报》(Genomics,Proteomics & Bioinformatics,简称GPB)发布了2020年度“中国生物信息学十大进展”。我中心高歌课题组凭借“单细胞转录组数据整合检索方法Cell BLAST”顺利入选。
作为细胞异质性研究的重要工具,近年来单细胞转录组测序技术蓬勃发展,产生了大量数据。为有效利用这些宝贵数据,高歌团队开发了单细胞转录组数据整合检索方法Cell BLAST。类比于生物序列研究中的BLAST算法,Cell BLAST可以准确快速地对新产生的单细胞数据在已有数据库中进行检索并注释,在节省了传统根据marker基因手动注释所需时间成本的同时,降低了人工操作可能引入的错误。Cell BLAST算法通过对抗学习有效地解决了单细胞转录组检索中复杂的多层次批次效应问题,并基于对单细胞测量过程内在随机性的刻画,提出了一个新的相似性度量指标NPD,可有效应用于单细胞跨数据集整合检索和比较分析。
为了充分发挥Cell BLAST的检索能力和作用,团队进一步自主构建了涵盖多组织器官的跨物种单细胞转录组参考数据库ACA,并通过网页提供在线服务(https://cblast.gao-lab.org)。该工作为有效利用现有数据进行细胞注释和跨数据集研究提供了新的工具和资源,也展示了计算生物学、生物信息学方法在复杂生物学体系研究中的强大支撑作用。
图:单细胞转录组检索方法Cell BLAST的工作流程
(应用和数据库链接:https://cblast.gao-lab.org)
Cell BLAST首先将待查询数据与ACA数据库中的参考数据同时映射到低维细胞嵌入空间,在该空间中通过对抗学习消除多层次批次效应,并基于对单细胞测量过程内在随机性的刻画,使用NPD距离查询参考数据中与查询数据最相似的细胞,最后利用查询结果进行多角度注释。
相关研究于当地时间2020年7月10日发表于《Nature Communications》,论文题为“Searching large-scale scRNA-seq databases via unbiased cell embedding with Cell BLAST”。博士生Zhi-Jie Cao, Lin Wei为共同第一作者,高歌研究员为通讯作者。
中国生物信息学年度“十大”系列评选工作由中国科学院北京基因组研究所(国家生物信息中心)主办的《基因组蛋白质组与生物信息学报》(Genomics, Proteomics and Bioinformatics,简称GPB)发起组织,旨在推动我国生物信息学的学科发展和创新研究,充分展示和宣传我国生物信息学领域的重大研究成果。高歌研究组人类lncRNA研究成果曾入选2019年度“中国生物信息学十大数据库”。
高歌研究员
高歌,2006年获得北京大学生物信息学博士学位,2011年获聘北京大学生命科学学院、生物信息中心暨蛋白质与植物基因研究国家重点实验室研究员。近五年来,课题组自主开发的十余个生物信息学新算法软件及数据库获得超过 10 亿次的外部有效访问(其中半数以上来自海外),跻身于国内自主开发最具国际影响力的生物信息技术行列。2013年以来,高歌博士作为主要作者在Bioinformatics、Nucleic Acids Research、Genome Research、Molecular Biology and Evolution等生物信息学与基因组学高影响力杂志上发表了13篇论文,其中有4篇被评列为ESI Highly Cited (Top 1%) Paper,引用数在本领域过去10年所有SCI收录论文中位列前1%;另有4篇分别入选了InCoB’16 Best Paper、Faculty of 1000 VeryGood Paper,并被相应杂志标为Highly Accessed Paper。
自2011年以来,高歌博士已连续四届通过全球选举当选为亚太地区最早的生物信息学组织亚太生物信息学网络(Asia Pacific Bioinformatics Network,APBioNET)执行委员会委员暨中国联络员(Liaison),并于2016年起任APBioNET副理事长(Vice President on Education)。2013年,高歌博士作为生物信息学方向唯一的人选获得国家首届万人计划青年拔尖人才计划的支持,并于2014年、2015年作为专家委员暨共同发起人入选了首届中国生物工程学会计算生物学与生物信息学专业委员会、首届中国遗传学会生物大数据专业委员会,并任中国人工智能学会生物信息学与人工生命专业委员会专家委员。