单细胞测序技术的出现使我们能够从一个新的维度去理解细胞的行为,包括命运决定,发育过渡,以及对胁迫和疾病的反应,ScRNA-seq数据分析从降维、聚类和细胞定义开始,在此基础之上再开展差异分析、富集分析、细胞通讯等各种高级和个性化分析。做过项目的老师一定深有感触,在单细胞聚类分群后,如何定义每一类细胞群是整个单细胞分析的基础,也是重中之重,但同时也是非常耗时、非常复杂的一步。
那么具体如何鉴定不同cluster的细胞类型呢?通用的方法有两种:一种是通过细胞类型特异性表达的marker基因识别;第二种是建立已知细胞类型的转录谱数据库,将未知细胞类型的表达谱数据与之比较相似性,推测它最有可能是哪种细胞。第一种方法需要人工收集marker基因比对各个cluster的显著高表达基因综合分析,第二种方法可以使用SingleR包自动识别细胞类型。建议两种方法结合起来进行细胞鉴定。
在正式介绍鉴定方法之前我们首先来明确一下细胞类型鉴定的目的:
1、确定单细胞测序样本的异质性组成,比如肿瘤微环境;
2、针对性分析研究单细胞测序数据;
3、从测序结果中找到新的细胞类型。
一、 人工鉴定细胞类型
首先需要清楚用于单细胞测序的样本中主要包含哪些细胞类型,例如PBMC样本,包含T细胞、B细胞、单核细胞、粒细胞;肿瘤样本可能会包含肿瘤细胞、上皮细胞、内皮细胞、成纤维细胞等,如果对所研究的组织包含哪些细胞类型不是很清楚,可以参考数据库,例如Cellmarker。一些常见的marker基因如下:
或可依据细胞周期、细胞的迁移以及分化状态鉴定(如下图)
二、 SingleR软件自动识别细胞类型
SingleR是一个基于R包的软件,具有丰富的参考数据(区分主类型和子类型、单细胞型和群体型):A、HPCA:hand-annotated Human Primary Cell Atlas(手工注释的人类原始细胞图谱),包含37个主要类型、157个亚型以及713个样本;B、BluePrint+ENCODE:24个主要类型、43个亚型、259个bulk转录组测序样本;C、小鼠:ImmGen和mouse.rnaseq数据库。
软件会根据每个细胞或cluster的基因表达均值与样本之间的相关性进行鉴定。对于每种细胞类型,使用其表达中值大于所有其他细胞类型中前N个基因表达中值的细胞进行关联,每种细胞类型的SingleR得分是相关性的80%。循环往复,最后以得分最高的为准。
以上就是关于细胞类型鉴定的两种方法分享啦,大家在判定的过程中最好是将两者结合起来,祝各位一判一个准儿~