在甲基化芯片中,对于CpG位点所在的区域,会有对应的注释信息,比如
CpG islands
。
CpG island
是基因组上一段CpG位点密度较高的区域,这个概念是非常常见的 ,出了
CpG island
之外,还会有
CpG shores
,
CpG shelves
,
open sea
等情况,这些区域又是如何定义的呢?
有一篇文章详细评估了
450K
芯片所检测的CpG位点在人类基因组的分布
Validation of a DNA methylation microarray for 450,000 CpG sites in the human genome
文章从以下几个方面评估了探针的分布情况
在各条染色体上的分布
可以看到
450K
芯片上的探针覆盖了22条常染色体和两条性染色体上的CpG位点,其中1号染色体上对应的探针最多
在对应的转录本上的分布
CpG位点可能位于基因间区
Intergenic
, 也可能位于基因上,而这个基因可以是编码基因,也可以是非编码基因。
可以看到,位于编码基因上的探针最多,其次是位于基因间区的探针
在基因组上的分布
将整个基因组划分为
Promoter
,
Body
,
3UTR
,
Intergenic
4种区域,其中
Promoter
区又细分为
TSS200
,
TSS1500
,
5UTR
, ‘1stExon’ 4种情况。
可以看到,位于
Pronoter
区的探针最多
在各种CpG区域的分布
CpG shores
等概念是根据与
CpG island
的距离进行定义的。
CpG Shores
指的是位于
CpG island
上下游2kb 以内的区域;
CpG Shelves
指的是位于
CpG shores
上下游2kb以内的区域;
open sea
指的是
CpG islands
,
CpG shores
,
CpG shelves
之外的其他区域。
可以看到,位于
open sea
的探针是最多的。