为了更好地理解Hi-C数据,在此我们简要介绍下基于illumina平台的二代测序文库。 在标准的二代文库中,DNA片段通过末端补平加A,再添加adapters。此时reads的两侧各带发卡结构P5/P7的测序接头,为了获取足够上机的DNA文库,通常还需要进行一轮扩增,扩增后的文库两端各带一种测序接头。 在pool DNA到芯片上时,文库片段首先anneal在芯片的测序接头上,然后用DNA聚合酶进行扩增,DNA生长在芯片上;经过25-28轮的扩增,每条reads被扩增至数以千计的拷贝,利用添加可逆的终止子来检测碱基的组成。通过150轮添加可逆终止子并采集信号即可完成测序。 由于DNA聚合酶的自身的偏性,GC含量相对合适的片段及小片段更容易在芯片生长阶段得到富集。小片段(<150nt)在测序过程中,由于两端各读取150个碱基,就极可能将DNA插入片段读通,从而这部分的DNA就可能被检测到adapter污染。 Hi-C标准文库是标准的Chimera结构,在将两端序列进行比对到基因组上时,理论上两侧pair ends可以分别比对到基因组的两个座位。由于DNA在碎片化过程中,剪切是随机的,因此酶切位点末端补平形成的junction fragment很可能分布在一侧的reads中,常规的比对分析是很难处理chimera的。在HiC-Pro和HiCUP软件中,他们会去识别理论的junction fragment。如HiC-Pro在比对时先进行Global Mapping,后将unmapping的reads用junction fragment序列进行识别并切割,再进行local mapping,最终将数据进行合并。 在实际比对中,即使采用两步比对方式,仍有可能是只有一端序列能比对到基因组中,另外一端无法识别到基因组中,这种情况我们将其归类为Singleton。它产生的原因可能有①adapter污染(先前数据没进行过滤);②另一侧数据质量较差,多数为N的区域;③DNA片段被降解或酶切反应产生星号活性。同时片段过短,150碱基已经读通了生物素标记的位点,但是该位点不是正常的junction fragment。在植物样本中,singleton较为常见,可能与细胞壁破碎不完全,部分细胞质成分进入到反应体系影响酶切有关。 有些植物的基因组存在大量的重复序列,如玉米中85%的序列被认为是重复序列。这对要求两端都要唯一比对的Hi-C而言是巨大的挑战,一旦有一段比对到两个或两个以上的位点,该reads就将被归类到Multiple mapped reads中。 如果在比对过程中,global mapping 和 local mapping均无法将序列识别到特定的位点,这种序列会被归类到Unmapped reads。它可能产生的原因是基因组的组装完整度较差,基因组中存在大量的gap无法识别,被填充为NNNNN。另一个原因是酶切片段较碎,多个酶切片段连接在一起,无法识别到特定座位。 如果两侧数据都能比对到基因组的数据会被统一认为是Unique mapped reads,此时对于动物基因组,unique mapped reads 占测序量(clean reads)50%以上应是可接受的范围。对于植物样本,尤其是重复序列较多的样本,unique mapped reads 比例可能会急剧降低。 在获取unique mapped reads后,要进行进一步过滤,以识别真正有效的interaction reads。 根据Hi-C实验的基本原理PLA(proximity ligation assay)可发现,空间上相互靠近的片段更有机会被连接在一起。因此只有两个来源不同的片段连接在一起才会被认为是标准的文库片段。而这片段是指利用限制性内切酶酶切的Fragments,即唯有两个片段能分别比对到两个不同的酶切片段上,且实际片段(observe)符合理论的片段大小,在分析是才会将其归类到valid pairs中。 因此在分析过程中会将部分无效的数据进行过滤,首先是如果两个片段原本通过一个酶切位点连接在一起,在Hi-C文库中如果该片段即使酶切后添加生物素仍然连接在一起,该片段会被归类到Re-ligation reads中;而如果两个的reads比对到同一个fragment,但是方向相反,则该reads会被认为是首尾相连形成了Self-circle ;如果pair end 同时比对到一个酶切片段上,则该片段会被认为是Dangling ends;如果有一个发现是adapter污染,该reads会被认为是Adapter polluted;如果两侧的end均能比对到基因组的两个酶切片段中,但是观测到的片段大小与理论的片段大小不一致,则该片段会认为是错误连接而被归类为Dumped reads;只有比对到两个酶切片段且片段的理论值等于实际值的reads,才会被认为是Valid pair reads。 Dangling ends 主要来源于两部分,①经DNA连接酶连接反应后,携带生物素的DNA片段末端并未形成嵌合片段,在末端生物素切割的(klenow)时又未将末端的生物素去除,从而进入到最终的文库中;②磁珠洗脱步骤未完全将非特异性结合的DNA洗脱下来。有文章报道,只有将Dangling Ends的比例控制在10-45%以下才会被认为是成功的Hi-C文库 Dump的主要原因在于酶的星号活性导致切割位点不在经典的位点,这有可能是酶切时间过长或反应体系中盐离子浓度和种类不合适导致的;另外一个原因是片段被DNA外切酶降解,使得片段的大小发生了改变。 获得了interaction reads后,要去除文库中完全一样的reads,因为这部分可能是由于PCR扩增导致的Duplication,去除Duplication后,Valid pairs数据可用于后续的滑bin统计分析了。 对于植物样本,尤其是大基因组的植物样本,其unique mapped的比例可能较低,此时为了达到足够的数据量,需要提高测序深度;然而如果对于人、鼠等动物样本,如果unique mapped ratio较低则可能是实验原因。