理论部分
1. 研究的必然性
一维提供的信息非常局限➠想探索序列和结构的关系
可以用预测的方法吗?🥲很难,对于蛋白来说都很难
怎么通过数据得到染色体的序列和结构的关系?
2. 技术
3D基因组是很早就提出的概念
3C
2002年发表的文章Captruing Chromosome Conformation,题目中有3个C,所以叫做3C
怎么能够捕获染色体构象呢?
实验原料:酵母细胞
假设有2条DNA在空间上很近,并且比较稳定
- 使用甲醛进行胶联
- 用限制性内切酶进行酶切,切割后末端都是粘性末端
- 进行粘性末端的连接,之前在空间上靠的比较近的序列就连在一起了
- 进行PCR,如果有PCR产物,就能说明有离得比较近的DNA
巧妙之处:
PCR的引物一定要头对头(5’和3‘头对头才能得到PCR产物)
在这个3C实验中,通过加连接酶和不加连接酶,产生了2组情况,前者能连接在一起,后者不能
添加两个同向的primer(因为是同向的,所以正常情况不应该得到PCR产物),但是如果成功进行了连接,就能够得到PCR的产物了,通过看有没有PCR产物,就能说明是否成功连接,也就是能说明DNA是不是在空间上离得比较近。
而且空间上靠得近的,应该能得到更多产物,信号更强。
缺点:通量低
4C
2006年,Nuclear organization of active and inactive chromatin domains unvocered by chromosome conformation captrue-on-chip
特点:可以检测基因组1个位点对全基因组所有位置的相互作用
当时,出现了很多on-chip技术,因为当时还没有Illumina这种高通量测序,如果要做高通量的东西,需要在芯片上
4C技术现在还没有淘汰:因为可以获得单点对全基因组的相互作用(但现在已经不用芯片了,直接测序)
实验原理
- 胶联固定
- 限制性内切酶酶切
- 连接成一条
- 再用另一种内切酶酶切,形成一种整齐的模式
- 再连接,变成一个环(环上的一部分是我们感兴趣的基因,这一部分的序列我们是知道的,另一部分是基因组的别的部分)
- 根据我们知道的那一部分的基因序列设计一对primer,进行PCR
- 再进行测序,就知道另一部分的序列了,再mapping到基因组上(这样我们就知道基因组上的哪一部分,和感兴趣的基因在空间上有相互作用)
5C
2006年发表,Chromosome Conformation Captrue Carbon Copy
已经被淘汰了,因为只能检测多点对多点的作用
3C是金标准,4C是一对所有,5C已经被淘汰,下一步:全基因组所有点对所有点的相互作用
Hi-C
【核心技术】,2009年发表
Illumina后,越来越多的研究开始通过测序解决问题
特点:可以检测全基因组,所有位点对所有位点的检测
流程:
🍉PS:2009年发表的Hi-C和现在使用的Hi-C流程有细微不同
- 基因组上有非常复杂的3D结构,假设有2条DNA靠得非常近
- 通过甲醛胶联,把空间上很近的2条DNA连在一起
- 用限制性内切酶酶切,形成粘性末端
- 补平,并且加上Biotin标签
- 进行平末端的连接
- 超声破碎和打断,蛋白的消化。连接的地方有之前的Biotin标签。Biotin是有抗体的,可以把有Biotin的片段全部捕获
- 把捕获的片段进行双端测序,两端分别测到之前2个DNA的部分
- 再把这两部分分别mapping到基因组。就能判断基因组的这两个地方有相互作用。
互作关系分成两类
- cis 染色质内
- trans 染色质间
- cis
cis interaction,双端测序会得到read1和read2,如果两个reads mapping到了一个染色体,那么这两个reads就叫做cis
结果展示形式:
以heatmap的形式展示(展示的是cis型的),横坐标纵坐标都是染色体上的点,颜色的值,代表两给点相互作用的强度(也就是空间的距离)
- 对称
- 有若干个分区,每个分区有分界线
Hi-C通过Heatmap得到的最重要的两个发现:
-
TAD
compartment
原始矩阵(可以用来画Heatmap),被称为Obs,通过校正得到Exp,通过Exp/Obs得到新的矩阵,重新画Heatmap
对新的矩阵进行PCA,分成A(正)和B(负) compartment
coverage:列和
genes:基因密度
H3K27me3:信号强度,代表转录强度,松散
H3K36me3:信号强度,代表转录强度,松散
DNAsel:DNA敏感性信号强度
Eigenvector:第1主成分的正负值,正对应A,负对应B,正的时候基因密度高,信号强
结论:把基因组分成了活跃的部分和不活跃的部分
TAD
在heatmap上有很多三角形,就是TAD
TAD:Toppological Associated Domains,拓扑相关区域
2012年,Topological domains
长度300k-1M
结论
- 在TAD边界上,有强抑制信号
- 在内部,有gene
把TAD和CTCF(帮助DNA折叠)做相关分析,发现CTCF在边界有明显的富集
- Trans
一对reads mapping到不同的染色体上
结论(被光学实验确认过):
Trans的数量和Cis的数量有数量级的差距
小染色体通常会聚集在一起(18号染色体除外)
发展
3-Hi-C数据处理部分
Hi-C举足轻重
Hi-C代表距离矩阵,可以反推基因组的形状
经典文章
- 2014年的文章,重构出人的基因组长什么样,后来有人做了光学实验验证
- 2015年的研究,从A/B compartment的角度,癌症细胞系,正常细胞系,发现小染色体的部分变化比较大,做了A/B compartment的分析,发现癌细胞中,发生了AB的转换(说明活跃的区域不一样了),从3D基因组的角度说明了乳腺癌的发生机制
- 2015年的研究(cell十大),关于TAD,TAD之间是有边界的,Enhancer增强子,使得更容易转录。如果把左边的boundary敲除,TAD就会融合,就会有新的形状,把疾病机理解释得非常清楚。做了很多动物模型实验(正反都做了)
数据分析部分
Hi-C数据处理 pipeline
graph TD A[fastq alignment] --> B[bam filter MAPQ] B --> C[bam sort by name] C --> D[merge sanme line] D --> J[raw Trans interaction] D --> E[filter enzyme site] E --> F[calculate Cis distance] F --> G[filter Cis at fragment level] G --> H[raw Hi-C matrix] H --> I[normalized Hi-C matrix] J --> H
Hi-C Pro
最常用的,成熟的分析软件。mapping
Hi-C特点:
- 双端测序
- 单端mapping
有很多mapping的策略,
Hi-C Pro
用的是一刀切的mapping,但是最好的应该是迭代式的iterative mapping。过滤
两种水平的过滤
- reads level
- fragment level
reads水平
- 去掉map不上的reads
- 去除有冗余的reads
- 去除特殊的mapping的结果(比如:自联)
- 去除空间上特殊的结果
矫正方法
常用normalization方法
5篇paper
校正方法
思想:基因组上任何一个位点和其他所有位点的作用总和应该是相等的