3D genome start
📐

3D genome start

 
 

理论部分

1. 研究的必然性

一维提供的信息非常局限➠想探索序列和结构的关系
可以用预测的方法吗?🥲很难,对于蛋白来说都很难
怎么通过数据得到染色体的序列结构的关系?

2. 技术

3D基因组是很早就提出的概念
 
3C
2002年发表的文章Captruing Chromosome Conformation,题目中有3个C,所以叫做3C
怎么能够捕获染色体构象呢?
实验原料:酵母细胞
假设有2条DNA在空间上很近,并且比较稳定
  1. 使用甲醛进行胶联
  1. 用限制性内切酶进行酶切,切割后末端都是粘性末端
  1. 进行粘性末端的连接之前在空间上靠的比较近的序列就连在一起了
  1. 进行PCR,如果有PCR产物,就能说明有离得比较近的DNA
 
巧妙之处:
PCR的引物一定要头对头(5’和3‘头对头才能得到PCR产物)
在这个3C实验中,通过加连接酶和不加连接酶,产生了2组情况,前者能连接在一起,后者不能
添加两个同向的primer(因为是同向的,所以正常情况不应该得到PCR产物),但是如果成功进行了连接,就能够得到PCR的产物了,通过看有没有PCR产物,就能说明是否成功连接,也就是能说明DNA是不是在空间上离得比较近。
而且空间上靠得近的,应该能得到更多产物,信号更强。
缺点:通量低
 
4C
2006年,Nuclear organization of active and inactive chromatin domains unvocered by chromosome conformation captrue-on-chip
特点:可以检测基因组1个位点对全基因组所有位置的相互作用
当时,出现了很多on-chip技术,因为当时还没有Illumina这种高通量测序,如果要做高通量的东西,需要在芯片上
4C技术现在还没有淘汰:因为可以获得单点对全基因组的相互作用(但现在已经不用芯片了,直接测序)
实验原理
  1. 胶联固定
  1. 限制性内切酶酶切
  1. 连接成一条
  1. 再用另一种内切酶酶切,形成一种整齐的模式
  1. 再连接,变成一个环(环上的一部分是我们感兴趣的基因,这一部分的序列我们是知道的,另一部分是基因组的别的部分)
  1. 根据我们知道的那一部分的基因序列设计一对primer,进行PCR
  1. 再进行测序,就知道另一部分的序列了,再mapping到基因组上(这样我们就知道基因组上的哪一部分,和感兴趣的基因在空间上有相互作用)
 
5C
2006年发表,Chromosome Conformation Captrue Carbon Copy
已经被淘汰了,因为只能检测多点对多点的作用
 
3C是金标准,4C是一对所有,5C已经被淘汰,下一步:全基因组所有点对所有点的相互作用
 
Hi-C
【核心技术】,2009年发表
Illumina后,越来越多的研究开始通过测序解决问题
特点:可以检测全基因组,所有位点对所有位点的检测
流程:
🍉PS:2009年发表的Hi-C和现在使用的Hi-C流程有细微不同
  1. 基因组上有非常复杂的3D结构,假设有2条DNA靠得非常近
  1. 通过甲醛胶联,把空间上很近的2条DNA连在一起
  1. 用限制性内切酶酶切,形成粘性末端
  1. 补平,并且加上Biotin标签
  1. 进行平末端的连接
  1. 超声破碎和打断,蛋白的消化。连接的地方有之前的Biotin标签。Biotin是有抗体的,可以把有Biotin的片段全部捕获
  1. 把捕获的片段进行双端测序,两端分别测到之前2个DNA的部分
  1. 再把这两部分分别mapping到基因组。就能判断基因组的这两个地方有相互作用。
 
互作关系分成两类
  • cis 染色质内
  • trans 染色质间
  1. cis
cis interaction,双端测序会得到read1和read2,如果两个reads mapping到了一个染色体,那么这两个reads就叫做cis
结果展示形式:
以heatmap的形式展示(展示的是cis型的),横坐标纵坐标都是染色体上的点,颜色的值,代表两给点相互作用的强度(也就是空间的距离)
  • 对称
  • 有若干个分区,每个分区有分界线
 
Hi-C通过Heatmap得到的最重要的两个发现:
  • TAD
  • compartment
 
原始矩阵(可以用来画Heatmap),被称为Obs,通过校正得到Exp,通过Exp/Obs得到新的矩阵,重新画Heatmap
对新的矩阵进行PCA,分成A(正)和B(负) compartment
coverage:列和
genes:基因密度
H3K27me3:信号强度,代表转录强度,松散
H3K36me3:信号强度,代表转录强度,松散
DNAsel:DNA敏感性信号强度
Eigenvector:第1主成分的正负值,正对应A,负对应B,正的时候基因密度高,信号强
结论:把基因组分成了活跃的部分和不活跃的部分
 
TAD
在heatmap上有很多三角形,就是TAD
TAD:Toppological Associated Domains,拓扑相关区域
2012年,Topological domains
长度300k-1M
结论
  • 在TAD边界上,有强抑制信号
  • 在内部,有gene
把TAD和CTCF(帮助DNA折叠)做相关分析,发现CTCF在边界有明显的富集
  1. Trans
一对reads mapping到不同的染色体上
 
结论(被光学实验确认过):
Trans的数量和Cis的数量有数量级的差距
小染色体通常会聚集在一起(18号染色体除外)
 

发展

3-Hi-C数据处理部分

Hi-C举足轻重
Hi-C代表距离矩阵,可以反推基因组的形状

经典文章

  • 2014年的文章,重构出人的基因组长什么样,后来有人做了光学实验验证
  • 2015年的研究,从A/B compartment的角度,癌症细胞系,正常细胞系,发现小染色体的部分变化比较大,做了A/B compartment的分析,发现癌细胞中,发生了AB的转换(说明活跃的区域不一样了),从3D基因组的角度说明了乳腺癌的发生机制
  • 2015年的研究(cell十大),关于TAD,TAD之间是有边界的,Enhancer增强子,使得更容易转录。如果把左边的boundary敲除,TAD就会融合,就会有新的形状,把疾病机理解释得非常清楚。做了很多动物模型实验(正反都做了)

数据分析部分

Hi-C数据处理 pipeline
graph TD A[fastq alignment] --> B[bam filter MAPQ] B --> C[bam sort by name] C --> D[merge sanme line] D --> J[raw Trans interaction] D --> E[filter enzyme site] E --> F[calculate Cis distance] F --> G[filter Cis at fragment level] G --> H[raw Hi-C matrix] H --> I[normalized Hi-C matrix] J --> H
 
Hi-C Pro最常用的,成熟的分析软件。
 

mapping

Hi-C特点:
  • 双端测序
  • 单端mapping
有很多mapping的策略,Hi-C Pro用的是一刀切的mapping,但是最好的应该是迭代式的iterative mapping。
 

过滤

两种水平的过滤
  • reads level
  • fragment level
reads水平
  • 去掉map不上的reads
  • 去除有冗余的reads
  • 去除特殊的mapping的结果(比如:自联)
  • 去除空间上特殊的结果
notion image
 
 
 

矫正方法

常用normalization方法
5篇paper
 
校正方法
思想:基因组上任何一个位点和其他所有位点的作用总和应该是相等的