3D genome start

3D基因组分析从入门到进阶 - 知乎 Live

我们成功举办了数次生物信息学基础入门课程，基本涵盖了，RNA-Seq分析，ChIP-Seq分析，R语言入门，Python语言入门等生物信息学基础内容。在有了一定的基础以后我们又进行了一次转录组分析的进阶课程。总的来说，我们的课程都在在围绕着转录组和表观组在进行，high fashion的内容不是很多。那么本次Live我们就来讲一点很有意思的3D基因组学的相关内容。 ...

https://www.zhihu.com/lives/950044384218091520?deal_id=1484664066065534976

理论部分

1. 研究的必然性

一维提供的信息非常局限➠想探索序列和结构的关系

可以用预测的方法吗？🥲很难，对于蛋白来说都很难

怎么通过数据得到染色体的序列和结构的关系？

2. 技术

3D基因组是很早就提出的概念

2002年发表的文章Captruing Chromosome Conformation，题目中有3个C，所以叫做3C

怎么能够捕获染色体构象呢？

实验原料：酵母细胞

假设有2条DNA在空间上很近，并且比较稳定

使用甲醛进行胶联

用限制性内切酶进行酶切，切割后末端都是粘性末端

进行粘性末端的连接，之前在空间上靠的比较近的序列就连在一起了

进行PCR，如果有PCR产物，就能说明有离得比较近的DNA

巧妙之处：

PCR的引物一定要头对头(5’和3‘头对头才能得到PCR产物)

在这个3C实验中，通过加连接酶和不加连接酶，产生了2组情况，前者能连接在一起，后者不能

添加两个同向的primer（因为是同向的，所以正常情况不应该得到PCR产物），但是如果成功进行了连接，就能够得到PCR的产物了，通过看有没有PCR产物，就能说明是否成功连接，也就是能说明DNA是不是在空间上离得比较近。

而且空间上靠得近的，应该能得到更多产物，信号更强。

缺点：通量低

2006年，Nuclear organization of active and inactive chromatin domains unvocered by chromosome conformation captrue-on-chip

特点：可以检测基因组1个位点对全基因组所有位置的相互作用

当时，出现了很多on-chip技术，因为当时还没有Illumina这种高通量测序，如果要做高通量的东西，需要在芯片上

4C技术现在还没有淘汰：因为可以获得单点对全基因组的相互作用（但现在已经不用芯片了，直接测序）

实验原理

胶联固定

限制性内切酶酶切

连接成一条

再用另一种内切酶酶切，形成一种整齐的模式

再连接，变成一个环（环上的一部分是我们感兴趣的基因,这一部分的序列我们是知道的，另一部分是基因组的别的部分）

根据我们知道的那一部分的基因序列设计一对primer，进行PCR

再进行测序，就知道另一部分的序列了，再mapping到基因组上（这样我们就知道基因组上的哪一部分，和感兴趣的基因在空间上有相互作用）

2006年发表，Chromosome Conformation Captrue Carbon Copy

已经被淘汰了，因为只能检测多点对多点的作用

3C是金标准，4C是一对所有，5C已经被淘汰，下一步：全基因组所有点对所有点的相互作用

Hi-C

【核心技术】，2009年发表

Illumina后，越来越多的研究开始通过测序解决问题

特点：可以检测全基因组，所有位点对所有位点的检测

流程：

🍉PS：2009年发表的Hi-C和现在使用的Hi-C流程有细微不同

基因组上有非常复杂的3D结构，假设有2条DNA靠得非常近

通过甲醛胶联，把空间上很近的2条DNA连在一起

用限制性内切酶酶切，形成粘性末端

补平，并且加上Biotin标签

进行平末端的连接

超声破碎和打断，蛋白的消化。连接的地方有之前的Biotin标签。Biotin是有抗体的，可以把有Biotin的片段全部捕获

把捕获的片段进行双端测序，两端分别测到之前2个DNA的部分

再把这两部分分别mapping到基因组。就能判断基因组的这两个地方有相互作用。

互作关系分成两类

cis 染色质内

trans 染色质间

cis

cis interaction，双端测序会得到read1和read2,如果两个reads mapping到了一个染色体，那么这两个reads就叫做cis

结果展示形式：

以heatmap的形式展示(展示的是cis型的)，横坐标纵坐标都是染色体上的点，颜色的值，代表两给点相互作用的强度（也就是空间的距离）

对称

有若干个分区，每个分区有分界线

Hi-C通过Heatmap得到的最重要的两个发现：

TAD

compartment

原始矩阵（可以用来画Heatmap），被称为Obs，通过校正得到Exp，通过Exp/Obs得到新的矩阵，重新画Heatmap

对新的矩阵进行PCA，分成A(正)和B(负) compartment

coverage：列和

genes：基因密度

H3K27me3：信号强度，代表转录强度，松散

H3K36me3：信号强度，代表转录强度，松散

DNAsel：DNA敏感性信号强度

Eigenvector：第1主成分的正负值，正对应A，负对应B，正的时候基因密度高，信号强

结论：把基因组分成了活跃的部分和不活跃的部分

TAD

在heatmap上有很多三角形，就是TAD

TAD：Toppological Associated Domains，拓扑相关区域

2012年，Topological domains

长度300k-1M

结论

在TAD边界上，有强抑制信号

在内部，有gene

把TAD和CTCF（帮助DNA折叠）做相关分析，发现CTCF在边界有明显的富集

Trans

一对reads mapping到不同的染色体上

结论（被光学实验确认过）：

Trans的数量和Cis的数量有数量级的差距

小染色体通常会聚集在一起（18号染色体除外）

发展

3-Hi-C数据处理部分

Hi-C举足轻重

Hi-C代表距离矩阵，可以反推基因组的形状

经典文章

2014年的文章，重构出人的基因组长什么样，后来有人做了光学实验验证

2015年的研究，从A/B compartment的角度，癌症细胞系，正常细胞系，发现小染色体的部分变化比较大，做了A/B compartment的分析，发现癌细胞中，发生了AB的转换（说明活跃的区域不一样了），从3D基因组的角度说明了乳腺癌的发生机制

2015年的研究（cell十大），关于TAD，TAD之间是有边界的，Enhancer增强子，使得更容易转录。如果把左边的boundary敲除，TAD就会融合，就会有新的形状，把疾病机理解释得非常清楚。做了很多动物模型实验（正反都做了）

数据分析部分

Hi-C数据处理 pipeline


graph TD
    A[fastq alignment] --> B[bam filter MAPQ]
    B --> C[bam sort by name]
    C --> D[merge sanme line]
    D --> J[raw Trans interaction]
    D --> E[filter enzyme site]
    E --> F[calculate Cis distance]
    F --> G[filter Cis at fragment level]
    G --> H[raw Hi-C matrix]
    H --> I[normalized Hi-C matrix]
    J --> H

Hi-C Pro最常用的，成熟的分析软件。

8篇文章？https://www.science.org/doi/10.1126/science.1181369