chapter4-基因组的内容
🏹

chapter4-基因组的内容

一天就可以

1-介绍

关于基因组的关键问题:它包含多少基因?
更根本的问题:什么是基因?
不能将基因仅仅定义为编码多肽的 DNA 序列,因为
  • 许多基因编码多种多肽
  • 许多基因编码具有其他功能的 RNA。
鉴于 RNA 功能的多样性➕基因表达的复杂性,将基因作为转录单位是明智的。
⭕️以前认为没有基因的大面积的染色体区域,现在被认为是广泛转录的
➪目前“基因”的定义是一个不断变化的目标。

在四个水平上描述基因总数和蛋白质编码基因的数量,对应于基因表达的连续阶段:
  1. 基因组
    1. 基因组是生物体的完整基因组。
      最终,它是由完整的 DNA 序列定义的,尽管实际上不可能仅根据序列明确地识别每个基因。
  1. 转录组
    1. 转录组是在特定条件下表达的完整基因集。
      它是根据存在于单个细胞类型、更复杂的细胞组装或完整生物体中的一组 RNA 分子来定义的。因为一些基因产生多个mRNA,转录组可能比基因组中基因的实际数量要大
      转录组包括非编码 RNA(如tRNA、rRNA、miRNA)以及 mRNA。
  1. 蛋白组
    1. 蛋白质组是由全基因组编码或在任何特定细胞或组织中产生的一整套多肽。
      对应于转录组中的 mRNA(但存在 mRNA 和蛋白质的相对丰度或稳定性变化的细节差异)
      也可能对蛋白质进行翻译后修饰,从而允许从单个转录物中产生多个蛋白质。
  1. 交互组
    1. 蛋白质可以独立发挥作用,也可以作为多蛋白或多分子复合物的一部分
      如果我们能够识别所有蛋白质-蛋白质相互作用,我们就可以定义蛋白质独立复合物的总数。

基因组中多肽编码基因的最大数量可以通过ORF 直接确定。
⭕️由于中断基因可能由许多分离的 ORF 组成而变得复杂,并且选择性剪接可能导致使用这些 ORF 的各种组合
我们不一定有关于多肽产物功能的信息(或者确实证明它们完全被表达)
➠这种方法仅限于定义基因组的潜力
⭕️推测任何保守的ORF都可能被表达。

另一种方法是直接根据转录组或蛋白质组来定义基因的数量
✅这保证了正在处理在已知情况下表达真正基因
它使我们能够询问在特定组织或细胞类型中表达了多少基因,在相对表达水平中存在哪些变异,以及在一个特定细胞中表达的基因中有多少是该细胞独有的或也在其他地方表达。
此外,转录组分析可以揭示特定基因产生了多少不同的 mRNA

一个特定的基因是否是必需的?
该基因中的无效突变的表型效应是什么?
如果无效突变是致命的或生物体有明显缺陷,我们可以得出结论,该基因是必需的或至少是有益的。
然而,某些基因的功能可以被消除而对表型没有明显影响。这些基因真的是可有可无的,还是由于基因的缺失导致了选择性劣势,也许是在其他情况下或在更长的时间内?在某些情况下,这些基因功能的缺失可以被冗余机制所抵消,例如基因复制,为基本功能提供备份。
 
 
 

2-基因组图谱显示个体基因组表现出的广泛变异

💡
通过对 DNA 进行测序和识别功能基因来绘制基因组图谱
当序列影响基因功能时,可以在表型水平检测多态性,当它影响限制性内切酶靶位点时,可以在限制性片段水平上检测到,通过直接分析 DNA 在序列水平上可以检测到多态性。 基因的等位基因在序列水平上表现出广泛的多态性,但许多序列变化并不影响功能。

定义基因组的内容本质
  • 绘制和测序在生物体染色体上发现的基因位点
在 DNA 测序的现代技术之前,有几种低分辨率的基因组作图技术。
  • 连锁图以重组频率为单位显示基因座之间的距离;它受限于对可变标记之间重组的观察
    • 这些标记要么是直接可见的(表型性状)
    • 要么是可以以其他方式可视化的(电泳)
  • 限制性图谱是通过用限制性酶将 DNA 切割成片段并测量切割位点之间的碱基对中 DNA 长度(通过电泳凝胶上的迁移确定)的物理距离来构建的。

现在基因组图谱是通过对基因组的 DNA 进行测序来构建的
  • 从序列中,可以识别基因和它们之间的距离。
  • 通过分析 DNA 序列的蛋白质编码潜力,可以推测其功能。
基本假设:自然选择阻止了编码功能产物的序列中有害突变的积累。
颠倒这个论点,我们可以假设带有伴随转录信号的完整编码序列很可能产生功能性多肽❓

通过比较野生型 DNA 序列与突变等位基因的序列,可以确定突变的性质及其在序列中的确切位置。这提供了一种方法来确定连锁图谱物理图谱之间的关系。

研究人员使用类似的技术来识别和测序基因以及绘制基因组图谱。
在每种情况下,方法都是描述一系列可以连接成连续图谱的重叠 DNA 片段。
关键特征是通过它们之间的重叠将每个段识别为与地图上的下一个段相邻,这样我们就可以确保没有丢失任何段
这一原则既适用于将大片段组装成图谱,也适用于连接组成片段的序列。

基因组的原始孟德尔观点将等位基因分类为野生型或突变型。
随后,已经认识到群体中基因的多个等位基因的存在,每个等位基因对表型具有不同的影响。
在某些情况下,将任何一种等位基因定义为野生型甚至可能都不合适

多个等位基因在群体中的一个位点共存称为遗传多态性
多个等位基因作为群体的稳定组成部分存在的任何位点根据定义都是多态性的。
如果两个或多个等位基因在群体中的频率超过 1%,则一个基因座通常被定义为多态性。
🌰没有单一的“正常”眼睛颜色;在不同的个体中发现了许多不同的颜色,它们之间的视觉功能几乎没有差异。

不同等位基因间多态性的基础是什么?
它们具有不同的突变,可能会改变其产品的功能,从而产生表型变化。
这些不同等位基因的种群动态部分取决于它们对表型的选择性影响
🍉如果我们比较这些等位基因的限制性图谱或 DNA 序列,它们也将是多态性的

虽然从表型上看不明显,但野生型本身可能是多态的
野生型等位基因的多个版本可以通过不影响其功能因此不产生表型变异的序列差异来区分。
一个群体可以在基因型水平上具有广泛的多态性。许多不同的序列变体可以存在于一个特定的基因座上
  • 其中一些是明显的,因为它们会影响表型
  • 但另一些是“隐藏的”,因为它们没有可见的影响
这些突变等位基因通常是选择性中性的,它们的种群动态主要是随机遗传漂移的结果

一个基因座可能有多种变化
  • 改变 DNA 序列但不改变多肽产物序列的改变
  • 改变多肽序列但不改变其功能的改变
  • 导致多肽具有不同功能的改变
  • 导致非功能性多肽改变的

当比较相同基因座的等位基因时,单个核苷酸的差异称为单核苷酸多态性(SNP)
平均而言,人类基因组中大约每 1,330 个碱基就会出现一个 SNP。
由 SNP 定义,每个人都是独一无二的。
可以通过直接比较来自不同个体的序列来检测 SNP。

遗传作图的一个目的是获得常见变异的目录
观察到的每个基因组的 SNP 频率预测,在整个人类群体中(考虑到所有活着的人类个体的基因组),应该有超过 1000 万个 SNP 以超过 1% 的频率出现。

现在可以对完整的个体基因组进行测序,并允许评估个体 DNA 水平的变化,包括中性 SNP 和与疾病或疾病易感性相关的那些。
尽管“名人”基因组的测序得到了更多的新闻报道,但匿名个人的快速基因组测序可能会提供更多信息。
现在已经对所有主要种族群体的数百个人类基因组进行了测序,包括丹尼索瓦人和尼安德特人的基因组。
千人基因组计划从 2008 年持续到 2015 年,目标是通过对至少 1000 个人类基因组进行深度测序来识别常见的人类基因变异;最终数字实际上是代表 26 个人口的 2,504 个匿名人类基因组序列。
现在有一个基线数据集,可以扩展以包括原始样本中未表示的人群中的个体。

3-SNP与遗传疾病有关

💡
通过全基因组关联研究,可以确定在患有特定疾病的患者中更常见的 SNP。
遗传标记不仅限于那些影响表型的遗传变化
因此,它们为在分子水平上识别遗传变异的极其强大的技术提供了基础。
一个典型的问题涉及对表型有已知影响的突变,其中相关的基因位点可以放置在遗传图谱上,但我们对相应基因或其产物一无所知。许多破坏性或致命的人类疾病都属于这一类。
🌰囊性纤维化显示出隐性孟德尔遗传,但突变功能的分子性质是未知的,直到它可以作为表征基因的结果被鉴定出来。

如果 SNP 在基因组中随机出现,那么在任何特定目标基因附近或内部都应该有一些 SNP。
研究人员可以通过它们与负责突变表型的基因的密切联系来识别这些标记。
如果我们将患有疾病的患者的 DNA 与健康人的 DNA 进行比较,我们可能会发现患者身上总是存在(或总是不存在)特定的标记

 
notion image
这显示了全基因组关联研究 (GWAS) 的基本方法 其中扫描患者和非患者的整个基因组的 SNP以及与疾病相关的那些 SNP被识别。 疾病不需要由单一基因决定;它也可以是多基因或多因素(具有非遗传影响)疾病。 尽管一些相关的 SNP 可能与该疾病没有功能相关性,但其他 SNP 可能。

识别这些标记有两个重要结果:
  • 它可能会提供一种诊断程序来检测疾病或对它的易感性。
    • 一些具有已知遗传模式但在分子方面没有明确定义的人类疾病不容易诊断
    • 如果 SNP 与表型相关,医疗保健提供者可以使用它的存在来诊断发展该疾病的可能性。
  • 它可能会导致影响疾病的特定基因的分离。

大比例的多态位点意味着每个个体都有一组独特的 SNP
在特定区域发现的特定位点组合称为haplotype,代表完整基因型的一小部分。
该术语现在已扩展为描述等位基因的特定组合或存在于基因组的某些特定区域中的任何其他遗传标记。
使用 SNP制作了人类基因组的详细单倍型图;这使研究人员能够更轻松地绘制致病基因图谱

基因组中某些高度多态性位点的存在为建立明确的亲子关系或将 DNA 样本与特定个体相关联的技术提供了基础。
🌰对于亲子关系有疑问的情况,对潜在父母和孩子之间合适的基因组区域中的haplotype进行比较可以验证这种关系。使用 DNA 分析来识别个体被称为 DNA profiling DNA forensics

4-真核基因组包含非重复和重复DNA序列

💡
基因组变性后 DNA 重新结合的动力学通过它们在基因组中的重复频率来区分序列。
多肽通常由非重复 DNA 中的序列编码。
分类群中较大的基因组不包含更多基因,但具有大量重复 DNA。 大部分适度重复的 DNA 可能由转座子组成。
真核生物基因组的一般性质可以通过变性 DNA 重新结合的动力学来评估。
在大规模 DNA 测序成为可能之前,研究人员广泛使用了这种技术。
重新关联动力学确定了两种一般类型的基因组序列:
  1. 非重复 DNA
    1. 由独特的序列组成:单倍体基因组中只有一个拷贝。
  1. 重复 DNA
    1. 由在每个单倍体基因组中存在多个拷贝的序列组成。

我们可以将重复 DNA 分为两种一般类型:
  1. 中等重复 DNA
    1. 由相对较短的序列组成,这些序列通常在基因组中重复 10 到 1,000 次。
    2. 这些序列分散在整个基因组中,当内含子中的反向重复配对形成双链体区域时
    3. 这些序列是前 mRNA 中高度二级结构形成的原因。
    4. tRNAs 和 rRNAs 的基因也是中度重复的
  1. 高度重复的 DNA
    1. 由非常短的序列(通常少于 100 个碱基对 bp)组成
    2. 这些序列在基因组中出现了数千次,通常组织为串联重复的长区域。
    3. 在外显子中都没有发现任何这种类别。

非重复 DNA 在基因组中所占的比例在分类群之间差异很大
  • 原核生物几乎只包含非重复 DNA。
  • 对于单细胞真核生物,大部分 DNA 是非重复的:不到 20% 的 DNA 属于一个或多个适度重复的成分。
  • 在动物细胞中,多达一半的 DNA 由中度和高度重复的成分代表。
  • 在植物和两栖动物中,中度和高度重复的成分可以占到基因组的 80%,因此非重复的 DNA 被减少到很小的成分。

中度重复 DNA 的一个重要部分由转座子组成,它们能够移动到基因组中的新位置和/或产生额外的自身拷贝。
在一些多细胞真核生物基因组中,它们甚至可能占据基因组的一半以上。

转座子在历史上被视为自私的 DNA
它被定义为在基因组中自我繁殖而不有助于生物体的发育和功能的序列。
转座子不一定是“自私的”,因为它们会引起基因组重排,从而赋予选择性优势。
然而,我们并不真正理解为什么选择性力量不会阻止转座子成为真核基因组中如此大的一部分。
只要它们不中断或删除编码或调节区域,它们可能是选择性中立的。
许多生物体具有活跃的细胞转座抑制机制,这可能是因为在某些情况下会导致有害的染色体断裂。
 
 
另一个用来描述某些基因组中 DNA 明显过剩的术语是垃圾 DNA,意思是没有任何明显功能的基因组序列,尽管这个名称可能只是反映了我们未能理解其中许多序列的功能。
当然,基因组中很可能在新序列的产生和不需要的序列的消除之间存在平衡,并且某些明显缺乏功能的 DNA 比例可能注定要被消除。

 
基因组的非重复 DNA 含量更好地表明了生物体的相对复杂性

什么类型的 DNA 对应于多肽编码基因?
重新结合动力学通常表明 mRNA 是从非重复 DNA 转录的。
因此,非重复 DNA 的数量比基因组的大小更能表明编码潜力。
 

5-真核蛋白质编码基因可以通过外显子和基因组组织的保守性识别

💡
研究人员可以利用外显子的保守性作为识别编码区作为存在于多种生物体中的序列的基础。
识别功能基因的方法并不完美,必须对初步估计进行许多修正。
必须将假基因与功能基因区分开来。
小鼠和人类基因组之间存在广泛的同线关系,大多数功能基因都在同线区域。
鉴定真核蛋白质编码基因的主要方法是基于外显子的保守性和内含子的变异之间的对比。
在包含一个基因的区域中,该基因的功能在一系列物种中是保守的=该多肽的序列应该具有两个独特的特性:
  1. 必须有开放阅读框。
  1. 可能在其他物种中具有相关(直系同源)序列。

研究人员可以利用这些特征来识别功能基因。
在我们确定了基因组的序列之后,我们仍然需要识别其中的基因。
编码序列只占整个基因组的一小部分。
潜在的外显子可以被识别为侧接适当序列的不间断的 ORF。
从一系列外显子中鉴定出功能性(完整)基因需要满足哪些标准?
 
notion image
一个功能基因应该由一系列外显子组成,其中第一个外显子(包含一个起始密码子)紧跟一个启动子,内部外显子的两侧是适当的剪接点,最后一个外显子具有终止密码子并且是其次是3'处理信号;
因此,可以通过将外显子连接在一起来推断以起始密码子开头并以终止密码子结尾的单个 ORF。
内部外显子可以识别为侧翼为剪接点的 ORF。在最简单的情况下,第一个和最后一个外显子分别包含编码区的开始和结束(以及 5' 和 3' 非翻译区)。在更复杂的情况下,第一个或最后一个外显子可能只有未翻译的区域,因此更难以识别。

当基因非常大并且外显子可能相隔很远时,用于连接外显子的算法并不完全有效。
例如,人类基因组的初步分析将 170,000 个外显子映射到 32,000 个基因中。这是不正确的,因为它给出了每个基因平均 5.3 个外显子,而已经完全表征的单个基因的平均值是 10.2。要么我们错过了许多外显子,要么它们应该以不同的方式连接到整个基因组序列中的少数基因中。

即使基因的组织被正确识别,也存在区分功能基因和假基因的问题。
许多假基因可以通过导致无功能编码序列的多重突变形式的明显缺陷来识别。最近起源的假基因没有积累如此多的突变,因此可能更难以识别。在一个极端的例子中,小鼠只有一个功能性编码甘油醛磷酸脱氢酶基因(GAPDH),但有大约400个同源假基因。这些假基因中的大约 100 个最初似乎在小鼠基因组序列中具有功能,因此需要单独检查以将它们从功能基因列表中排除。具有相对完整编码序列但转录信号突变的假基因更难以识别。

如何验证可疑的蛋白质编码基因?
如果可以证明 DNA 序列被转录并加工成可翻译的 mRNA,则假定它是有功能的。
一种实现此目的的技术是逆转录聚合酶链式反应 (RT-PCR),其中从细胞中分离的 RNA 被逆转录为 DNA,随后使用聚合酶链扩增成多个拷贝反应。
然后可以对扩增的 DNA 产物进行测序或以其他方式分析,以查看它们是否具有成熟转录物的适当结构特征。

RT-PCR 也可用于基因表达的定量评估,尽管现在有更好的技术用于此目的。
对来自细胞样本的逆转录 RNA 进行高通量测序(称为深度 RNA 测序或 RNA-seq)可以快速分析和定量样本的转录组。
该技术在遗传模式生物果蝇和秀丽隐杆线虫中的应用揭示了有关整个基因组的基因表达和发育过程中调控网络特征的详细信息。

通过比较不同物种基因组的区域,可以增加对基因功能的信心。
小鼠和人类基因组之间的序列进行了广泛的整体重组,这一简单事实可以看出,人类单倍体基因组中有 23 条染色体,而小鼠单倍体基因组中有 20 条染色体。
然而,在单个染色体区域的水平上,基因的顺序通常是相同的:当比较人类和小鼠的同源基因对时,位于两侧的基因也往往是同源基因。这种关系称为同线性synteny

notion image
显示了小鼠 1 号染色体和人类染色体组之间的关系。该小鼠染色体中的 21 个片段与人类染色体中的同线对应物已被鉴定。这些片段分布在六个不同的人类染色体之间的事实表明了基因组之间发生的改组程度。在所有小鼠染色体中都发现了相同类型的关系,除了 X 染色体,它仅与人类 X 染色体同线。这可以通过 X 是一个特殊情况来解释,根据剂量补偿来调整一个男性副本和两个女性副本之间的差异。这种限制可以对基因进出 X 染色体的易位施加选择性压力。

小鼠和人类基因组序列的比较表明,超过 90% 的每个基因组位于大小范围从 300 kb 到 65 兆碱基 (Mb) 的同线性块中。共有 342 个同线片段,平均长度为 7 Mb(占基因组的 0.3%)。百分之九十九的小鼠基因在人类基因组中具有同源物; 96% 的同源物位于同线区域。

基因组的比较提供了有关物种进化的有趣信息。
小鼠和人类基因组中基因家族的数量是相同的,物种之间的一个主要区别是小鼠基因组中特定家族的差异扩展。这在影响物种特有的表型特征的基因中尤其明显。在小鼠基因组中扩大了大小的 25 个家族中,14 个包含专门参与啮齿动物繁殖的基因,5 个包含特定于免疫系统的基因。

对同线区块识别重要性的验证来自于其中基因的成对比较。例如,一个不在同线位置的基因(即,它的上下文在被比较的两个物种中是不同的)是假基因的可能性是两倍。换句话说,远离原始基因座的基因易位往往与假基因的形成有关。因此,在同线位置缺乏相关基因是怀疑明显基因可能真的是假基因的理由。总体而言,最初通过基因组分析确定的基因中有 10% 以上可能是假基因。

作为一般规则,基因组之间的比较显着增加了基因预测的有效性。当指示功能基因的序列特征是保守的(例如,在人类和小鼠基因组之间)时,它们识别功能直向同源物的可能性就会增加。

识别编码除 mRNA 以外的 RNA 的基因更加困难,因为研究人员无法使用 ORF 标准。
确实,前面描述的比较基因组分析增加了分析的严谨性。例如,仅对人类或小鼠基因组的分析就可以识别出大约 500 个编码 tRNA 的基因,但比较它们的特征表明,实际上在每个基因组中只有不到 350 个基因具有功能。

研究人员可以通过使用表达序列标签 (EST) 定位功能基因,EST 是转录序列的一小部分,通常通过对 cDNA 文库中克隆片段的一端或两端进行测序而获得。 EST 可以确认可疑基因实际上是转录的,或帮助识别影响特定疾病的基因。
通过使用物理作图技术,例如原位杂交,研究人员可以确定 EST 的染色体位置。 (原位杂交是一种识别特定DNA序列的染色体位置的技术。我们也可以用它来确定一个序列在一个细胞中的拷贝数,因此它可以检测特定染色体是否存在异常数量. 这样有助于识别癌细胞,癌细胞通常有一些染色体的额外拷贝。它也常用于诊断疑似遗传疾病。)

 

6-一些真核细胞器有DNA

💡
线粒体和叶绿体具有显示非孟德尔遗传的基因组。通常,它们是母系遗传的。
细胞器基因组可以在植物中进行体细胞分离。
人类线粒体 DNA 的比较表明,它是大约 20 万年前存在于非洲的一个单一种群的后代。

7-细胞器基因组是编码细胞器蛋白的环状DNA

💡
细胞器基因组通常(但不总是)是 DNA 的环状分子。
细胞器基因组编码细胞器中使用的一些蛋白质,但不是全部。
动物细胞线粒体 DNA 非常紧凑,通常编码 13 种蛋白质、2 种 rRNA 和 22 种 tRNA。 由于存在长内含子,酵母线粒体 DNA 比动物细胞 mtDNA 长五倍。

8-叶绿体基因组编码许多蛋白质和RNA

💡
叶绿体基因组的大小各不相同,但大到足以编码 50 到 100 种蛋白质以及 rRNA 和 tRNA。

9-内共生进化的线粒体和叶绿体

💡
线粒体和叶绿体都是细菌祖先的后代。
在细胞器的进化过程中,线粒体和叶绿体基因组的大部分基因已经转移到细胞核中。
一个细胞器是如何进化的包含了一些功能的遗传信息,而其他功能的信息则编码在细胞核中?
线粒体进化的内共生假说
notion image
-
其中原始细胞捕获了提供细胞呼吸功能的细菌,并随着时间的推移进化成线粒体。
起初,原始细胞器必须包含指定其功能所需的所有基因。
对于叶绿体的起源,已经提出了类似的机制。
 
 

序列同源性表明线粒体和叶绿体与不同真细菌共有的谱系分开进化,线粒体与 α-紫色细菌共享起源,而叶绿体与蓝细菌共享起源。
已知与线粒体最接近的细菌是立克次体(斑疹伤寒、落基山斑疹热和其他几种由节肢动物媒介携带的传染病的病原体),它是一种专性的细胞内寄生虫,可能来自自由生活的细菌。这
强化了线粒体起源于内共生事件的观点,该事件涉及立克次体也很常见的祖先。