chapter5-基因组序列和进化

看的不大认真

5.1 简介

自从 1995 年对第一个完整的生物体基因组进行测序以来，测序的速度和范围都大大提高了。

第一个被测序的基因组是小于 2 Mbp 小型细菌基因组。

到 2002 年，大约 3,200 Mb 的人类基因组已被测序。

现已对多种生物体的基因组进行测序，包括细菌、古生菌、酵母菌和其他单细胞真核生物、植物和动物，包括蠕虫、苍蝇和哺乳动物。

基因组序列提供的最重要的一条信息是基因的数量

Mycoplasma genitalium(生殖支原体)，一种自由生活的寄生细菌，拥有所有生物体中已知最小的基因组，只有大约 470 个基因。

自由生活细菌的基因组有 1,700 到 7,500 个基因。

太古代基因组的基因范围较小，只有 1,500 到 2,700 个。

最小的单细胞真核基因组有大约 5,300 个基因。

线虫和果蝇分别有大约 21,700 和 17,000 个基因。

哺乳动物基因组的数量仅上升到 20,000 到 25,000 个

~~~~

一个细胞至少需要大约 500 个基因

一个自由生活的细胞需要大约 1,500 个基因

一个真核细胞需要超过 5,000 个基因

一个多细胞生物需要超过 10,000 个基因

一个具有神经系统的生物体需要超过 13,000 个基因

🍉许多物种的基因数量超过了所需的最低数量，因此基因数量可能有很大差异，即使在密切相关的物种中也是如此。

在原核生物和单细胞真核生物中，大多数基因都是独一无二的。

在多细胞真核基因组中，一些基因被排列成相关成员的家族。

不同家族的数量可能比基因的数量更能说明生物体的整体复杂性

关键信息：比较基因组序列

越来越多的完整基因组序列为研究基因组结构和组织提供了宝贵的机会。

随着相关物种的基因组序列变得可用，不仅可以比较个体基因差异，还可以比较基因分布、非重复和重复 DNA 的比例及其功能潜力、拷贝数等方面的大规模基因组差异的重复序列。

通过进行这些比较，可以深入了解影响个体物种基因组的历史遗传事件，以及这些事件之后起作用的适应性和非适应性力量。

1990 年代末和 2000 年代初遗传“模式生物”的基因组序列的可用性允许在主要分类群之间进行比较，例如原核生物与真核生物、动物与植物、或脊椎动物与无脊椎动物。

最近，来自较低级别分类群（下至属）的多个基因组的数据允许更仔细地检查基因组进化。

(这种比较的优点是可以突出最近发生的变化，并且不会被其他变化所掩盖，例如同一位点的多个突变)

此外，可以探索特定于分类群的进化事件。

例如，人类与黑猩猩的比较可以提供有关灵长类动物特异性基因组进化的信息，尤其是与小鼠等外群（一种不太密切相关但足够接近以显示出实质性相似性的物种）相比时。

比较基因组学领域最近的一个里程碑是完成了近 30 种果蝇属的基因组序列。

随着来自同一物种的更多基因组变得可用，这些类型的精细比较将继续进行。

比较基因组学可以解决哪些问题？

可以通过比较来自共同祖先的基因来探索单个基因的进化。

在某种程度上，基因组的进化是单个基因集合进化的结果，因此比较基因组内和基因组之间的同源序列可以帮助回答有关发生的适应性（即自然选择）和非适应性变化的问题到这些序列。
塑造编码序列的力量通常与影响同一基因的非编码区（例如，内含子、非翻译区或调控区）的力量完全不同：编码区和调控区更直接地影响表型（尽管方式不同），进行选择它们进化的一个比非编码区域更重要的方面。

可以探索导致基因组结构发生变化的机制，例如基因复制、重复阵列的扩展和收缩、转座和多倍化。

5.2 原核基因数量范围超过一个数量级

💡

寄生原核生物的最小基因数约为 500；自由生活的非寄生原核生物最小基因数约为 1,500

原核生物基因组序列显示，大部分 DNA编码 RNA 或多肽。

原核生物基因组大小的范围是一个数量级

基因组大小与基因数量成正比。

典型基因的平均长度不到 1,000 bp。

所有基因组大小低于 1.5 Mb 的原核生物都是寄生生物

它们的基因组大小表明细胞有机体所需的最少功能数量。

与具有较大基因组的原核生物相比，所有类别的基因数量都减少了，但最显着的减少是编码涉及代谢功能（主要由宿主细胞提供）和基因表达调节的酶的基因座。

生殖支原体基因组最小，约有470个基因。

古生菌的生物学特性介于其他原核生物和真核生物之间，但它们的基因组大小和基因数量与细菌的范围相同。

它们的基因组大小从 1.5 到 3 Mb 不等，对应于 1,500 到 2,700 个基因。

原核生物基因组的大小超过一个数量级，从 0.6 Mb 到小于 8 Mb。

更大的基因组有更多的基因。

大肠杆菌基因组的大小在原核生物范围的中间。

仍然不知道所有基因的功能。

超过 80% 的基因的功能已被确定。

在大多数这些基因组中，大约 60% 的基因可以根据与其他物种中已知基因的同源性进行鉴定。

这些基因大致相同地归入其产物在代谢、细胞结构或成分运输以及基因表达及其调节中起作用的类别。

在几乎每个基因组中，20% 的基因尚未被赋予任何功能。

许多这些基因可以在相关生物中找到，这意味着它们具有保守的功能。

人们一直强调对病原菌的基因组进行测序。

通过证明致病性岛是其基因组的特征，已经提供了对致病性性质的重要见解。

这些大区域（从 10 到 200 kb）存在于致病物种的基因组中，但不存在于相同或相关物种的非致病变异的基因组中。它们的 GC 含量通常与基因组的其余部分不同，并且这些区域很可能通过水平转移过程在细菌之间传播。例如，引起炭疽的细菌（炭疽杆菌）有两个大质粒（染色体外 DNA 分子），其中一个有一个致病岛，其中包括编码炭疽毒素的基因。

5.3 已知几种真核生物的总基因数

💡

酵母中有 6,000 个基因线虫21,700 ；苍蝇 17,000 ；拟南芥25,000 ；哺乳动物 20,000 到 25,000 只。

对真核生物来说，基因组大小和基因数量之间的相关性较低

可以通过序列分析发现的新型基因的数量

基于序列对长阅读框的识别是相当准确的

然而，编码少于 100 个氨基酸的 ORF 不能仅通过序列识别，因为假阳性的发生率很高。

🌰在酿酒酵母中，600 个这样的 ORF 中只有大约 300 个可能是功能基因。

验证基因结构的一个有效方法是比较密切相关物种的序列：

如果一个基因是有功能的，它很可能是保守的。

果蝇基因组大于线虫基因组，但在各种物种中可获得完整基因组信息的基因较少。

由于选择性剪接，不同转录本的数量稍大一些。

基因数量与生物体复杂性之间缺乏确切的关系

真核多肽的大小比原核生物的要大。

长度的增加是由于添加了额外的结构域，每个结构域通常由 100 到 300 个氨基酸组成。

然而，多肽大小的增加只是基因组大小增加的很小一部分。

通过计算表达的蛋白质编码基因的数量来获得对基因数量的另一种见解。

如果我们依靠对细胞中可计数的不同信使 RNA (mRNA) 种类数量的估计，我们会得出结论，平均脊椎动物细胞表达大约 10,000 到 20,000 个基因。

不同细胞类型中 mRNA 种群之间存在显着重叠表明生物体的总表达基因数应在同一数量级内。

对大约 20,000 个人类基因总数的估计意味着总基因数的很大一部分实际上是在任何特定细胞中表达的。

真核基因是单独转录的，每个基因产生一个单顺反子 mRNA。

这个规则只有一个普遍的例外：在秀丽隐杆线虫的基因组中，大约 15% 的基因被组织成转录为多顺反子 mRNA 的单元

5.4 有多少种不同类型的基因？

💡

- 基因的数量和基因家族的数量之和是对基因类型数量的估计。

蛋白质组的最小大小可以从基因类型的数量来估计。

有些基因是独一无二的；其他属于其他成员相关的家庭（但通常不相同）。

随着基因组大小的增加，独特基因的比例下降，家族中的基因比例增加。

有些基因存在不止一个拷贝或彼此相关，因此不同类型基因的数量少于基因的总数。

我们可以将基因总数分成具有相关成员的集合，通过比较它们的外显子来定义。

基因类型的数量是通过将数量相加来计算的。独特基因与有两个或更多成员的家庭数量有关。

如果每个基因都被表达，那么基因总数将占生物体（蛋白质组）所需的多肽总数。然而，有两个因素会导致蛋白质组与总基因数不同。

基因可以复制，因此，它们中的一些编码相同的多肽，而另一些可能编码也发挥相同作用的相关多肽在不同的时间或不同的细胞类型。

其次，蛋白质组可以大于基因的数量，因为一些基因可以通过可变剪接或其他方式产生不止一种多肽。

什么是核心蛋白质组——生物体中不同类型多肽的基本数量？

尽管由于选择性剪接的可能性而难以估计，但最低估计值是由基因家族的数量提供的

按蛋白质类型划分的蛋白质组分布是什么？

酵母蛋白质组的 6,000 种蛋白质包括 5,000 种可溶性蛋白质和 1,000 种跨膜蛋白质。

大约一半的蛋白质在细胞质中，四分之一在细胞核中，其余的在线粒体和内质网 (ER)/高尔基体系统之间分裂。

有多少基因是所有生物体共有的，有多少基因是低级分类群特有的？

在不同物种中编码相应多肽的基因称为直系同源基因或直系同源物。

在操作上，我们通常认为不同生物体中的两个基因是直系同源物，如果它们的序列相似超过 80% 的长度。按照这个标准，大约 20% 的果蝇基因在酵母和蠕虫中都有直系同源物。

这些基因可能是所有真核生物都需要的。当比较苍蝇和蠕虫时，该比例增加到 30%，可能代表增加了多细胞真核生物共有的基因功能。这仍然使大部分基因分别编码苍蝇或蠕虫所需的蛋白质。

生物体蛋白质组大小的最小估计可以从基因的数量和结构中推断出来，细胞或生物体蛋白质组的大小也可以通过分析细胞或生物体的总多肽含量来直接测量。

使用这些方法，研究人员已经确定了一些在基因组分析的基础上没有被怀疑的蛋白质。这导致了新基因的鉴定。

研究人员使用多种方法对蛋白质进行大规模分析。

他们可以使用质谱法分离和鉴定直接从细胞或组织获得的混合物中的蛋白质。

带有标签的杂合蛋白可以通过表达通过将ORF的序列连接到适当的表达载体上制备的cDNA而获得，该表达载体结合了亲和标签的序列。这允许使用阵列分析来分析产品。这些方法还可以有效地比较两种组织的蛋白质——例如，来自健康个体的组织和来自患有疾病的患者的组织——以查明差异。

在我们知道蛋白质的总数之后，我们可以询问它们是如何相互作用的。

根据定义，结构多蛋白组装中的蛋白质必须彼此形成稳定的相互作用。此外，信号通路中的蛋白质会短暂地相互作用。在这两种情况下，这种相互作用都可以在测试系统中检测到，其中基本上是读出系统放大了相互作用的影响。此类测定不能检测所有相互作用；例如，如果代谢途径中的一种酶释放出一种可溶性代谢物，然后与下一种酶相互作用，则蛋白质可能不会直接相互作用。

成对相互作用的分析可以为我们提供独立结构或途径的最小数量的指示。

对所有 6,000 种预测的酵母蛋白在成对组合中相互作用的能力的分析表明，大约 1,000 种蛋白质可以与至少一种其他蛋白质结合。对复合物形成的直接分析已在 232 种多蛋白复合物中鉴定出 1,440 种不同的蛋白质。这是分析的开始，将导致定义功能组件或路径的数量。对 8,100 种人类蛋白质的可比分析确定了 2,800 种相互作用，但这在更大蛋白质组的背景下更难以解释。

假基因

除了功能基因外，还有一些基因的拷贝已经变得无功能。

假基因的数量可能很大。

其中一些假基因可能起到作为调节性 microRNA 靶标的作用

5.5 人类基因组的基因比最初预期的要少

💡

只有 1% 的人类基因组由外显子组成。

外显子约占每个基因的 5%，因此基因（外显子加内含子）约占基因组的 25%。人类基因组有大约 20,000 个基因。

大约 60% 的人类基因是交替剪接的。多达 80% 的可变剪接会改变蛋白质序列，因此人类蛋白质组有 50,000 到 60,000 个成员。

哺乳动物基因组的大小范围通常很窄，平均约为 3 × 10^9 bp

🐁🐁🐁

小鼠基因组比人类基因组小约 14%，可能是因为它的缺失率更高。

基因组包含相似的基因家族和基因，大多数基因在另一个基因组中具有直系同源物，但家族成员的数量不同，特别是在功能特定于物种的情况下。

最初估计有大约 30,000 个基因，现在估计小鼠基因组比人类基因组有更多的蛋白质编码基因，大约 25,000 个。

小鼠基因的分布：25,000 个蛋白质编码基因伴随着大约 3,000 个代表不编码蛋白质的 RNA 的基因；这些通常很小（除了核糖体 RNA）。这些基因中几乎有一半编码转移 RNA。除功能基因外，已鉴定出约 1,200 个假基因。

单倍体人类基因组包含 22 个常染色体以及 X 和 Y 染色体。

染色体大小范围为 45 到 279 Mb，总基因组大小为 3,235 Mb（约 3.2 × 10 9 bp）。

根据染色体结构，基因组可分为常染色质区域和异染色质区域，功能基因的密度要低得多。

常染色质构成基因组的大部分，约 2.9 × 10^9 bp。

鉴定出的基因组序列代表了超过 90% 的常染色质。

除了提供有关基因组遗传内容的信息外，该序列还确定了可能具有结构重要性的特征。

人类基因组的极小部分（约 1%）由实际编码多肽的外显子构成。

构成剩余蛋白质编码基因序列的内含子使与产生蛋白质有关的 DNA 总数达到约 25%。

人类基因的平均长度为 27 kb，有 9 个外显子，总编码序列为 1,340 bp。

因此，平均编码序列仅为平均蛋白质编码基因长度的 5%

人类基因组的两次独立测序工作分别产生了 30,000 和 40,000 个基因的估计值。

分析准确性的一种衡量标准是它们是否识别出相同的基因。

令人惊讶的答案是两组基因之间的重叠仅约 50%

早期基于 RNA 转录本对人类基因集的分析已经确定了大约 11,000 个基因，几乎所有这些基因都存在于两个大型人类基因集中，并且占它们之间重叠的主要部分。

所以每个人类基因组的一半的真实性是毫无疑问的

但是我们还没有确定每个基因组的另一半之间的关系。

这些差异说明了大规模序列分析的缺陷！随着对序列的进一步分析（以及其他基因组的测序可以与之比较），实际基因的数量已经下降，现在估计约为 20,000。

无论如何，人类基因总数比最初估计的要少得多——在基因组测序之前，大多数估计约为 100,000。

然而，我们不应该对不需要大量额外基因就能制造出更复杂的有机体这一概念感到特别惊讶。

人类和黑猩猩基因组之间的 DNA 序列差异非常小（有 98.5% 的相似性），因此很明显，一组相似基因之间的功能和相互作用会产生不同的结果。

特定基因组的功能可能特别重要，因为对人类和黑猩猩直系同源基因的详细比较表明，某些类型的基因已经快速进化，包括一些参与早期发育、嗅觉和听觉的基因——所有这些功能都是相对专业于这些物种。

蛋白质编码基因的数量少于潜在多肽的数量，因为选择性剪接、交替启动子选择和交替多聚 (A) 位点选择等机制可能导致来自同一基因的多个多肽。

人类的选择性剪接程度大于苍蝇或蠕虫；它影响超过 60% 的基因（可能超过 90%），因此人类蛋白质组相对于其他真核生物的大小增加可能大于基因数量的增加。

来自两条染色体的基因样本表明，实际上导致多肽序列变化的可变剪接比例约为 80%。

如果这发生在全基因组范围内，蛋白质组的大小可能是 50,000 到 60,000 个成员。

然而，就基因家族数量的多样性而言，人类与其他真核生物之间的差异可能并没有那么大。

许多人类基因属于基因家族。对 20,000 多个基因的分析确定了 3,500 个独特基因和 10,300 个基因对

5.6 基因和其他序列在基因组中是如何分布的？

💡

❗️重复序列（存在于多个拷贝中）占人类基因组的 50% 以上。

大部分重复序列由非功能性转座子的副本组成。

大染色体区域有许多重复。

基因是否均匀分布在基因组中？

一些染色体相对“基因贫乏”，超过 25% 的序列为“沙漠”——长度超过 500 kb 的区域，没有 ORF。即使是基因最丰富的染色体也有超过 10% 的序列是沙漠。

所以总的来说，大约 20% 的人类基因组由没有蛋白质编码基因的沙漠组成。

重复序列分为5类

转座子（活性或非活性）占重复序列的大部分（占基因组的 45%）。

所有转座子都存在于多个copy中。

加工后的假基因，总共约 3,000 个，约占总 DNA 的 0.1%。

这些是通过将 mRNA 序列的逆转录 DNA 拷贝插入基因组而产生的序列

简单序列重复（高度重复的 DNA，如 CA 重复）约占基因组的 3%。

片段重复（已复制到新区域的 10 到 300 kb 的块）约占基因组的 5%。

对于一小部分病例，这些重复出现在同一条染色体上；
在其他情况下，重复项位于不同的染色体上。

串联重复形成一种序列的块。

尤其存在于着丝粒和端粒。

人类基因组的序列强调了转座子的重要性。

许多转座子具有自我复制和插入新位置的能力。它们可以仅作为 DNA 元件发挥作用，也可以具有 RNA 的活性形式。

人类基因组中的大多数转座子都没有功能。

目前活跃的很少。

然而，这些元素占据的基因组比例很高，表明它们在塑造基因组方面发挥了积极作用。

一个有趣的特征是，一些目前具有功能的基因起源于转座子，并在失去转座能力后进化成现在的状态。至少有 50 个基因似乎以这种方式起源。

最简单的节段复制涉及染色体内某些区域的串联复制（通常是由于减数分裂时的异常重组事件）。

然而，在许多情况下，重复区域位于不同的染色体上，这意味着要么最初存在串联重复，然后将一个拷贝易位到新位点，要么完全由某种不同的机制产生重复。

片段复制的极端情况是整个基因组被复制，在这种情况下，二倍体基因组最初变成四倍体。

随着复制的副本彼此进化出差异，基因组可以逐渐变成有效的二倍体，尽管不同副本之间的同源性留下了事件的证据。🌳这在植物基因组中尤其常见。

人类基因组分析的现状确定了许多单独的重复区域，并且有证据表明脊椎动物谱系中存在全基因组重复

人类基因组的一个奇怪特征是存在似乎不具有编码功能但仍显示出高于背景水平的进化保守性的序列。

通过与其他基因组（例如，小鼠基因组）的比较检测到，这些基因组约占总基因组的 5%。

这些序列是否以某种功能方式与蛋白质编码序列相关联？

它们在 18 号染色体上的密度与基因组其他地方的密度相同，尽管 18 号染色体的蛋白质编码基因浓度明显较低。这间接表明它们的功能与蛋白质编码基因的结构或表达无关。

5.7 Y 染色体有几个男性特异性基因

💡

Y染色体有大约60个在睾丸中特异性表达的基因。

男性特异性基因存在于重复染色体片段中的多个拷贝中。

多个拷贝之间的基因转换允许在进化过程中保持活性基因。

人类基因组的序列大大扩展了我们对性染色体作用的理解。

人们普遍认为 X 和 Y 染色体来自一对共同的、非常古老的常染色体对。

它们的进化涉及一个过程，在这个过程中，X 染色体保留了大部分原始基因，而 Y 染色体失去了大部分。

X 染色体就像常染色体，因为女性有两个拷贝，并且它们之间可以发生交叉。

X染色体上的基因密度与其他染色体上的基因密度相当。

Y染色体比X染色体小得多，基因也少得多。

它的独特作用源于只有男性拥有 Y 染色体，其中只有一个拷贝，因此 Y 连锁基因座实际上是单倍体，而不是像所有其他人类基因一样的二倍体。

多年来，人们认为 Y 染色体几乎不携带任何基因，只有一个或几个决定雄性的基因。

Y 染色体的大部分（其序列的 95% 以上）不与 X 染色体发生交叉，这导致认为它不能包含活性基因，因为没有办法防止有害物质的积累。

该区域的两侧是短的假常染色体区域，在男性减数分裂期间经常与 X 染色体交换。它最初被称为非重组区域，但现在已重新命名为雄性特异性区域。

Y 染色体的详细测序表明，雄性特异性区域包含三种类型的序列

X 转座序列由总共 3.4 Mb 组成，其中包含一些大块，这些大块是大约 3 或 400 万年前 X 染色体中带 q21 的转座产生的。这是特定于人类血统的。这些序列不与 X 染色体重组，并且在很大程度上变得不活跃。它们现在只包含两个功能基因。

Y 染色体的 X 简并片段是与 X 染色体具有共同起源的序列（回到 X 和 Y 都来自的共同常染色体）并包含与 X 连锁基因相关的基因或假基因。有14个功能基因和13个假基因。到目前为止，功能基因已经克服了基因从不能在减数分裂时重组的染色体区域中消除的趋势。

扩增片段的总长度为 10.2 Mb，并在 Y 染色体上内部重复。有八个大回文块。它们包括九个蛋白质编码基因家族，每个家族的拷贝数从 2 到 35 不等。扩增子的名称反映了序列在 Y 染色体上被内部扩增的事实。

将这三个区域的基因加起来，Y染色体包含156个转录单位，其中一半代表蛋白质编码基因，一半代表假基因。

功能基因的存在可以通过以下事实来解释：扩增片段中密切相关的基因拷贝的存在允许基因的多个拷贝之间的基因转换用于再生功能拷贝。对一个基因的多个拷贝最常见的需求是定量的（提供更多的蛋白质产物）或定性的（编码具有略微不同特性或在不同时间或不同组织中表达的蛋白质）。然而，在这种情况下，基本功能是进化的。实际上，多拷贝的存在允许 Y 染色体自身内的重组来替代通常由等位基因染色体之间的重组提供的进化多样性。

扩增片段中的大多数蛋白质编码基因在睾丸中特异性表达，并可能参与雄性发育。如果在大约 20,000 个人类基因组中大约有 60 个这样的基因，那么男性和女性之间的遗传差异只有 0.3% 左右。

5.8 有多少基因是必需的？

💡

并非所有基因都是必需的。在酵母和果蝇中，少于 50% 的基因的个别缺失具有可检测的影响。

当两个或多个基因是多余的时，其中任何一个的突变都可能不会产生可检测的影响。

我们并不完全了解基因组中明显可有可无的基因的持久性persistence。

自然选择的力量确保功能基因保留在基因组中。

突变是随机发生的，ORF 中常见的突变效应是破坏蛋白质产物。

具有破坏性突变的生物将在竞争中处于劣势，最终该突变可能会从种群中消失。

然而，群体中不利等位基因的频率在通过突变产生新拷贝的等位基因和通过选择消除等位基因之间取得平衡。

颠倒这个论点的是，每当我们在基因组中看到一个完整的、表达的 ORF 时，研究人员就会假设它的产物在有机体中发挥着有用的作用。

自然选择必须阻止突变在基因中积累。

停止起作用的基因的最终命运是积累突变，直到它不再可识别。

基因的维持意味着它不会给生物体带来选择性劣势。

然而，在进化过程中，即使是很小的相对优势也可能成为自然选择的主题，而表型缺陷可能不一定会因为突变而立即被检测到。

此外，在二倍体生物中，新的隐性突变可以杂合子形式“隐藏”许多代。

然而，研究人员想知道有多少基因实际上是必不可少的，这意味着它们的缺失对生物体是致命的。

在二倍体生物的情况下，这当然意味着纯合无效突变是致命的❓

我们可能会假设必需基因的比例会随着基因组大小的增加而下降，因为更大的基因组可以具有特定基因功能的多个相关拷贝。

到目前为止，这一预期还没有得到数据的证实。

解决基因数量问题的一种方法是通过突变分析确定必需基因的数量。

如果我们用致命的突变使染色体的某些特定区域饱和，则这些突变应该映射到与该区域中致命基因座数量相对应的许多互补组中。

通过外推到整个基因组，我们可以估计总必需基因数。

🌰在已知基因组最小的生物体（M. genitalium）中，随机插入仅在大约三分之二的基因中具有可检测的效果。

🌰同样，只有不到一半的大肠杆菌基因似乎是必需的。

🌰酿酒酵母中的比例甚至更低。在一项早期分析中，当将插入随机引入基因组时，只有 12% 是致命的，另外 14% 会阻碍生长。大多数（70%）的插入没有效果。

一项基于完全删除 5,916 个基因（超过 96% 的已识别基因）中的每一个基因的更系统的调查表明，只有 18.7% 是在丰富培养基上生长所必需的（即，当营养物质完全提供时）。

值得注意的缺陷集中在编码蛋白质合成产物的基因中，其中约 50% 是必不可少的。当然，这种方法低估了酵母在没有很好地提供营养的情况下在野外生存所必需的基因数量。

高度保守的基因往往具有更多的基本功能。

与存在多个相关或相同基因拷贝的基因相比，每个单倍体基因组仅存在一个拷贝的必需基因的比例也有所增加。

这表明多个基因中的许多可能是相对较新的重复，可以替代彼此的功能。

通过尝试将染色体结构的可见方面与功能遗传单位的数量相关联，已在果蝇中对多细胞真核生物中的必需基因数进行了广泛的分析。这可能源于 D. melanogaster 的多线染色体中存在条带。（这些染色体是在某些发育阶段发现的，代表一种异常延伸的物理形式，其中一系列带 [更正式地称为染色体] 是明显的；请参阅染色体章节。）从早期概念开始，这些带可能代表一个基因的线性顺序，已经尝试将基因的组织与条带的组织联系起来。黑腹果蝇单倍体集中大约有 5,000 个条带；它们的大小变化超过一个数量级，但平均每个条带大约有 20 kb 的 DNA。

基本方法是用突变使染色体区域饱和。

通常突变只是简单地收集为致命的，而不分析致命的原因。

任何致命的突变都被用来识别对生物体至关重要的基因座。有时突变会导致明显的有害影响，但没有致命性，在这种情况下，我们也将它们定义为基本基因座。

当将突变放入互补组时，可以将其数量与该区域中的条带数量进行比较，或者甚至可以将单个互补组分配给单个条带。这些实验的目的是确定条带和基因之间是否存在一致的关系。

例如，每个条带是否都包含一个基因？将自 1970 年代以来进行的分析加起来，基本互补组的数量约为频带数量的 70%。关于这种关系是否有任何功能意义，这是一个悬而未决的问题。不管是什么原因，等价性为我们提供了一个合理的估计，即基本基因数约为 3,600。无论如何，果蝇中必需基因座的数量明显少于基因总数。

如果人类必需基因的比例与其他真核生物的比例相似，我们将预测有 4,000 到 8,000 个基因的突变将是致命的或产生明显的破坏性影响。

截至 2015 年，已鉴定出近 8,000 个突变导致明显缺陷的人类基因。这实际上可能超过了预测总数的上限，特别是考虑到许多致命基因可能在发育早期就发挥作用，以至于我们从未看到它们的影响。

我们如何解释缺失似乎没有影响的基因的持久性？

最可能的解释是有机体具有实现相同功能的替代方法。

最简单的可能性是存在冗余，一些基因存在于多个拷贝中。在某些情况下确实如此，其中必须敲除多个相关基因才能产生效果。

在稍微复杂一点的情况下，一个有机体可能有两条独立的生化途径，能够提供一些活动。

任一途径本身的失活不会造成破坏，但同时发生来自两条途径的基因突变将是有害的。

这种情况可以通过组合突变来测试。在这种方法中，将两个基因的缺失引入同一菌株中，这两个基因本身都不是致命的。如果双突变体死亡，该菌株被称为合成致死菌株。

该技术已用于酵母，效果很好，可以自动分离双突变体。该过程称为合成基因阵列分析 (SGA)

这一结果在某种程度上解释了如此多的删除明显缺乏影响。

当在致命的成对组合中发现这些缺失时，自然选择将对抗这些缺失。

在某种程度上，有机体通过内置的冗余受到保护，免受突变的破坏性影响。

然而，积累突变的“遗传负荷”是有代价的，这些突变本身无害，但在与后代的其他此类突变结合时可能会导致严重问题。据推测，在这种情况下单个基因的丢失会产生足够的劣势，以在进化过程中维持功能基因。

5.9 大约 10,000 个基因在真核细胞中以不同水平表达

💡

在任何特定细胞中，大多数基因都以低水平表达。

只有少数基因，其产物专门针对该细胞类型，是高度表达的。当比较不同的细胞类型时，以低水平表达的 mRNA 广泛重叠。

大量表达的 mRNA 通常对细胞类型具有特异性。

多细胞真核生物的大多数细胞类型可能共有大约 10,000 个表达基因。

在特定时间在特定细胞中表达的含有蛋白质编码基因的 DNA 的比例可以通过能够与从该细胞分离的 mRNA 杂交的 DNA 的量来确定。

在不同时间对许多细胞类型进行的这种饱和分析通常确定约 1% 的 DNA 被表达为 mRNA。

研究人员可以由此计算出蛋白质编码基因的数量，只要他们知道一个 mRNA 的平均长度。

对于酵母等单细胞真核生物，表达的蛋白质编码基因的总数约为 4,000。

对于多细胞真核生物的体细胞组织，包括植物和脊椎动物，数量通常为 10,000 至 15,000。

（例外是哺乳动物的脑细胞，尽管确切的数字不确定，但似乎表达了更多的基因。）

研究人员可以使用 RNA 群体重新结合的动力学分析来确定其序列复杂性。

这种类型的分析通常识别真核细胞中的三个成分。

就像 DNA 重新结合曲线一样，单个组分杂交超过 20 个 Rot 值（RNA 浓度 × 时间），并且延伸到更大范围的反应必须通过计算机曲线拟合到单个组分中来解决。

同样，这代表了真正的连续序列谱。

细胞中大约一半的mRNA质量代表单个mRNA

大约15%的质量由区区的7到8个mRNA提供

大约35%的质量被分成大量的 13,000 种 mRNA 类型。

包含每种成分的 mRNA 必须以非常不同的量存在。

每个细胞中每个 mRNA 的平均分子数称为其丰度。

如果细胞中特定 mRNA 类型的总质量已知，研究人员可以非常简单地计算出来。

我们可以根据丰度将 mRNA 种群分为两大类：

输卵管是一个极端的例子，大量的 mRNA 只代表一种类型，但大多数细胞确实含有少量的 RNA，每个 RNA 存在多个拷贝。这种丰富的 mRNA 成分通常由少于 100 种不同的 mRNA 组成，每个细胞有 1,000 到 10,000 个拷贝。它通常对应于质量的主要部分，接近总 mRNA 的 50%。

大约一半的 mRNA 质量由大量序列组成，大约 10,000 个，每个序列仅代表 mRNA 中的少量拷贝——比如说，少于 10 个。这是稀缺的 mRNA（或复杂的 mRNA ）班级。正是这个类驱动了饱和反应。

多细胞真核生物的许多体细胞组织具有在 10,000 到 20,000 范围内的表达基因数。

在不同组织中表达的基因之间有多少重叠？

例如，鸡肝的表达基因数在11,000到17,000之间，而输卵管的值是13,000到15,000。这两组基因有多少重叠？每个组织有多少是特定的？这些问题通常通过分析转录组（RNA 中表示的一组序列）来解决。

在丰富类中表达的基因之间可能存在实质性差异。

例如，卵清蛋白仅在输卵管中合成，而在肝脏中根本不合成。这意味着输卵管中 50% 的 mRNA 质量是特定于该组织的。

然而，丰富的 mRNA 仅占表达基因数量的一小部分。就

生物体的基因总数以及不同细胞类型之间必须进行的转录变化的数量而言，我们需要知道不同细胞表型的稀有 mRNA 类别中所代表的基因之间的重叠程度.

不同组织之间的比较表明，例如，在肝脏和输卵管中表达的序列中约有 75% 是相同的。换言之，大约有 12,000 个基因在肝脏和输卵管中表达，另外 5,000 个基因仅在肝脏中表达，另外 3,000 个基因仅在输卵管中表达。

稀缺的 mRNA 广泛重叠。

在小鼠肝脏和肾脏之间，大约 90% 的稀有 mRNA 是相同的，仅在 1,000 到 2,000 个表达基因的组织之间留下差异。在这种类型的几次比较中获得的一般结果是，一个细胞中只有大约 10% 的 mRNA 序列是它独有的。大多数 mRNA 对许多甚至所有细胞类型都是通用的。

这表明在哺乳动物中可能有大约 10,000 种表达的基因功能的共同集合包含所有细胞类型所需的功能。有时，这种类型的功能被称为管家基因或组成基因。它与仅特定细胞表型所需的特殊功能（如卵清蛋白或珠蛋白）所代表的活动形成对比。这些有时被称为奢侈基因。

5.10 表达的基因数量可以被大规模测量

💡

DNA 微阵列技术允许对酵母细胞中整个基因组的表达进行快照。

约 75%（约 4,500 个基因）的酵母基因组在正常生长条件下表达。 DNA 微阵列技术允许对相关动物细胞进行详细比较，以确定（例如）正常细胞和癌细胞之间的表达差异。

最近的技术允许对表达的蛋白质编码基因的数量进行更系统和准确的估计。

一种方法（基因表达序列分析，或 SAGE）允许使用独特的序列标签来识别每个 mRNA。

然后，该技术允许测量每个标签的丰度。

这种方法鉴定了在正常条件下生长的酿酒酵母中的 4,665 个表达基因，丰度从 0.3 到少于 200 个转录本/细胞不等。这意味着大约 75% 的总基因数（约 6,000）在这些条件下表达。

一项强大的技术使用包含微阵列的芯片，微阵列是许多微小的 DNA 寡核苷酸样本的阵列。

通过了解整个基因组的序列，它们的构建成为可能。

在酿酒酵母的情况下，6,181 个 ORF 中的每一个在微阵列上由 20 个完全匹配 mRNA 序列的 25 聚体寡核苷酸和 20 个在一个碱基位置不同的错配寡核苷酸表示。

任何基因的表达水平都是通过从其完美匹配伙伴中减去错配的平均信号来计算的。

整个酵母基因组可以在四个芯片上表示。

这项技术足够灵敏，可以检测 5,460 个基因（约占基因组的 90%）的转录本，并表明许多基因的表达水平很低，丰度为 0.1 到 0.2 个转录本/细胞。（少于 1 个转录本/细胞的丰度意味着并非所有细胞在任何给定时刻都具有转录本的副本。）

该技术不仅可以测量基因表达水平，还可以检测突变细胞与在不同条件下生长的野生型细胞相比的表达差异等。

比较两种状态的结果以网格的形式表示，其中每个方块代表一个特定的基因，表达的相对变化用颜色表示。这些数据可以转换为热图，显示不同条件下基因的野生型与突变型表达。

图显示了正常人类乳腺组织和癌性乳腺肿瘤之间许多基因表达的差异。热图比较了母乳喂养的女性和未母乳喂养的女性，总体显示，对于许多基因，母乳喂养的女性基因表达有所增加。

将此技术和更新的技术扩展到动物细胞，将允许基于 RNA 杂交分析的一般描述被表达的基因的精确描述所取代，以及它们产品在任何特定细胞类型中的丰度。 D. melanogaster 的基因表达图在几乎所有 (93%) 的预测基因中检测到生命周期某个阶段的转录活性，并显示 40% 具有可变剪接形式。

5.11 DNA 序列通过突变和排序机制进化

💡

突变的概率受特定错误发生的可能性和修复的可能性的影响。

在小群体中，突变的频率会随机变化，新的突变很可能会被偶然消除。

中性突变的频率很大程度上取决于遗传漂变，其强度取决于种群的大小。

影响表型的突变频率将受到负选择或正选择的影响。

生物进化基于两组过程：

遗传变异的产生

对后代变异的分类。

染色体之间的变异可以通过重组产生；有性生殖生物之间的变异是减数分裂和受精的综合过程的结果。然而，最终，DNA 序列之间的变异是突变的结果。

当 DNA 因复制错误或核苷酸的化学变化而改变，或者当电磁辐射破坏或形成化学键，并且在下一次 DNA 复制事件时损伤仍未修复时，就会发生突变。

不管是什么原因，最初的损坏都可以被认为是“错误”。

原则上，一个碱基可以突变为其他三个标准碱基中的任何一个，尽管由于损伤机制引起的偏差，三种可能的突变的可能性不同和损坏修复可能性的差异。

例如，如果从一个碱基到其他三个碱基的突变的可能性相同，那么颠换突变（从嘧啶到嘌呤，反之亦然）的频率将是转换突变（从一个嘧啶到另一个，或一个嘌呤）的两倍。

然而，观察结果通常是相反的：转换发生的频率大约是颠换的两倍。

这可能是因为

（1）自发的过渡错误比横向错误更频繁地发生

(2) 颠倒错误更容易被 DNA 修复机制检测和纠正

(3) 这两个都是真的。鉴于当嘧啶或嘌呤配对在一起时，颠倒错误会导致 DNA 双链体扭曲，并且碱基对几何结构被用作保真机制，DNA 聚合酶不太可能犯一个颠倒错误。

这种失真还使复制后修复机制更容易检测到横向错误。

突变的基本模型是转换的概率相等 (α)，颠换的概率相等 (β)，并且 α > β。更复杂的模型可能对个体替代突变具有不同的概率，并且可以根据这些组中突变率的实际数据针对个体分类组进行定制。

如果突变发生在蛋白质编码基因的编码区，则可以通过其对该基因多肽产物的影响来表征。

不改变多肽产物氨基酸序列的置换突变为同义突变；这是一种特殊类型的沉默突变。（沉默突变包括那些发生在非编码区的突变。）

编码区的非同义突变确实会改变多肽产物的氨基酸序列，从而导致错义密码子（用于不同的氨基酸）或无义（终止）密码子.突变对生物体表型的影响将影响后代突变的命运。

当然，编码多肽以外的基因突变和非编码序列突变也可以进行选择。

在非编码区，突变改变可以通过直接改变调控序列或改变 DNA 的二级结构来改变基因的调控，从而使基因表达的某些方面（如转录速率、RNA 加工或影响翻译速率的 mRNA 结构）受到影响。

然而，非编码区的许多变化可能是选择性的中性突变，对生物体的表型没有影响。

如果一个突变是选择性中性或接近中性的，它的命运只能根据概率来预测。

群体中突变变异频率的随机变化称为遗传漂变。

这是一种“抽样误差”，偶然地，一组特定父母的后代基因型与孟德尔遗传预测的基因型不完全匹配。在一个非常大的群体中，遗传漂变的随机效应趋于平均化，因此每个变体的频率几乎没有变化。然而，在少数群体中，这些随机变化可能非常显着，遗传漂变会对群体的遗传变异产生重大影响。

遗传漂变是一个随机过程。特定变体的最终命运不是严格可预测的，但该变体的当前频率是衡量它最终在人群中固定（替换所有其他变体）的概率的量度。

换句话说，一个新的突变（在群体中频率较低）很可能会偶然从群体中丢失。

但是，如果偶然它变得更频繁，则它更有可能保留在人群中。

从长远来看，变异可能会从种群中丢失或固定，但在短期内，特定基因座可能会随机波动变异，特别是在较小的种群中，固定或丢失发生得更快。

另一方面，如果一个新的突变不是选择性中性的并且确实影响表型，自然选择将在其在人群中频率的增加或减少中发挥作用。

其频率变化的速度将部分取决于突变赋予携带它的生物体多少优势或劣势。它还取决于它是显性的还是隐性的；

一般来说，由于显性突变在首次出现时就“暴露”于自然选择，因此它们会更快地受到选择的影响。

突变的影响是随机的，因此非中性突变的常见结果是表型受到负面影响，因此选择通常主要是为了消除新的突变（尽管这可能会在突变的可能事件中有所延迟是隐性的）。

这称为负（或净化）选择。负选择的总体结果是在群体中几乎没有变异，因为通常会消除新的变体。更罕见的是，如果一个新突变恰好赋予了一个有利的表型，它可能会受到正选择（。这种类型的选择也将倾向于减少群体内的变异，因为新突变最终会取代原始序列，但如果它们彼此隔离，则可能导致群体之间更大的变异，因为不同的突变发生在这些不同的群体中。

在种群或物种中观察到的遗传变异有多少（或缺乏这种变异）是由于选择而有多少是由于遗传漂变，这是种群遗传学中长期存在的问题。

5.12 选择可以通过测量序列变化来检测

💡

基因进化历史中非同义替换与同义替换的比率是正选择或负选择的量度。

基因的低杂合性可能表明最近的选择性事件。

比较相关物种之间的替代率可以表明是否发生了基因选择。

人类物种中的大多数功能性遗传变异会影响基因调控，而不是蛋白质的变异。

多年来，许多方法已被用于分析 DNA 序列的选择。

随着 1970 年代 DNA 测序技术的发展、1990 年代测序的自动化以及 21 世纪高通量测序的发展，大量的部分或完整的基因组序列变得可用。

与放大特定基因组区域的聚合酶链式反应 (PCR) 相结合，DNA 序列分析已成为许多应用中的宝贵工具，包括研究遗传变异的选择。

现在，在各种公开可用的数据库中有大量来自各种生物体的 DNA 序列数据。

同源基因序列已从许多物种以及同一物种的不同个体中获得。

与物种内的变化相比，这允许确定具有共同祖先的物种之间的遗传变化。

这些比较导致观察到某些物种（例如，黑腹果蝇）在个体之间具有高水平的 DNA 序列多态性，这很可能是由于中性突变和种群内的随机遗传漂移。

（其他物种，如人类，具有中等水平的多态性，并且在没有进一步研究的情况下，遗传漂变和选择在保持这些水平较低方面的相对作用尚不清楚。这是检测序列选择的技术的一种用途。）

通过进行种间和种内 DNA 序列分析，可以确定由于物种差异导致的分歧水平。

一些中性突变是同义突变，但并非所有同义突变都是中性的。虽然起初这似乎不太可能，但在细胞中指定特定氨基酸的单个 tRNA 的浓度并不相等。

一些同源转移 RNA (tRNA)（携带相同氨基酸的不同 tRNA）比其他的更丰富，特定密码子可能缺乏足够的 tRNA，而相同氨基酸的不同密码子可能有足够的数量。如果密码子需要该生物体中的稀有 tRNA，则可能会发生核糖体移码或其他翻译改变。也可能需要一个特定的密码子来维持 mRNA 结构。或者，具有相同一般特征的氨基酸可能存在非同义突变，对多肽的折叠和活性几乎没有影响或没有影响。在这两种情况下，中性序列变化对生物体的影响很小。

然而，非同义突变可能导致具有不同性质的氨基酸，例如嵌入磷脂双层的蛋白质从极性氨基酸变为非极性氨基酸，或从疏水氨基酸变为亲水氨基酸。

此类变化可能具有对多肽的作用有害并因此对生物体有害的功能效应。根

据多肽中氨基酸的位置，这种变化可能只会导致蛋白质折叠和活性的轻微破坏。只有在极少数情况下，氨基酸变化才是有利的；在这种情况下，突变变化可能会受到正选择的影响，并最终导致该变体在群体中的固定。

确定选择的一种常用方法是使用基于密码子的序列信息来研究基因的进化历史。研究人员可以通过计算直系同源基因中同义 (Ks) 和非同义 (Ka) 氨基酸取代的数量并确定 Ka /K s 比率来做到这一点。该比率表明对基因的选择性限制。

对于中性进化的那些基因，预期 Ka /K s 比率为 1，氨基酸序列变化既不受欢迎也不反对。在这种情况下，发生的变化通常不会影响多肽的活性，这可以作为合适的对照。 Ka /K s 比率<1 是最常观察到的，表示负选择，其中不赞成氨基酸置换，因为它们影响多肽的活性。因此，为了保持适当的蛋白质功能，在这些位点保留原始功能氨基酸存在选择压力。

当 Ka /K s 比 > 1 时表明正选择，但很少观察到。这意味着氨基酸变化是有利的，并且可能在人群中变得固定。这方面的一个例子是一些病原体的抗原蛋白，例如病毒外壳蛋白，它们处于强大的选择压力下以逃避宿主的免疫反应。第二个例子是一些处于性选择之下的生殖蛋白（对一种性别的特征进行选择）。作为第三个例子，哺乳动物 MHC 基因的肽结合区域的 Ka / Ks 比值通常在 2到 10，表明对新变体的强选择。这是意料之中的，因为这些蛋白质代表了个体生物的细胞独特性。

检测到正的 Ka /K s 比率可能很少见，部分原因是平均值必须在整个序列长度上大于 1。如果正选择基因中的单个替换，但侧翼区域处于负选择状态，则整个序列的平均比率实际上可能是负的。相反，组蛋白基因的 Ka /K s 比率通常远小于 1，表明对这些基因有很强的负选择。组蛋白是构成染色质基本结构的 DNA 结合蛋白，对其结构的改变可能会对染色体完整性和基因表达产生有害影响。

当 Ka /K s 在一段 DNA 上取平均值时，除了难以检测单个替换变体的强选择外，突变热点也会影响这一测量。有报道称，一些蛋白质编码基因的异常高度可变区域编码高比例的极性氨基酸。这种偏差可能会影响对 Ka / K s 比率的解释，因为较高的点突变率可能被错误地解释为较高的替代率。教训似乎是，尽管基于密码子的选择检测方法可能有用，但必须考虑它们的局限性。

研究人员可以通过比较两个等位基因或同一物种的两个个体之间的核苷酸序列，使用种内 DNA 序列分析来检测阳性选择。核苷酸序列预计会以与突变率成比例的速率中性进化；特定核苷酸的该比率的变化会影响群体的杂合性（特定基因座的杂合子比例）。如果一个变体序列受到青睐，该变体将增加频率并最终在群体中固定，并且该位点将显示核苷酸杂合性降低。密切相关的中性变异也可以变得固定，这种现象称为遗传搭便车。这些区域的特点是具有较低水平的 DNA 序列多态性。（但是，重要的是要记住，减少的多态性可能有其他原因，例如负选择或遗传漂变。）

在实践中，进行种间和种内 DNA 序列比较以检测与中性进化预期的偏差更为可靠。通过包括来自至少一种密切相关物种的序列信息，可以将物种特异性DNA多态性与祖先多态性区分开来，并且可以获得关于多态性之间和物种差异之间联系的更准确信息。通过这种组合分析，可以确定物种之间非同义变化的程度。如果进化主要是中性的，则物种内非同义变化与同义变化的比率预计与物种之间的比率相同。过量的非同义变化可能是对这些氨基酸进行正选择的证据，而较低的比率可能表明负选择正在保存序列。

一个例子是将黑腹果蝇中的 12 个 Adh 基因序列相互比较，并与来自模拟果蝇和黑腹果蝇的 Adh 序列进行比较，如表 5.4 所示。对这些数据进行简单的偶然卡方检验表明，与黑腹果蝇中的相似多态性相比，物种之间存在明显更多的固定非同义变化。物种间非同义差异的高比例表明这些物种中 Adh 变体的正选择，一个物种中这种差异的比例较低，因为预计非中性变异不会在一个物种内持续很长时间。

相对速率测试也可用于检测选择的特征。这涉及（至少）三个相关物种：两个密切相关的物种和一个外群代表。比较近亲之间的替代率，并将每个物种与外群物种进行比较，看看替代率是否相似。只要物种之间的系统发育关系是确定的，这就消除了分析对时间的依赖。如果相关物种之间的替代率与这些物种和外群物种之间的替代率相比不同，这可能是序列选择的指示。例如，蛋白质溶菌酶的功能是消化细菌细胞壁，是许多物种的通用抗生素，它已经进化为在反刍哺乳动物中在低 pH 值下具有活性，它的功能是消化肠道中的死细菌。

这种方法必须考虑到一些基因在某些物种中比在其他物种中更快地积累核苷酸或氨基酸取代（这些被称为快速时钟；参见下一节序列发散的恒定速率是分子时钟），可能由于代谢率、生成时间、DNA复制时间或DNA修复效率的差异。为了处理这种差异，需要检查其他相关物种，以识别和消除快速时钟效应。如果包含大量远缘物种，则该方法的可靠性会提高。然而，由于固有的比率差异，很难在分类组之间进行准确的比较。随着这方面的工作越来越多，针对替代率差异进行调整的修正已经制定出来。

另一种检测选择的方法是利用特定基因位点的多态性估计。例如，Teosinte 分支 1 (tb1) 基因座的序列分析是驯化玉米中的一个重要基因，已用于表征驯化和野生玉米 (teosinte) 品种的核苷酸替代率，估计为 2.9 × 10 -8每年 3.3 × 10−8 碱基替换。对于中性进化的基因，驯化玉米中核苷酸多样性 (p) 的测量值与野生大蜀黍中 p 的比率约为 0.75，但在 tb1 区域中小于 0.1。解释是驯化玉米中的强烈选择严重减少了该基因的变异。

随着关于核苷酸多样性的全基因组数据变得可用，低多样性区域可以表明最近的选择。数以百万计的单核苷酸多态性 (SNP) 正在人类、非人类动物和植物以及其他物种中进行表征。一种已应用于人类基因组的方法是寻找等位基因的频率与其周围其他遗传标记的连锁不平衡之间的关联。（连锁不平衡是衡量一个基因座上的等位基因与不同基因座上的等位基因之间关联的量度。）当一个染色体上发生新突变时，它最初与同一染色体上其他多态性基因座的等位基因具有高度连锁不平衡。在大量人群中，中性等位基因预计会缓慢上升到固定，因此重组和突变会破坏基因座之间的关联，连锁不平衡将减少。另一方面，正选择下的等位基因将更快地上升到固定，并保持连锁不平衡。通过对整个基因组的 SNP 进行采样，研究人员可以建立连锁不平衡的一般背景水平，该水平可以解释重组率的局部变化，并且可以检测到任何显着更高的连锁不平衡度量。图 5.23 显示了随着与 G6PD 基因座变异的染色体距离增加，连锁不平衡（通过增加的重组染色体分数来衡量）缓慢降低，该变异赋予非洲人群对疟疾的抗性。这种模式表明这个等位基因最近受到了强烈的选择——在其他基因座上携带了相关的等位基因——并且重组还没有时间打破这些互位点关联。

多个完整的人类基因组序列的可用性和快速重新测序许多个体基因组特定区域的能力允许大规模测量人类物种的遗传变异。如前所述，一段 DNA 中缺乏遗传变异可能表明对该序列的负选择，这意味着该序列是有功能的。如果分析包括来自许多人群的个体，我们可以确定个体差异是否是独特的，是否由特定人群的其他成员共享，或者在全球范围内发现。令人惊讶的是，这些研究表明，人类基因组中的大多数功能变异不是编码序列的非同义变化，而是存在于非编码序列中，例如内含子或基因间区域！换句话说，蛋白质变异只占人类功能差异的一小部分。据推测，非编码区的大部分功能变异反映了调控区的差异（参见第三部分，基因调控中的章节）。此外，大多数这些变化存在于大多数或所有抽样人群中，并且不限于一个或几个人群。显然，尽管人类个体之间存在许多明显的差异，但人类物种在遗传上是统一的，并且大多数差异不在于细胞中产生的蛋白质，而在于它们产生的时间和地点。

千人基因组计划始于 2008 年，最初的目标是对至少 1000 个匿名人类基因组进行测序，以评估全面的人类遗传变异。在该项目的前 2 年，使用低成本的下一代测序技术，测序以相当于每天两个基因组的速度进行。序列数据可在免费访问的公共数据库中获得。到 2015 年底，已经对 2,500 多个人类基因组进行了测序。

5.13 恒定的序列发散率是分子钟

💡

不同物种中直系同源基因的序列在非同义位点（突变导致氨基酸取代）和同义位点（突变未影响氨基酸序列）处有所不同。

同义替换的累积速度比非同义替换快 10 倍。

两个 DNA 序列之间的进化差异是通过相应核苷酸不同位置的校正百分比来衡量的。基因分离后，替代可以或多或少以恒定的速率积累，因此任何一对珠蛋白序列之间的分歧与它们共享共同祖先的时间成正比。

基因序列的大多数变化是由随时间缓慢积累的突变发生的。

点突变和小的插入和缺失是偶然发生的，在基因组的所有区域中可能具有或多或少相等的概率。例外情况是热点，那里的突变发生得更频繁。

大多数非同义突变是有害的，将通过负选择消除，而罕见的有利替代将在种群中传播并最终替换原始序列（固定）

由于随机遗传漂移，预计中性变异会在人群中丢失或固定。

蛋白质编码基因序列中中性突变的比例是有争议的问题。

替代积累的速率是每个基因的一个特征，可能至少部分取决于其在变化方面的功能灵活性。

在一个物种内，一个基因通过突变进化，然后在单个种群内固定。

回想一下，当我们研究一个物种的遗传变异时，我们只看到一直保持的变异，无论是通过选择还是遗传漂变。

当存在多个变体时，它们可能是稳定的，或者实际上可能是暂时的，因为它们正处于修复（或丢失）的过程中。

当一个物种分离成两个新物种时，每个由此产生的物种构成一个独立的进化谱系。

通过比较两个物种的直系同源基因，我们看到了自祖先停止杂交以来它们之间积累的差异。

一些基因是高度保守的，从物种到物种的变化很小或没有变化。

这表明大多数变化是有害的，因此被消除了。

两个基因之间的差异表示为它们的divergence，即核苷酸不同位置的百分比，校正了收敛突变（两个独立谱系中相同位点的相同突变）和真正回复体的可能性。

基因内三个密码子位置之间的进化速率通常存在差异，因为第三个碱基位置的突变通常是同义词，就像第一个位置的一些突变一样。

除了编码序列外，基因还包含非翻译区。

同样，大多数突变可能是中性的，除了它们对二级结构或（通常相当短的）调节信号的影响。

尽管预计同义突变对多肽而言是中性的，但它们可能通过 RNA 中的序列变化影响基因表达。

另一种可能性是同义密码子的变化需要不同的 tRNA 做出反应，从而影响翻译效率。物种通常表现出密码子偏倚；当氨基酸有多个密码子时，在蛋白质编码基因中发现一个密码子的百分比很高，而其余密码子的百分比很低。识别这些密码子的 tRNA 类型存在相应的百分比差异。因此，由于适当的 tRNA 浓度较低，从常见的同义密码子变为稀有的同义密码子会降低翻译速率。

研究人员可以通过比较有古生物学证据表明其分歧时间的物种，来测量蛋白质（代表其基因中的非同义变化）随时间的分歧。

这些数据提供了两个一般性的观察。

首先，不同的蛋白质以不同的速度进化。例如，纤维蛋白肽进化速度快，细胞色素 c 进化缓慢，血红蛋白进化速度中等。

其次，对于某些蛋白质（包括刚才提到的三种），进化速度在数百万年中几乎是恒定的。换句话说，对于给定类型的蛋白质，任何一对序列之间的差异（或多或少）与它们共享共同祖先以来的时间成正比。

这提供了一个分子时钟，可以在特定蛋白质编码基因的进化过程中以近似恒定的速率测量取代的积累。

也可以存在用于在物种谱系中发散的旁系同源蛋白质的分子钟。

以人类 β- 和 δ- 珠蛋白链为例，在 146 个氨基酸中有 10 个差异，差异为 6.9 %。

DNA 序列在 441 个核苷酸中有 31 个变化（7%）。

但是，非同义和同义变化的分布非常不同。

330 个非同义位点有 11 个变化（3.3%），但只有 111 个同义位点有 20 个变化（18%）。

这给出了非同义位点的 3.7% 和同义位点的 32% 的校正发散率，相差一个数量级。

非同义位点和同义位点差异的显着差异表明，与不改变多肽序列的核苷酸变化相比，改变多肽序列的核苷酸变化存在更大的限制。

更少的氨基酸变化是中性的。

假设我们采用同义替换率来表示潜在的突变固定率（假设在同义位点根本没有选择）。然后，在 β 和 δ 基因分化后的这段时间内，330 个非同义位点中的 32% 应该发生了变化，总共有 105 个。除了 11 个之外，其他所有位点都被消除了，这意味着大约 90% 的没有保留突变。

分歧率可以用每百万年的差异百分比来衡量，也可以用它的倒数来衡量，单位进化周期 (UEP)——1% 分歧累积所需的数百万年的时间。

在通过物种之间的成对比较确定了分子钟的速率之后（记住自共同祖先存在以来确定实际时间的实际困难），它可以应用于物种内的旁系同源基因。从它们的差异中，我们可以计算自生成它们的重复以来已经过去了多少时间。

通过比较不同物种中直系同源基因的序列，可以确定非同义位点和同义位点的分歧率

在成对比较中，自大约 8500 万年前哺乳动物辐射发生以来已经分离的哺乳动物谱系的 α 或 β 珠蛋白基因的非同义位点的平均差异为 10%。这对应于每百万年 0.12% 的非同义发散率。

再往前走，我们可以比较一个物种中的 α- 和 β-珠蛋白基因。自大约 5 亿年前最初的复制事件以来，它们一直在分化。它们的平均非同义分歧约为 50%，即每百万年的比率为 0.1%。

珠蛋白基因中的非同义分歧平均速率约为每百万年 0.096%（对于 10.4 的 UEP）。考虑到估计物种分化时间的不确定性，结果很好地支持了存在恒定分子钟的观点。关于同义站点分歧的数据就不太清楚了。在每种情况下，很明显同义位点分歧远大于非同义位点分歧，系数从 2 到 10 不等。但是，成对比较中同义位点分歧的范围太大而无法建立分子钟，因此我们必须基于非同义站点进行时间比较。

同义位点的进化速率只是随着时间的推移大致恒定。如果我们假设在零年分离时必须存在零分歧，我们会看到在最初大约 1 亿年的分离中，同义位点分歧率要大得多。一种解释是，大约一半的同义位点迅速（在一亿年内）被突变饱和。这一半表现为中立站点。另一半积累突变的速度较慢，其速率与非同义位点的速率大致相同；这一半代表与多肽同义的位点，但由于某些其他原因受到选择性限制。

现在我们可以逆向计算发散率来估计自旁系同源基因复制以来的时间。对于非同义位点，人类 β 和 α 基因之间的差异为 3.7%。在 UEP 为 10.4 时，这些基因必须在 10.4 × 3.7 = 大约 4000 万年前发生分歧——大约是主要灵长类动物谱系分离的时间：新大陆猴、旧大陆猴和类人猿（包括人类）。所有这些分类群都有 β 和 δ 基因，这表明基因分化在进化的这一点之前就开始了。

再往前追溯，γ 和 ε 基因的非同义位点之间的差异为 10%，这对应于大约 1 亿年前的复制事件。因此，胚胎和胎儿珠蛋白基因之间的分离可能只是在哺乳动物辐射之前或伴随着。

人类珠蛋白基因的进化树如图所示。

在哺乳动物辐射之前进化的旁系同源群——例如β/δ与γ的分离应该存在于所有哺乳动物中。后来进化的旁系同源群体——例如β-和δ-珠蛋白基因的分离，应该在哺乳动物的个体谱系中发现。

在每个物种中，集群的结构都发生了相对较新的变化。我们之所以知道这一点，是因为我们看到了基因数量（人类中的一个成人 β-珠蛋白基因，小鼠中的两个）或类型（最常见的是是否存在单独的胚胎和胎儿基因）的差异。当收集到关于特定基因或基因家族序列的足够数据时，可以逆转分析，并且可以使用直系同源基因之间的比较来评估分类关系。如果已经建立了分子钟，则可以估计先前分析的物种和新引入分析的物种之间的共同祖先的时间。

5.14 中性取代率可以通过重复序列的发散来衡量

💡

小鼠基因组中中性位点每年的替代率高于人类基因组，这可能是因为突变率更高。

通过检查不编码多肽的序列，我们可以对中性位点的替换率做出最佳估计。（我们在这里使用术语中性而不是synonymous，因为没有编码潜力。）

可以通过比较人类和小鼠基因组中常见重复家族的成员来进行信息比较。

我们从一系列相关序列开始，这些序列是通过原始祖先序列的复制和替换进化而来的。

我们假设可以通过取每个位置最常见的碱基来推断祖先序列。

然后我们可以将每个家庭成员的分歧计算为与推断的祖先序列不同的碱基的比例。

在此示例中，单个成员的差异从 0.13 到 0.18 不等，平均值为 0.16。

用于人类和小鼠基因组分析的一个家族来源于一个序列，该序列被认为在人类和啮齿动物之间的共同祖先时期已停止功能.这意味着它在有限的选择压力下在两个物种中的发散时间相同。

它在人类中的平均差异约为每个位点 0.17 次替换，对应于自分离以来的 7500 万年中每年每个碱基 2.2 × 10-9 次替换的速率。

然而，在小鼠基因组中，中性取代的发生率是这个比率的两倍，对应于家族中每个位点的 0.34 个取代，或 4.5 × 10-9 的比率。

⚠️但是请注意，如果我们计算每代而不是每年的速率，则人类的速率将大于小鼠（2.2 × 10 -8 而不是 10-9）。

这些数字可能低估了老鼠的替代率；在分歧的时候，两个谱系的比率本来是相同的，并且从那时起差异一定会发生变化。目前老鼠每年的中性替代率可能是历史平均水平的两到三倍。

乍一看，这些比率似乎反映了突变发生（在代谢率较高的物种中可能更高，如小鼠）和由于遗传漂移而导致的突变之间的平衡，这在很大程度上是人口的函数大小，因为遗传漂移是一种“抽样误差”，其中等位基因频率在较小的人群中波动更广泛。除了更快地消除中性等位基因外，较小的种群规模还可以更快地固定和丢失中性等位基因。啮齿动物物种往往具有较短的世代时间（每年允许更多的替代机会），但具有较短世代时间的物种也往往具有较大的种群规模，因此每年更多替代但中性等位基因固定较少的影响会相互抵消出去。小鼠中较高的替代率可能主要是由于较高的突变率。

比较小鼠和人类基因组使我们能够评估同线（同源）区域是否显示出保守的迹象，或者是否以中性取代积累预测的速率不同。显示出选择迹象的站点比例约为 5%。

这远高于在外显子中发现的比例（约 1%）。这一观察表明基因组包含更多的序列，这些序列的序列对编码 RNA 以外的功能很重要。已知的监管要素可能只占这一比例的一小部分。这个数字还表明大多数（即其余）基因组序列不具有任何依赖于确切序列的功能。

5.15 中断基因是如何进化的？

💡

一个有趣的进化问题是基因是起源于内含子还是最初是不间断的。

对应于蛋白质或独立功能的非编码 RNA 的中断基因可能起源于中断形式（“内含子早期”假设）。

中断允许碱基顺序更好地满足从双链 DNA 中挤出茎环的潜力，也许是为了促进错误的重组修复。

一类特殊的内含子是可移动的，可以将自己插入基因中。

许多真核基因的结构暗示了真核基因组的概念，即真核基因组是一个由大部分独特的 DNA 序列组成的海洋，其中由内含子“shallows”分隔的外显子“岛”在单个基因“群岛”中串起。

基因的原始形式是什么？

“内含子早期”假说提出内含子一直是基因的组成部分。基因起源于中断的结构，而那些现在没有内含子的基因在进化过程中失去了它们。

“内含子晚”假设是祖先的蛋白质编码序列是不间断的，并且内含子随后被插入其中。

真核生物和原核生物基因组织之间的差异可以通过真核生物中内含子的获得或原核生物中内含子的丢失来解释吗？

支持“内含子早期”模型的一点是，基因的镶嵌结构表明了一种古老的组合方法来构建基因以编码新的蛋白质。这是一个称为exon shuffling的假设。

假设一个早期细胞有许多独立的蛋白质编码序列；它很可能是通过重新改组不同的多肽单元来构建新的蛋白质而进化的。

尽管我们认识到这种基因进化机制的优势，但这并不一定意味着它是马赛克结构最初进化的主要原因。

内含子可能对蛋白质编码基因片段的重组有很大帮助，但可能并不重要。因此，对组合假说的反驳既不会反驳“内含子早”假说，也不支持“内含子晚”假说。

如果一个蛋白质编码单位（现在称为外显子）必须是一系列连续的密码子，那么每一次这样的改组事件都需要精确的 DNA 重组，以将不同的蛋白质编码单位按顺序排列在同一个阅读框中（三分之一的概率在任何一个随机加入事件）。

然而，如果这种组合不能产生功能性蛋白质，则细胞可能会受损，因为蛋白质编码单元的原始序列可能已经丢失。

但是，如果某些实验性重组发生在 RNA 转录本中，细胞可能会存活下来，从而使 DNA 保持完整。如果易位事件可以将两个蛋白质编码单元置于同一转录单元中，则可以探索各种 RNA 剪接“实验”以将两种蛋白质组合成一条多肽链。如果某些组合不成功，原始的蛋白质编码单元仍可用于进一步试验。此外，这种情况不需要将两个蛋白质编码单元精确地重组为连续的编码序列。有证据支持这种情况：不同的基因具有相关的外显子，就好像每个基因都是通过外显子改组过程组装而成的。

图 5.28 说明了将包含外显子的随机序列易位到基因中的结果。

在某些生物体中，外显子与内含子相比非常小，因此外显子很可能会插入内含子内，并且两侧有功能性 5' 和 3' 剪接位点。剪接位点是连续成对识别的，因此剪接机制应该识别原始内含子的 5' 剪接位点和引入外显子的 3' 剪接位点，而不是原始内含子的 3' 剪接位点。类似地，新外显子的 5' 剪接位点和原始内含子的 3' 剪接位点可能被识别为一对，因此新的外显子将保留在成熟 RNA 转录本的原始两个外显子之间。

只要新的外显子与原始外显子处于相同的阅读框中（每端有三分之一的概率），就会产生新的、更长的多肽。外显子改组事件可能是在进化过程中产生新的外显子组合的原因。

鉴于很难设想

（1）通过一些不依赖模板的过程组装氨基酸长链

（2）这种组装的链能够自我复制

人们普遍认为最成功的早期自我复制分子是核酸——可能是 RNA。

事实上，RNA 分子既可以作为编码模板，也可以作为催化剂。早期“RNA世界”中的原型分子可能正是凭借它们的催化活性，才能够自我复制。模板属性稍后会出现。

许多由核酸介导的功能可能在 RNA 世界中竞争基因组空间。

这些功能可以被视为施加压力：

AG 压力（外显子中嘌呤富集的压力）

GC 压力（用于在两组 Watson-Crick 配对碱基之间实现独特平衡的全基因组压力）

单链奇偶压力（单链核酸中 A 和 T 之间以及 G 和 C 之间的全基因组压力）

折叠压力（单链核酸的全基因组压力，无论是游离形式还是从双链形式挤出，以采用二级和高级茎环结构）。

就目前而言，这些压力所起的作用与我们无关。

压力在生物体之间如此广泛传播的事实表明，在生命中发挥着重要作用，而不仅仅是中立。

除了这些竞争基因组空间的压力之外，还会增加催化活性的压力，在翻译系统进化后，核酶压力被蛋白质压力（编码具有潜在酶活性的氨基酸序列的压力）补充或取代。

碰巧产生蛋白质编码潜力的突变会受到青睐，但也会与先前存在的核酸水平压力竞争。换句话说，外显子可能是进化中的分子系统的后来者。

鉴于遗传密码的冗余，特别是在密码子的第三个碱基位置，在进化过程中可能已经探索了适应性，因此蛋白质编码区域在一定程度上会受到核酸压力的选择本身。

因此，可以根据它们的蛋白质编码潜力和它们对 DNA 结构的影响来选择编码序列。

一些 RNA 转录本通过其二级和高级结构来发挥功能，而不是通过充当翻译模板。

这些经常与蛋白质相互作用的 RNA 包括与 X 染色体失活有关的 Xist以及促进 mRNA 翻译的 tRNA 和核糖体 RNA (rRNA)。

通常，这些单链 RNA 具有与相应 DNA 的一条链（RNA 同义链）相同的碱基序列。

值得注意的是，由于这些 RNA 具有服务于其独特功能的结构（通常是细胞质的），因此并不意味着相同的结构将同样好地服务于相应 DNA 的（核）功能。

因此，即使没有最终的蛋白质产物，我们也不应该感到惊讶，RNA 基因被打断，转录物被剪接以产生成熟的 RNA 产物。

类似地，有时在前 mRNA 的 5' 和 3' 非翻译区域中存在必须剪接的内含子。

因此，基因的明显功能部分的信息可以被视为必须侵入基因组，而这些基因组已经适应了在核酸水平上运行的许多预先存在的压力。

如果基因功能编码部分作为连续序列存在，通常不会发生压力的重新配置。

结果是，与基因功能编码部分相对应的 DNA 片段经常被其他满足基因组基本需求的 DNA 片段打断。

另一个偶然的结果将是促进功能部件的混合，以允许对新组合进行进化测试。

除了对基因组空间的这些压力之外，还有在有机体水平上起作用的选择压力。

🐦例如，鸟类的内含子往往比哺乳动物短，这导致了一个有争议的假设，即由于飞行的代谢需求，基因组的压缩存在选择压力。

🦠对于许多微生物（如细菌和酵母）来说，进化上的成功可以等同于快速复制 DNA 的能力。较小的基因组可以比较大的基因组更快地复制，因此可能是基因组压缩的压力导致大多数微生物中的基因不间断。除了蛋白质压力外，长蛋白质编码序列还必须适应许多基因组压力。

有证据表明，基因家族的一些成员已经丢失了内含子。

有关胰岛素和肌动蛋白基因家族的示例，在肌动蛋白基因家族的情况下，有时不清楚家族成员中内含子的存在是否表明祖先状态或插入事件。

总体而言，目前的证据表明，基因最初具有现在称为内含子的序列，但可以随着内含子的丢失和获得而进化。

细胞器基因组显示了原核生物和真核生物之间的进化联系。线粒体或叶绿体与某些细菌之间有许多普遍的相似之处，因为这些细胞器起源于内共生，其中细菌细胞生活在真核原型的细胞质中。尽管与细菌遗传过程（例如蛋白质和 RNA 合成）有相似之处，但一些细胞器基因具有内含子，因此类似于真核细胞核基因。内含子存在于几个叶绿体基因中，包括一些与大肠杆菌基因同源的基因。这表明内共生事件发生在内含子从原核谱系中丢失之前。

线粒体基因组比较特别引人注目。

尽管基因组织存在相当大的差异，酵母和哺乳动物线粒体的基因编码几乎相同的蛋白质。

脊椎动物的线粒体基因组非常小并且非常紧凑，而酵母线粒体基因组更大并且具有一些复杂的中断基因。

祖传的形式是什么？

酵母线粒体内含子（和某些其他内含子）可以移动——它们是独立的序列，可以从 RNA 中剪接出来并将 DNA 拷贝插入到别处——这表明它们可能是通过插入基因组而产生的。尽管大多数证据支持“早期内含子”，但有理由相信，除了引入移动元素外，对各种外在和内在（基因组）压力的持续适应可能会不时导致新的内含子（“迟到的内含子”）。

至于内含子的作用，很容易忽略内含子的特性，例如作为辅助精确剪接的适应性的增强的挤出茎环结构的潜力。在基因消息的传输和电子消息的传输之间进行了类比，其中消息序列通常被纠错码中断。尽管没有证据表明类似类型的代码在基因组中起作用，但折叠压力有可能通过重组修复帮助检测和纠正序列错误。后者非常重要，以至于在许多情况下折叠压力可能胜过蛋白质压力。

5.16 为什么有些基因组这么大？

💡

基因组大小和遗传复杂性之间没有明确的相关性。

与复杂性增加的有机体相关的最小基因组大小增加。许多分类群中生物的基因组大小存在很大差异。

（单倍体）基因组中 DNA 的总量是每个活物种的特征，称为其 C 值。 C 值范围存在巨大差异，从支原体的小于 10 6 碱基对 (bp) 到某些植物和两栖动物的大于 10^11 bp。

随着复杂性的增加，每组中发现的最小基因组大小也会增加。尽管多细胞真核生物中的 C 值更大，但我们确实看到某些组内的基因组大小存在很大差异。

原核生物、真菌和无脊椎动物的复杂性增加需要基因组大小的增加。

支原体是最小的原核生物，其基因组只有大型噬菌体大小的三倍左右，比一些巨型病毒还小。

更典型的细菌基因组大小从大约 2 × 10 6 bp 开始。单细胞真核生物（其生活方式可能类似于原核生物）也可以通过较小的基因组生存，尽管它们的基因组大于大多数细菌的基因组。然而，真核生物本身并不意味着基因组大小的大幅增加。酵母的基因组大小约为 1.3 × 10^7 bp，仅为平均细菌基因组大小的两倍。

基因组大小进一步增加两倍足以支持粘菌盘基网柄菌，它能够以单细胞或多细胞模式生活。要产生第一个完全多细胞的生物，复杂性的另一次增加是必要的。线虫 C. elegans 的 DNA 含量为 8 × 10^7 bp。

昆虫、鸟类、两栖动物和哺乳动物必须拥有比单细胞真核生物更大的基因组。然而，在这一点之后，基因组大小和生物体的形态复杂性之间没有明确的关系。

C值悖论

并不是生物越复杂，DNA含量越多

在哺乳动物中，额外的复杂性也是基因选择性剪接的结果，允许从同一基因产生两个或多个蛋白质变体。有了这样的机制，复杂性的增加不需要伴随基因数量的增加。

5.17 形态复杂性通过添加新的基因功能而进化

💡

一般来说，真核生物与原核生物、多细胞与单细胞真核生物以及脊椎动物与无脊椎动物的比较显示出基因数量与形态复杂性之间的正相关，因为需要额外的基因，而复杂性通常会增加。大多数脊椎动物特有的基因都与免疫或神经系统有关

人类基因组序列与其他物种中发现的序列的比较揭示了进化过程。

上图显示了根据人类基因在所有细胞有机体中分布的广度对人类基因的分析。

从最普遍分布的开始，大约 21% 的基因是真核生物和原核生物共有的。这些倾向于编码对所有生命形式都至关重要的蛋白质——通常是基本的新陈代谢、复制、转录和翻译。

顺时针方向移动，另外大约 32% 的基因通常存在于真核生物中，例如，它们可以在酵母中找到。这些倾向于编码涉及真核细胞而非细菌的通用功能的蛋白质——例如，它们可能与细胞器或细胞骨架成分的活动有关。

另外大约 24% 的基因通常存在于动物身上。这些包括多细胞性和不同组织类型发育所必需的基因。

大约 22% 的基因是脊椎动物独有的。这些主要编码免疫和神经系统的蛋白质；它们编码的酶很少，这与酶具有古老起源以及代谢途径起源于进化早期的观点一致。

因此，我们看到更复杂的形态和专业化的进化需要添加代表必要的新功能的基因组。

定义必需蛋白质的一种方法是识别所有蛋白质组中存在的蛋白质。

将人类蛋白质组与其他生物体的蛋白质组进行更详细的比较，人类蛋白质组中有

46% 的酵母蛋白质组

43% 的蠕虫蛋白质组

61% 的果蝇蛋白质组。

大约 1,300 种蛋白质的关键组存在于所有四个蛋白质组中。

分布情况：

人类蛋白质组的显着特征之一是与其他真核生物相比，它具有许多独特的蛋白质，但独特的蛋白质结构域（具有特定功能的蛋白质部分）相对较少。

大多数蛋白质结构域似乎是动物界共有的。

然而，有许多独特的蛋白质结构，定义为独特的结构域组合。图 5.33 显示最大比例的独特蛋白质由跨膜和细胞外蛋白质组成。

在酵母中，大多数结构与细胞内蛋白质有关。果蝇（或线虫）的细胞内结构大约是其两倍，但跨膜蛋白和细胞外蛋白的比例要高得多，这可以从多细胞生物细胞之间相互作用所需的额外功能中预期。

脊椎动物（以人类基因组为代表）所需的细胞内结构的添加量相对较小，但跨膜和细胞外结构的比例也更高。

人们早就知道，人类和黑猩猩之间的遗传差异非常小，基因组之间的同一性为 98.5%。

黑猩猩基因组的序列现在允许我们更详细地研究这 1.5% 的差异，看看是否可以识别出负责“人性”的特征。

比较显示 35 × 10^6 核苷酸替换（总体序列差异 1.2%）、5 × 10^6 缺失或插入（使每个物种特异性约 1.5% 的常染色质序列）和许多染色体重排。

同源蛋白质通常非常相似：29% 是相同的，并且在大多数情况下，蛋白质中的物种之间只有一两个氨基酸差异。事实上，核苷酸取代在编码多肽的基因中发生的频率低于可能涉及特定人类特征的频率，这表明蛋白质进化不是人类与黑猩猩差异的主要因素。

这使得基因结构的更大规模变化和/或基因调控的变化成为主要候选者。

大约 25% 的核苷酸取代发生在 CpG 二核苷酸中（其中有许多潜在的调节位点）。

5.18 基因复制有助于基因组进化

💡

重复的基因可以分化产生不同的基因，或者一个拷贝可能成为无活性的假基因。

外显子充当构建基因的模块，这些基因在进化过程中以各种组合进行试验。

在一个极端情况下，一个基因的单个外显子可能会被复制并用于另一个基因。

在另一个极端，包括外显子和内含子在内的整个基因可能会被复制。在这种情况下，突变可以在一个副本中积累，而无需通过自然选择消除，只要另一个副本处于选择状态以保持功能。然后，选择性中性拷贝可能进化为新功能，在不同时间或在与第一个拷贝不同的细胞类型中表达，或成为无功能的假基因。

图总结了这些过程发生率的当前视图。

在 100 万年的时间里，一个特定的基因被包含在一个重复中的概率约为 1%。基因复制后，由于每个副本中发生不同突变，差异会演变。它们以每百万年约 0.1% 的速度累积

除非该基因编码细胞中需要高浓度的产物，否则生物体不太可能需要保留该基因的两个相同拷贝。

随着重复基因之间差异的演变，可能会发生两种类型的事件之一：

两个基因拷贝仍然是必需的。这可能是因为它们之间的差异产生了具有不同功能的蛋白质，或者因为它们在不同时间或不同细胞类型中特异性表达。

如果这没有发生，其中一个基因很可能成为假基因，因为它会偶然获得一个有害突变，并且没有净化选择来消除这个拷贝，因此通过遗传漂移，突变版本可能会增加频率并修复在物种中。通常，珠蛋白基因需要大约 400 万年。一般来说，固定中性突变体的时间取决于世代时间和有效种群大小，遗传漂变在较小的种群中具有更强的力量。在这种情况下，这两个副本中的哪一个变得不起作用完全是一个偶然的问题。（这可能导致不同个体之间的不相容，并最终导致物种形成，如果不同的副本在不同的群体中变得无功能。）

对人类基因组序列的分析表明，大约 5% 的基因组包含长度从 10 到 300 kb 的可识别片段的重复。这些重复是最近才出现的；也就是说，它们之间的分歧还没有足够的时间使它们的同源性变得模糊不清。它们包括表达的外显子的比例份额（约 6%），这表明重复发生或多或少与遗传内容无关。这些重复中的基因可能特别有趣，因为它们暗示它们是最近进化的，因此可能对最近的进化发展很重要（例如人类谱系与其他灵长类动物的分离）。

5.19 重复和发散产生球蛋白簇

💡

所有珠蛋白基因都是由具有三个外显子的祖先基因的复制和突变产生的。祖先基因产生了肌红蛋白、豆血红蛋白以及α-和β-珠蛋白。

α- 和 β- 珠蛋白基因在脊椎动物进化早期分离，之后重复产生单独的 α- 和 β-like 基因簇。

当一个基因因突变而失活时，它可以积累进一步的突变并成为假基因（ψ），它与功能基因同源但没有功能作用（或至少失去了原来的功能）。

最常见的基因复制类型会产生接近第一个拷贝的基因的第二个拷贝。

在某些情况下，拷贝保持关联，进一步的复制可以产生一组相关基因。

基因簇最典型的例子是珠蛋白基因，它构成了一个古老的基因家族，实现了动物的核心功能：氧气的运输。

脊椎动物红细胞的主要成分是珠蛋白四聚体，它以血红蛋白的形式与其血红素（铁结合）基团相关。所有物种的功能性珠蛋白基因具有相同的一般结构：它们分为三个外显子。研究人员得出结论，所有珠蛋白基因都是从一个祖先基因进化而来的，通过追踪物种内部和物种之间单个珠蛋白基因的历史，我们可以了解基因家族进化所涉及的机制。

在成年哺乳动物的红细胞中，珠蛋白四聚体由两条相同的α链和两条相同的β链组成。胚胎红细胞含有不同于成人形式的血红蛋白四聚体。每个四聚体包含两条相同的 α 样链和两条相同的 β 样链，每条链都与成体多肽有关，后来在蛋白质的成体形式中被它取代。这是发育控制的一个例子，其中不同的基因被连续打开和关闭，以提供在不同时间实现相同功能的替代产品。

延伸超过 50 kb，β 簇包含 5 个功能基因（ε、两个 γ、δ 和 β）和一个非功能性假基因（ψβ）。两个 γ 基因的编码序列只有一个氨基酸不同：G 变体在 136 位具有甘氨酸，而 A 变体具有丙氨酸。

更紧凑的 α 簇延伸超过 28 kb，包括一个功能性 ζ 基因、一个非功能性 ζ 假基因、两个 α 基因、两个非功能性 α 假基因和未知功能的 θ 基因。两个α基因编码相同的蛋白质。存在于同一染色体上的两个（或多个）相同基因被描述为非等位基因。

胚胎和成人血红蛋白之间关系的细节因物种而异。人类途径分为三个阶段：胚胎、胎儿和成人。胚胎和成年之间的区别对哺乳动物来说很常见，但成年前阶段的数量各不相同。在人类中，ξ 和 α 是两条类似 α 的链。类β链是γ、δ和β。图 5.36 显示了这些链在不同的发展阶段是如何表达的。还有与发育表达相关的组织特异性表达：胚胎血红蛋白基因在卵黄囊中表达，胎儿基因在肝脏中表达，成人基因在骨髓中表达。

在人类途径中，ζ 是第一个被表达的类 α 链，但很快就被 α 取代。在 β 通路中，首先表示 ε 和 γ，然后用 δ 和 β 代替它们。在成人中，α2 β 2 形式提供 97% 的血红蛋白，α2 δ 2 提供约 2%，约 1% 由胎儿形式 α2 γ2 的持久性提供。

胚胎和成人珠蛋白之间的差异有什么意义？胚胎和胎儿形态对氧气具有更高的亲和力，这是从母亲的血液中获取氧气所必需的。这有助于解释为什么在例如鸡中没有直接的等价物（尽管存在珠蛋白的时间表达），而鸡的胚胎阶段发生在母体之外（即在鸡蛋内）。

功能基因由它们转录为 RNA 定义，最终（对于蛋白质编码基因）由它们编码的多肽定义。假基因被定义为已经失去了产生它们最初编码的多肽的功能版本的能力。他们不活动的原因各不相同：缺陷可能在于转录、翻译或两者兼而有之。在所有脊椎动物珠蛋白基因簇中都发现了类似的一般组织，但基因的类型、数量和顺序的细节各不相同，如图 5.37 所示。每个簇都包含胚胎和成体基因。簇的总长度变化很大。在山羊基因组中发现了最长的已知簇，其中四个基因的基本簇已被复制两次。功能基因和假基因的分布在每种情况下都不同，说明了复制基因的一个拷贝进化为假基因的随机性。

这些基因簇的表征具有重要的一般意义。一个基因家族的成员，无论是功能性的还是非功能性的，都可能比我们根据蛋白质分析所怀疑的要多。额外的功能基因可能代表编码相同多肽的重复，或者它们可能与已知蛋白质相关但不同于已知蛋白质（并且可能仅短暂或少量表达）。

关于编码特定功能需要多少 DNA 的问题，我们看到在不同的哺乳动物中编码 β 样珠蛋白需要 20 到 120 kb 的范围。这比我们仅通过检查已知的 β-珠蛋白甚至考虑单个基因所预期的要大得多。然而，这种类型的集群并不常见。大多数基因是作为单个基因座被发现的。

从多种物种中珠蛋白基因的组织来看，我们应该能够从单个祖先珠蛋白基因追踪目前珠蛋白基因簇的进化。

与珠蛋白基因相关的植物豆血红蛋白基因可能会提供一些关于祖先形式的线索，当然现代豆血红蛋白基因的进化时间与动物珠蛋白基因一样长。（豆类血红蛋白是在豆科植物的固氮根瘤中发现的一种氧载体。）我们可以追溯到真正的珠蛋白基因的最远的地方是哺乳动物肌红蛋白的单链序列，它与珠蛋白谱系分离了大约 8 亿多年前在脊椎动物的祖先中。肌红蛋白基因与珠蛋白基因具有相同的组织结构，因此我们可以用三外显子结构来代表它们共同祖先的结构。

软骨鱼纲（软骨鱼）的一些成员只有一种珠蛋白链，因此在祖先珠蛋白基因复制产生α和β变体之前，它们必须与其他脊椎动物的谱系分道扬镳。这似乎发生在大约 5 亿年前，在 Osteichthyes（硬骨鱼）的进化过程中。

珠蛋白进化的下一阶段由两栖动物非洲爪蟾中珠蛋白基因的状态代表，它有两个珠蛋白簇。然而，每个簇都包含幼虫和成虫类型的 α 和 β 基因。因此，簇必须是通过复制链接的 α-β 对而进化的，然后是各个副本之间的分歧。后来，整个集群被复制了。

两栖动物大约在 3.5 亿年前从爬行动物/哺乳动物/鸟类系中分离出来，因此 α 和 β 珠蛋白基因的分离一定是由于在此之后爬行动物/哺乳动物/鸟类前体中的转座造成的。这可能发生在早期四足动物进化时期。在鸟类和哺乳动物中，α-珠蛋白和 β-珠蛋白有不同的簇；因此，在哺乳动物和鸟类与其共同祖先分道扬镳之前，α 和 β 基因一定是物理分离的，这一事件估计发生在大约 2.7 亿年前。正如我们在本章前面的“恒定的序列发散率是分子钟”一节中对单个基因的发散的描述中看到的那样，最近在单独的 α 和 β 簇内发生了进化变化。

5.20 假基因失去了原来的功能

💡

经加工的假基因是由 mRNA 转录物的逆转录和整合产生的。未加工的假基因是由功能基因的不完全重复或第二拷贝突变引起的。一些假基因可能获得与其亲本基因不同的功能，例如调节基因表达，并采用不同的名称。

假基因是功能基因的副本，这些基因的区域发生了改变或缺失，因此它们可能不会产生具有原始功能的多肽产物。

它们可能没有功能或功能改变，并且 RNA 产物可能具有调节功能。

例如，与其功能对应物相比，许多假基因具有移码或无义突变，从而禁用了它们的蛋白质编码功能。有两种类型的假基因，其特征在于它们的起源模式。

加工后的假基因是由成熟的 mRNA 转录物逆转录成 cDNA 拷贝，然后将它们整合到基因组中产生的。

这可能发生在细胞中存在活性逆转录酶的时候，例如在活性逆转录病毒感染或逆转录酶活动期间。转录本已经过处理，因此经过处理的假基因通常缺乏正常表达所必需的调控区域。虽然它最初包含功能性多肽的编码序列，但它一形成就没有功能。此类假基因也缺乏内含子，并且可能包含 mRNA 的 poly(A) 尾的残余物以及逆转录元件插入的侧翼直接重复特征。

第二种类型，未加工的假基因，源于多拷贝或单拷贝基因的一个拷贝中的失活突变或功能基因的不完全重复。通常，这些是由导致串联重复的机制形成的。一个 β-珠蛋白假基因的例子。如果一个基因在其完整的调控区被复制，那么一次可以有两个功能拷贝，但一个拷贝中的失活突变不一定会受到负选择的影响。因此，基因家族对于未经加工的假基因的起源已经成熟，珠蛋白基因家族中存在几个假基因就证明了这一点（参见本章前面的重复和发散产生的珠蛋白簇一节）。或者，功能基因的不完全复制，导致复制缺失调节区和/或编码序列，将作为即时假基因“到达时死亡”。

人类基因组中大约有 20,000 个假基因。核糖体蛋白 (RP) 假基因包含一大类假基因，大约有 2,000 个拷贝。这些是经过加工的假基因；据推测，高拷贝数是大约 80 个功能性 RP 基因拷贝的高表达率的函数。它们插入基因组显然是由 L1 逆转录转座子介导的。 RP 基因在物种间高度保守，因此可以在具有长期分离进化历史且可获得全基因组序列的物种中鉴定 RP 假基因直系同源物。例如，如表 5.6 所示，在黑猩猩基因组中也发现了超过三分之二的人类 RP 假基因，而在人类和啮齿动物之间共享的不到十几个。这表明大多数 RP 假基因在灵长类动物和啮齿动物中都是最近起源的，并且大多数祖先的 RP 假基因已因缺失或突变衰变而无法识别。

有趣的是，RP 假基因的进化速度比中性速率慢（由整个基因组中古代重复的替代率决定），表明负选择并暗示 RP 假基因的功能作用。虽然假基因在最初形成时是无功能的，但有明显的例子表明以前的假基因（最初被确定为假基因，因为与它们的功能对应物的序列差异可能会使它们失去功能）变得新功能化（承担新功能）或亚功能化（承担新功能）亲本基因的子功能或互补功能）。当再次发挥作用时，它们将受到选择，因此在中性模型下的进化速度比预期的要慢。

假基因如何获得新功能？一种可能性是假基因的翻译而不是转录已被禁用。假基因编码的 RNA 转录本不再可翻译，但会影响仍有功能的“亲本”基因的表达或调节。在小鼠中，经过加工的假基因 Makorin1-p1 稳定了功能性 Makorin1 基因的转录本。几种内源性 siRNA由假基因编码。第二种可能性是，加工过的假基因可能被插入一个位置，为它们提供新的调节区域，例如转录因子结合位点，这使得它们能够以不同于亲本基因的组织特异性方式表达。

5.21 基因组复制在植物和脊椎动物进化中发挥了作用

💡

当多倍体化使染色体数目增加两倍时，就会发生基因组复制。基因组复制事件可能被复制的进化和/或丢失以及染色体重排所掩盖。

在许多开花植物和脊椎动物的进化史中已经检测到基因组重复

基因组可以通过单个基因或携带基因块的染色体片段的复制和分歧而进化

然而，似乎一些主要的后生动物谱系在其进化历史中具有基因组重复。

基因组复制是通过多倍体化完成的，例如当一个四倍体 (4n) 变种来自二倍体 (2n) 祖先谱系时。

多倍体化有两种主要机制

当一个物种内源性地产生多倍体变种时，就会发生同源多倍体；这通常涉及未减少的配子受精。

异源多倍体是两个生殖相容物种之间杂交的结果，因此来自两个亲本物种的染色体的二倍体集保留在杂交后代中。

与同源多倍体一样，该过程通常涉及意外产生未减少的配子。在这两种情况下，新的四倍体通常与二倍体亲本物种生殖分离，因为回交杂种是三倍体且不育，因为一些染色体在减数分裂期间没有同源物。

在成功建立多倍体物种之后，许多突变可以基本上是中性的。与基因重复一样，非同义替换被同一基因的冗余功能拷贝“覆盖”。在基因组复制的情况下，基因或染色体片段的缺失或染色体对的丢失可能对表型影响很小。除了染色体片段的丢失外，染色体重排（如倒位和易位）也会打乱基因块的位置和顺序。在很长一段时间内，此类事件可能会掩盖祖先的多倍体化。然而，在基因组中存在冗余染色体或染色体片段的情况下，可能仍然存在多倍化的证据。

检测古代多倍化的一种成功方法是比较一个物种内的多对旁系同源（重复）基因，并确定基因重复事件的年龄分布。许多大约相同年龄的事件可以作为多倍体化的证据。

基因组复制事件将显示为高于基因复制和拷贝丢失随机事件的一般模式的峰值。这种方法以及对基因复制染色体位置的分析表明，单细胞酵母酿酒酵母和许多开花植物的进化历史包括一个或多个基因组复制事件。例如，陆地植物拟南芥的遗传模型有两个或可能三个多倍化事件的历史。

因为多倍化在植物中比在动物中更常见，所以大多数检测到的基因组重复的例子都在植物物种中也就不足为奇了。然而，基因组复制似乎在脊椎动物进化中发挥了重要作用，特别是在鳍鱼中。作为证据，与四足动物基因组中的四个簇相比，斑马鱼基因组包含七个 Hox 簇，这表明存在一个四倍体化事件，然后是一个簇的二次丢失。对其他鱼类基因组的分析表明，这一事件发生在该分类群多样化之前。在四足动物中存在四个 Hox 簇（在其他脊椎动物中至少有四个），以及与无脊椎动物基因组相比，观察到其他共享基因重复，这本身表明在进化之前可能存在两个主要的多倍体化事件。脊椎动物。关于“两轮多倍化”，这被称为 2R 假设。

这一假设导致预测许多脊椎动物基因，如 Hox 簇，与它们在无脊椎动物物种中的直系同源物相比，其拷贝数将是其四倍。随后观察到不到 5% 的脊椎动物基因显示出这种 4:1 的比例，这似乎最多只能支持这一假设。

然而，可以预料的是，经过近 5 亿年的进化，许多额外的基因拷贝将被删除，显着进化以承担新的功能，或者成为假基因并腐烂得面目全非。然而，更有力的支持来自考虑到重复的地图位置的分析，这些重复的位置可以追溯到脊椎动物的共同祖先的时间。确实显示出 4:1 模式的古老基因重复往往以簇的形式出现，即使经过 5 亿年的染色体重排也是如此。脊椎动物的进化史显然是从八倍体开始的。

2R 假设很有吸引力，可以解释伴随脊椎动物进化而出现的形态复杂性的爆发，尽管目前几乎没有证据表明该分类群的基因组和形态变化之间存在直接相关性。

5.22 转座因子在基因组进化中的作用是什么？

💡

当被引入基因组时，转座因子往往会增加拷贝数，但会受到负选择和转座调节机制的控制。

转座因子 (TE) 是可移动的遗传元件，可以在多个位点整合到基因组中，并且（对于某些元件）也可以从整合位点切除。（有关 TE 的类型和机制的详细讨论，请参阅标题为转座因子和逆转录病毒的章节。）将 TE 插入基因组中的新位点称为转座。一种类型的 TE，即反转录转座子，通过 RNA 中间体进行转座；通过转录产生一个新的元素副本，然后逆转录为 DNA，随后整合到一个新的位点。

大多数 TE 以随机的序列集成（至少就其功能而言）。因此，它们是与插入突变相关的问题的主要来源：如果插入编码区会发生移码，如果插入调节区会改变基因表达。因此，物种基因组中特定 TE 的拷贝数取决于几个因素：TE 的整合率、其切除率（如果有的话）、表型因 TE 整合而改变的个体的选择以及转座的调节.

TEs 有效地充当细胞内寄生虫，并且像其他寄生虫一样，可能需要在它们自身的增殖和对“宿主”生物体的有害影响之间取得进化平衡。对果蝇 TE 的研究证实，TE 的突变整合通常具有有害的，有时甚至是致命的表型效应。这表明负选择在转座调控中起重要作用；具有高水平转座的个体不太可能存活和繁殖。然而，我们可能期望 TE 和它们的宿主都可能进化出限制转座的机制，事实上两者都被观察到了。在 TE 自我调节的一个例子中，果蝇 P 元件编码一种在体细胞组织中具有活性的转座抑制蛋白。

此外，转座调节有两种主要的细胞机制：

在涉及 piRNA 的 RNA 干扰样机制中，可以选择性地降解反转录转座子的 RNA 中间体。

在哺乳动物、植物和真菌中，DNA 甲基转移酶使 TE 内的胞嘧啶甲基化，导致转录沉默。

在任何情况下，TE 增殖很少会继续不受限制，而是受到负选择和/或转座调节的限制。然而，在将 TE 引入基因组后，拷贝数可能会在达到某种平衡之前增加到数千或数百万，特别是如果 TE 被整合到内含子或基因间 DNA 中，而表型效应将不存在或最小。结果，基因组可能包含高比例的中度或高度重复序列。

5.23 突变、基因转换和密码子使用可能存在偏差

💡

突变偏倚可以解释有机体基因组中的高 AT 含量。

倾向于增加 GC 含量的基因转换偏倚可以部分对抗突变偏倚。

密码子偏倚可能是有利于特定序列的适应性机制和基因转换偏倚的结果。

特定突变的概率是特定复制错误或 DNA 损伤事件发生的概率以及错误发生的概率的函数。在下一次 DNA 复制之前被检测和修复。在这两个事件中存在偏差的情况下，发生的突变类型存在偏差。

通过直接观察突变变体或通过比较假基因中的序列差异进行评估，对分类学范围广泛的物种（包括原核生物和单细胞和多细胞真核生物）的突变类型分布的观察显示出一致的偏向模式AT 基因组内容。其原因很复杂，不同的机制在不同的分类群中可能或多或少重要，但有两种可能的机制。首先，胞嘧啶自发脱氨基成尿嘧啶或 5-甲基胞嘧啶脱氨基成胸腺嘧啶的常见突变源促进了 C-G 到 T-A 的过渡突变。 DNA 中的尿嘧啶比胸腺嘧啶更容易被修复，因此甲基化胞嘧啶（通常在 CG 双联体中发现）不仅是突变热点，而且特别偏向于产生 T-A 对。其次，鸟嘌呤氧化为 8-氧代鸟嘌呤可导致 C-G 到 A-T 颠换，因为 8-氧代鸟嘌呤与腺嘌呤的配对比与胞嘧啶的配对更稳定。

尽管存在这种突变偏差，但在根据观察到的特定类型突变率预测预期平衡碱基组成的分析中，观察到的 AT 含量通常低于预期。这表明某些机制或机制正在努力抵消对 A-T 的突变偏见。一种可能性是这是自适应的。高度偏向的碱基组成限制了突变的可能性，从而限制了进化潜力。然而，正如接下来所讨论的，可能会有一个非适应性的解释。

基因组碱基组成中第二个可能的偏差来源是基因转换，当使用突变链作为模板修复含有错配碱基对的异源双链 DNA 时，通常是由于重组或双链断裂修复过程中 Holliday 连接的分辨率造成的。

有趣的是，对动物和真菌基因转换事件的观察显示出对 G-C 的明显偏见，尽管机制尚不清楚。为了支持这一观察，高重组活性的染色体区域显示出更多的 G-C 突变，而低重组活性的区域往往富含 A-T。观察到的每个位点的基因转化率往往与突变率处于同一数量级或更高；因此，仅基因转换偏倚就可能导致突变偏倚导致的 AT 含量低于预期。基因转换偏差也可能部分地导致另一个普遍观察到的基因组组成偏差，即密码子偏差。

由于遗传密码的简并性，多肽中发现的大多数氨基酸在遗传信息中由一个以上的密码子表示。然而，替代密码子在基因中的频率通常不相等。特别是在高表达基因中，需要特定氨基酸的两个、四个或六个密码子中的一个密码子的使用频率通常比其他密码子高得多。对这种偏差的一种解释是，特定的密码子可能更有效地招募丰富的 tRNA 类型，因此翻译的速率或准确性随着该密码子的使用越高而越高。特定外显子序列可能会有额外的适应性后果：一些可能有助于剪接效率，形成影响 mRNA 稳定性的二级结构，或者比其他外显子更不容易受到移码突变的影响（例如，促进滑移的单核苷酸重复）。

然而，有偏见的基因转换仍然是一种（非适应性）可能性。有趣的是，大多数密码子的同义位点是 3' 端，真核生物中的高使用密码子几乎总是以 G 或 C 结尾，这与偏向基因转换驱动密码子偏倚的假设一致。显然，密码子偏倚的原因很复杂，可能涉及适应性和非适应性机制。