🏹

chapter3-中断的基因

1-介绍

所谓中断的基因,就是真核生物,DNA转录出的RNA需要经过剪切。

蛋白质编码序列是可以中断的,转录后再把中断的序列部分切去
中断的DNA序列分为2部分
  • 外显子Exons
  • 内含子Introns

对于中断的基因,转录成RNA后,要去除内含子,再把外显子连接起来

基因两侧有调控区,调控转录的起始和终止。

2-中断基因有外显子和内含子

内含子的存在改变了对基因的看法
剪接是一种分子内反应
RNA剪接:顺式

外显子突变→影响多肽序列
内含子突变→通过影响简介来影响mRNA的产生(只作用于携带它的等位基因)

影响剪接的突变通常是有害的
大多数突变时再内含子和外显子连接处的单碱基突变
➠导致产物中没有外显子,却包括了内含子
➠使得剪接发生在不同的位点
➡︎通过产生了终止子缩短了多肽序列
内含子突变不仅影响多肽产生,还影响序列

🫐但是还是有一些真核基因,并没有中断,直接对应最后的多肽产物。
 

3-外显子和内含子组成不同

💡
DNA碱基组成的规则
  1. 第一奇偶校验准则
  1. 第二奇偶校验准则
  1. 簇规则
  1. GC规则
外显子和内含子可以根据2,3,4区分
第一准则:
碱基互补配对,A↔T,C↔G

第二奇偶性规则:
在双链的每一条单链中都有等量的A和T、等量的G和C
🍉知识近似,但是普遍正确
在内含子上更接近:
可能的原因~飘零倾向于聚集在一条DNA链,嘧啶倾向于居于在另一条DNA链
*在外显子中,A和G倾向于聚集在非模版链,T和C倾向于聚集在模版链
 

簇规则
在单链DNA中,寡核苷酸串联地伴随着等量的反向互补管核苷酸
双链DNA有可能挤出折叠的茎环结构
茎可以显示碱基奇偶校验
环可以显示某种程度的聚类
这种二级结构在内含子中更多

GC规则
G+C的含量是物种特异性的
外显则的GC%更高

这些规则与构成基因组表型的基因组特征or压力有关
 

4-中断基因的组织可能是保守的

如何发现内含子?
基因不间断时,DNA图谱和RNA图谱对应
有内含子时,不对应
notion image

内含子的数量和大小差异很大
不同生物体的同源基因,内含子位置通常是保守的,但是内含子的长度差异可能很大

编码多肽、rRNA、tRNA的基因都可以有内含子
某些原核基因组中也有发现

有些中断的基因只有一个or几个内含子
notion image

5-负选择下的外显子序列保守但内含子不同

 
正选择 当一个群体中出现能够提高个体生存力或育性的突变时,具有该基因 的个体将比其它个体留下更多的子代,而突变基因最终在整个群体中扩散。 负选择
由于缺乏产生具有有用序列的多肽的选择压力,内含子的进化速度比外显子快得多。

一个单拷贝结构的基因,在基因组中是否是独一无二的?
整体上看,肯定是独一无二的。
但是外显子部分,可能和其他基因的外显子一样
内含子不同

外显子可以被认为是进行组合的block
一个基因的一些外显子可能和其他基因的差不多,其余的不同
基因之间的同源行可能来自单个外显子的复制和易位

可以用点阵比较2个基因之间的同源性

相关基因中两个同源外显子之间的总体差异程度对应于多肽之间的差异。
这主要是碱基替换的结果。
在翻译区域中,外显子序列的变化受到针对改变或破坏多肽功能的突变的选择的限制。
换言之,外显子序列通过对其中序列已改变(未保守)的个体的负选择而保守,从而导致无法存活并产生可育后代的表型。
🌰如果编码关键酶的基因的外显子突变破坏了该酶的功能,那么携带突变的个体(如果是二倍体,则为纯合形式)要么无法存活,要么受到严重影响。新的突变不会持续存在。

6-正选择下的外显子序列不同但内含子保守

在正选择下,内含子的进化比外显子慢。

 

7-由于内含子大小和数量变化基因显示出广泛的大小分布

随着多细胞真核生物的演化,基因从不中断到中断
由于内含子的增加,基因组大小和生物复杂性之间的相关性变弱
 

8-一些DNA序列编码不止一种多肽

💡
选择性剪接 选择性读取
使用可选择的起始或终止密码子允许多肽链有多重变体。当mRNA在不同的阅读框中读取时,可以从相同的DNA序列中产生不同的多肽,也可以通过差异剪接产生相同的多肽。
 
许多结构基因编码单个多肽。某些情况下单个DNA序列编码不止一个多肽。

notion image
一个单一的DNA序列可以在同一个阅读框中有2个可供选择的起始密码子。在不同条件下,可以从其中的一个开始。
这种基因就是overlapping gene

notion image
通常情况下, 仅在3个潜在阅读框中的一个编码。但是在一些病毒、线粒体基因中,两个相邻的基因之间会存在重叠。

在某些情况下,基因可以是嵌套的。大的基因,可以被认为是“宿主”

没太明白
在一些基因中,剪接外显子的途径中存在开关,导致基因表达的替代模式
单个基因可能会产生多种外显子含量不同的 mRNA 产物。
某些外显子可能是可选的(换句话说,它们可能被包含或拼接出来)
也可能有一对被视为互斥的外显子——一个或另一个包含在成熟的转录本中,但不是两者都包含。
替代蛋白质具有一个共同部分和一个独特部分。

  • 在某些情况下,替代的表达方式不影响多肽的序列。
🌰影响 5' UTR 或 3' UTR 的变化可能会产生调节后果,但会产生相同的多肽
  • 在其他情况下,一个外显子被另一个外显子取代
 
notion image
由两个 mRNA 产生的多肽包含广泛重叠的序列,但在可变剪接区域内是不同的。
大鼠肌肉肌钙蛋白 T 基因的 3' 一半包含五个外显子,但只有四个用于构建单个 mRNA。三个外显子(W、X 和 Z)包含在所有 mRNA 中。
然而,在另一种剪接模式中,α 外显子包含在 X 和 Z 之间,而在另一种模式中,它被 β 外显子取代。
因此,肌钙蛋白 T 的 α 和 β 形式在 W 和 Z 之间的氨基酸序列上有所不同,这取决于使用了哪个替代外显子(α 或 β)。
α 和 β 外显子中的任何一个都可以用于单个 mRNA,但不能同时用于同一 mRNA。

notion image
可变剪接可导致某些 mRNA 中包含一个外显子,而另一些 mRNA 则将其排除在外。
单个初级转录本可以通过两种方式中的任何一种进行拼接。
  • 在第一个(更标准的)途径中,两个内含子被剪接,三个外显子连接在一起。
  • 在第二个途径中,第二个外显子被排除在外,就好像一个大的内含子被剪接了一样。

  • 有时,两种选择性剪接途径同时起作用,一定比例的初级 RNA 转录物以每种方式进行剪接。
  • 有时这些途径是在不同条件下表达的替代途径;例如,一种细胞类型和另一种细胞类型中的一种。

 

9-一些外显子对应于蛋白质功能域

💡
外显子像积木的块
如果蛋白质是通过重组(最初是分离的)祖先蛋白质的一部分而进化的,那么蛋白质结构域的积累很可能是顺序发生的,一次添加一个外显子。
在一系列正选择事件中,每次添加都需要改进先前添加的优势。
不同功能编码片段是否反映在结构中?
如果一个蛋白质序列被随机中断,有时中断会与一个域相交,有时它会位于域之间
如果可以将当前蛋白质的功能域与相应基因的单个外显子相关联,这将表明选择性域间中断而不是随机中断。

在某些情况下,基因结构与其蛋白质产物之间存在明确的关系,但这些可能是特殊情况。
最典型的例子是免疫球蛋白(抗体)蛋白。
免疫球蛋白由基因编码,其中每个外显子都与已知的功能蛋白结构域完全对应。
notion image

在许多情况下,基因的某些外显子可以被鉴定为具有特定功能。在分泌蛋白(如胰岛素)中,编码多肽 N 端区域的第一个外显子通常指定跨膜转移所需的信号序列。

外显子是基因的功能构建块的观点得到了两个基因可以共享一些相关外显子但也具有独特外显子的情况的支持。
notion image
人血浆低密度脂蛋白 (LDL) 受体与其他蛋白质之间的关系。 LDL受体基因具有一系列与表皮生长因子(EGF)前体基因的外显子相关的外显子和另一系列与血液蛋白补体因子C9的外显子相关的外显子。
显然,低密度脂蛋白受体基因是通过组装各种功能的模块进化而来的。这些模块也用于其他蛋白质的不同组合。

外显子往往相当小——大约是可以呈现稳定折叠结构的最小多肽的大小(大约 20 到 40 个残基)可能是蛋白质最初是由相当小的模块组装而成的。
每个单独的模块不需要对应于当前的功能;
几个模块可以组合起来生成一个新的功能单元。
较大的基因往往具有更多的外显子,这与蛋白质通过连续添加适当的模块获得多种功能的观点是一致的。
 

10-基因家族的成员有一个共同的组织

💡
关于进化方面的东西 一组同源基因应该具有在它们进化分离之前的共同特征。 所有珠蛋白基因都有一个共同的组织形式,具有三个外显子和两个内含子,这表明它们来自一个单一的祖先基因。
肌动蛋白基因家族中的内含子位置是高度可变的,这表明内含子不分离功能域。
多细胞真核基因组中的许多基因与同一基因组中的其他基因相关
  • 串联(非等位基因)
  • 平行(等位基因)。
基因家族被定义为由于基因复制事件而编码相关或相同产物的一组基因。
在第一次复制事件之后,两个副本是相同的,但是随着不同的突变在其中积累,它们会分道扬镳。
进一步的重复和分歧扩大了这个家庭。
🌰珠蛋白基因是一个家族的例子,它可以分为两个亚家族
  • α珠蛋白
  • β珠蛋白
但它的所有成员都具有相同的基本结构和功能。
在某些情况下,我们可以找到更远相关但仍可被认为具有共同祖先的基因。这样的一组基因家族被称为超家族

肌红蛋白是动物体内的单体氧结合蛋白。它的氨基酸序列表明 α 和 β 珠蛋白的共同来源(尽管很古老)。
豆类血红蛋白是存在于豆科植物中的氧结合蛋白;像肌红蛋白一样,它们是单体的,并且与其他血红素结合蛋白有共同的起源。
珠蛋白、肌红蛋白和豆血红蛋白共同构成了珠蛋白超家族

α- 和 β-珠蛋白基因在保守位置都有三个外显子和两个内含子。
中心外显子代表珠蛋白链的血红素结合结构域。
人类基因组中只有一个肌红蛋白基因,其结构与珠蛋白基因基本相同。
因此,保守的三外显子结构早于肌红蛋白和珠蛋白基因的共同祖先。

豆血红蛋白基因包含三个内含子,其中第一个和最后一个与珠蛋白基因中的两个内含子同源。
这种显着的相似性表明血红素结合蛋白的中断结构具有极其古老的起源。豆血红蛋白的中心内含子将两个外显子分开,这两个外显子一起编码对应于珠蛋白中单个中心外显子的序列;功能性血红素结合域被内含子分成两部分。

直系同源基因或直系同源物是由于物种形成而具有同源性(同源物)的基因;换句话说,它们是不同物种的相关基因。
结构不同的直系同源物的比较可能会提供有关其进化的信息。
notion image

我们通过假设共同特征早于两个物种的进化分离来使用简约原则来比较直系同源基因的组织。
在鸡中,单个胰岛素基因有两个内含子
两个同源大鼠基因之一具有相同的结构。
共同的结构意味着祖先的胰岛素基因有两个内含子。
然而,因为第二个大鼠基因只有一个内含子,它一定是通过啮齿动物的基因复制进化而来的,然后从其中一个同源物中精确去除一个内含子。

一些直系同源物的组织在物种之间表现出广泛的差异。
在这些情况下,进化过程中一定有大量的内含子缺失或插入。一个很好表征的案例是肌动蛋白基因。肌动蛋白基因的共同特征是一个少于 100 个碱基的非翻译前导、一个约 1,200 个碱基的编码区和一个约 200 个碱基的尾随。大多数肌动蛋白基因都有内含子,它们的位置可以与编码序列对齐(除了有时在前导中发现的单个内含子)。

 

11-DNA有多种形式的信息

💡
遗传信息不仅包括与常规表型对应的特征相关的信息,还包括与基因组“表型”对应的特征(压力)相关的信息。
在某些情况下,基因的定义可以被视为从“一个基因-一个蛋白质”颠倒到“一个蛋白质-一个基因”。
位置信息很重要。 从其他物种“水平”转移到种系的序列可以落在内含子或基因间 DNA 中,然后“垂直”转移到世代之间。其中一些序列可能与细胞内的非自我识别有关。
 
术语遗传信息可以包括“垂直”通过种系的所有信息,而不仅仅是基因信息。
“基因”这个词及其形容词“基因”在不同的语境中具有不同的含义,但在大多数情况下,考虑语境时几乎不会混淆。
对于DNA序列负责产生一个特定多肽的情况,目前的用法是
将整个DNA序列从信使RNA中代表的第一个点到与其末端对应的最后一个点视为包含“基因”

当编码多肽的序列重叠或具有替代的表达形式时,我们可以颠倒通常对基因的描述。
与其说“一个基因-一个多肽”,我们可以将这种关系描述为“一个多肽-一个基因”。
因此,我们将参与多肽产生的序列(包括内含子和外显子)视为构成基因,同时认识到同一序列的一部分也属于另一个多肽的基因。这允许使用诸如“重叠”或“替代”基因之类的描述。

我们现在可以看到,我们距离 20 世纪的单一基因一酶假说已经发展出了很多新的认识。
当时的驱动问题是基因的性质。人们认为基因代表“发酵”(酶),但发酵的基本性质是什么?在
发现大多数基因编码蛋白质后,范式变得固定为每个遗传单位通过合成特定蛋白质发挥作用的概念。直接或间接地,蛋白质编码压力是我们现在可以称为常规表型的原因。
 
我们现在认识到编码多肽的遗传单位还可以包括与基因组表型相对应的信息,其表现形式包括
  • 折叠压力
  • 嘌呤负载 (AG) 压力
  • GC 压力。
不同压力之间可能存在冲突,例如对配子中空间的竞争,这会将基因组信息传递给下一代。
例如,蛋白质可能在某个位置使用碱性氨基酸赖氨酸(密码子 AAA)最有效地发挥作用,但 GC 压力可能需要替换另一种碱性氨基酸,例如精氨酸(密码子 CGG)。
或者,折叠压力可能需要相应的核酸折叠成茎环结构,其中 CCG 将与反平行精氨酸密码子配对。在这个位置的赖氨酸密码子会破坏结构,所以同样需要一个效率较低的多肽就足够了。

然而,传统的表型仍然是分子生物学的核心范式:
基因 DNA 序列要么直接编码特定的多肽,要么与实际编码该多肽的片段相邻。
除了解释基因和蛋白质之间的基本关系之外,这种范式还能让我们走多远?

多细胞生物的发展需要使用不同的基因来产生每个组织的不同细胞表型。
基因的表达由采用级联形式的调节网络决定。
在胚胎发育开始时第一组基因的表达导致参与下一发育阶段的基因的表达,这反过来又导致进一步的阶段,以此类推,直到成人的所有组织都形成和运作。
这个调控网络的分子性质仍在研究中,但我们看到它由编码产物(通常是蛋白质,但有时是 RNA)的基因组成,这些产物可以影响其他基因的表达。

一个具体问题:涉及位置信息的性质和作用。
受精卵的所有部分都不是平等的,负责从卵子的不同区域发育不同组织部分的特征之一是细胞内信息(可能是特定的大分子)的位置。

我们并不完全了解这些特定区域是如何形成的,尽管已经对特定示例进行了很好的研究(参见 mRNA 稳定性和定位章节)。
然而,我们假设,卵子中位置信息的存在导致了构成由这些区域形成的组织的细胞中基因的差异表达。这导致成年有机体的发育,在下一代导致具有适当位置信息的卵子发育。

这种位置信息的可能性表明,有机体发育所需的一些信息包含在一种我们不能直接归因于 DNA 序列的形式中(尽管可能需要特定序列的表达来使位置信息永久化)。
换一种更一般的方式,我们可能会问以下问题:如果我们拥有包含某个生物体基因组的整个 DNA 序列,并根据蛋白质和调控区域对其进行解释,那么我们原则上是否可以构建一个生物体(甚至是单个生物体)?活细胞)通过适当基因的受控表达?

组织和器官发育后,不仅必须对其进行维护,而且还必须保护它们免受潜在病原体的侵害。
可变基因组在种系中已经多样化,并继续在体细胞上多样化,以允许多细胞生物
(1)通过合成针对病原体的免疫球蛋白抗体在细胞外作出反应
(2)“记住”过去的病原体,以便未来的反应会更快更强。
但是,如果它逃脱了这种细胞外防御,病原病毒的核酸可能会进入细胞,因此需要细胞内防御。