”人类基因组计划”显示:人类只有两万多个基因,仅占人类基因组序列的2%,而98%基因组序列都是非蛋白质编码区,主要包含DNA复制及基因表达的调控元件、转座子等重复序列,以及大量的非编码RNA。由于非编码RNA没有经典的蛋白质阅读框,在基因组中难以识别和鉴定,故也被称为基因组中的“暗物质”。为探明基因组“暗物质”存在的意义,科学家于年9月启动了“DNA元件百科全书计划(TheEncyclopediaofDNAElementsProject,ENCODE)。综合数据显示:蛋白质基因数量的多少并不能决定一个物种的复杂性;而许多非编码RNA在演化上具有较低的保守性,呈现明显的物种特异性,提示非编码RNA的变化与生物本质和多样性联系紧密(如人类等高等生物拥有比其他物种更多的非编码RNA)。可见,庞大的非编码序列与有限的蛋白质编码序列具有同等重要的地位。本文概述基因组“暗物质”在基因演化和基因表达调控上的重要作用。
1基因演化的摇篮▲▲▲1.1试错演化的缓冲区
基因点突变是基因演化的方式之一。DNA复制时发生点突变的概率仅为十亿分之一,看似概率很小,但在受精卵分裂分化发育为成熟个体(具有50万亿个细胞)的过程中,每一次细胞分裂,都得进行DNA复制,即使按上述点突变概率,并假设点突变都落在蛋白质编码区内,那么未至成年,个体的基因就会因突变而面目全非;然而,庞大的基因组暗物质”的存在,有效地保证了绝大多数的点突变不会发生在编码蛋白质的基因里;由此可见,基因组“暗物质”是基因组里重要的缓冲区,它们为基因演化提供了安全保障。
1.2快速迭代的走秀场
在生命诞生的40亿年里,基因若仅通过点突变的方式演化,则难以产生百万或千万级的DNA字符差异。因此,科学家推测,基因的演化必然存在其他的方式。
20世纪70年代,科学家发现信使RNA上的碱基序列常常比DNA上的少一些。进一步的研究显示,在DNA上基因是断裂分布的,后称之为断裂基因;那么,基因的断裂分布有何意义呢?年,哈佛大学的吉尔伯特将编码蛋白质的DNA序列命名为外显子,将不编码蛋白质的DNA序列命名为内含子,并提出了一个有关基因演化的大胆的猜想:基因以断裂基因的形式存在,可以通过内含子介导重组,使不同基因的外显子发生互换(exonshuffling,外显子重排)导致原基因结构发生变化,这可能产生新的基因。随后Sudhof等有关低密度脂蛋白受体蛋白结构的实验证明了这一假说的正确性。之后,1i等对5个真核生物基因组的共享结构域的分析、Path对大量蛋白质家族结构域的分析以及Long等对内含子相位的分析,都证实了真核生物中有相当比例的基因是由外显子重排产生的。
外显子重排是指由来自不同基因的2个或多个外显子相互接合,或基因内部的外显子产生重复而形成新基因结构的基因演化形式。现已发现外显子重排的方式主要包括异常重组(illegitimatere