变异形式专题基因结构

原核生物基因结构真核生物基因结构在NCBIGene数据库中检索基因结构

本周系列专题是“变异”，变异包含很多种：单核苷酸多态性（SNP）、插入缺失突变（INDEL）、拷贝数变异（CNV）以及结构变异（SV）等。不过本篇并不是讲变异的，在进入本周系列主题之前，需要对基因结构做一下回顾，以作为后续篇章的基础知识。

原核生物基因结构

原核细胞的基因组相对较小，一切以“精简实用”为核心原则，因此原核细胞的基因是连续的，基因与基因之间不存在冗余序列。有的编码区的序列还可以同时编码多个蛋白质。并且存在重叠基因，一个基因部分或全部位于另一个基因序列之内。

如上图所示，原核生物基因由编码区和非编码区组成。在上游非编码区含有启动子，启动子是RNA聚合酶的结合位点，是转录的起始处；在下游非编码区含有终止子，终止子具有终止转录的功能。启动子和转录起始位点（TSS）也会有操纵子序列。

真核生物基因结构

真核细胞的基因和原核生物一样都有编码区、非编码区，在非编码区都有调控遗传信息表达的核苷酸序列。但是其与原核细胞的基因结构已经有了很大的差异，真核生物的基因存在的很多的冗余序列和复杂的调控序列。

DNA水平

如上图所示，真核细胞的基因是间隔的，相邻基因之间有一段冗余序列。

除了基因是间隔的，基因编码区也是间隔的，可分为外显子（exon)和内含子(intron)。

每个外显子和内含子接头区都有一段高度保守的序列，即内含子5’末端大多数是GT开始，3’末端大多是AG结束，称为GT-AG法则，是普遍存在于真核基因中RNA剪接的识别信号。

第一个外显子首端和最后一个外显子末端，分别为翻译蛋白的起始密码子和终止密码子。

RNA水平

初始转录的RNA，需要经过RNA剪接、修饰及编辑等步骤才会形成成熟的mRNA。mRNA是翻译蛋白质的模板，但是并非mRNA的全长用于翻译蛋白质。mRNA两端是存在一定长度的非翻译区（UTR），5’端的叫做5‘UTR，3’端的叫做3‘UTR，而翻译蛋白质的区域叫做蛋白质编码序列（CDS）。

5’UTR是mRNA帽子结构与起始密码子之间的区域，3‘UTR是mRNA的3’端polyA和终止密码子（polyA更靠近3’）之间区域。

在NCBIGene数据库中检索基因结构

基因结构可以在NCBIGene数据库中查询，这个数据库在以前的章节也讲过（浅谈EntrezID），不过当时主要是讲不同版本的基因ID的。在这里会继续使用这个数据库，来搜索查看基因结构，仍以人源TP53基因为例。

第一步打开NCBIgene，键入搜索词

当前时间：