原核生物基因结构真核生物基因结构在NCBIGene数据库中检索基因结构
本周系列专题是“变异”,变异包含很多种:单核苷酸多态性(SNP)、插入缺失突变(INDEL)、拷贝数变异(CNV)以及结构变异(SV)等。不过本篇并不是讲变异的,在进入本周系列主题之前,需要对基因结构做一下回顾,以作为后续篇章的基础知识。
原核生物基因结构原核细胞的基因组相对较小,一切以“精简实用”为核心原则,因此原核细胞的基因是连续的,基因与基因之间不存在冗余序列。有的编码区的序列还可以同时编码多个蛋白质。并且存在重叠基因,一个基因部分或全部位于另一个基因序列之内。
如上图所示,原核生物基因由编码区和非编码区组成。在上游非编码区含有启动子,启动子是RNA聚合酶的结合位点,是转录的起始处;在下游非编码区含有终止子,终止子具有终止转录的功能。启动子和转录起始位点(TSS)也会有操纵子序列。
真核生物基因结构真核细胞的基因和原核生物一样都有编码区、非编码区,在非编码区都有调控遗传信息表达的核苷酸序列。但是其与原核细胞的基因结构已经有了很大的差异,真核生物的基因存在的很多的冗余序列和复杂的调控序列。
DNA水平
如上图所示,真核细胞的基因是间隔的,相邻基因之间有一段冗余序列。
除了基因是间隔的,基因编码区也是间隔的,可分为外显子(exon)和内含子(intron)。
每个外显子和内含子接头区都有一段高度保守的序列,即内含子5’末端大多数是GT开始,3’末端大多是AG结束,称为GT-AG法则,是普遍存在于真核基因中RNA剪接的识别信号。
第一个外显子首端和最后一个外显子末端,分别为翻译蛋白的起始密码子和终止密码子。
RNA水平
初始转录的RNA,需要经过RNA剪接、修饰及编辑等步骤才会形成成熟的mRNA。mRNA是翻译蛋白质的模板,但是并非mRNA的全长用于翻译蛋白质。mRNA两端是存在一定长度的非翻译区(UTR),5’端的叫做5‘UTR,3’端的叫做3‘UTR,而翻译蛋白质的区域叫做蛋白质编码序列(CDS)。
5’UTR是mRNA帽子结构与起始密码子之间的区域,3‘UTR是mRNA的3’端polyA和终止密码子(polyA更靠近3’)之间区域。
在NCBIGene数据库中检索基因结构基因结构可以在NCBIGene数据库中查询,这个数据库在以前的章节也讲过(浅谈EntrezID),不过当时主要是讲不同版本的基因ID的。在这里会继续使用这个数据库,来搜索查看基因结构,仍以人源TP53基因为例。
第一步打开NCBIgene,键入搜索词
打开NCBI(北京哪里有专业治疗白癜风的医院北京中科白癜风医院价格