罗勒花和叶的转录组数据组装及基因功能注释

罗勒OcimumbasilicumL.为唇形科罗勒属一年生草本植物,俗称香佩兰、零陵香、九层塔、金不换和圣约瑟夫草,原产于以印度为中心的亚洲热带地区和非洲,在我国主要分布于新疆、吉林、河北、浙江、江苏、安徽、江西、湖北、湖南、广东、广西、福建、台湾、贵州、云南及四川等省[1]。罗勒具有疏风行气、化湿消食、活血、解毒之功能,主要用于治疗外感头痛、食胀气滞、脘痛、泄泻、月经不调、跌打损伤、蛇虫咬伤、皮肤湿疮等症[2-3]。此外,其还可作为提取精油、食品调味料、减肥代餐食品等原料,具有较大的经济效益和社会效益[4-5]。

罗勒化学成分的研究近年来主要集中于挥发油、酚酸、黄酮和甾体类。罗勒中含有大量的挥发油,通过水蒸气蒸馏法提取和GC-MS分析发现其含有多种萜烯类的含氧衍生物。近年来大量研究表明不同产地的罗勒挥发油成分和含量差异较大。兰瑞芳等[6]、帕丽达等[7]、Jose等[8]、李建文等[9]分别对我国福建、新疆产和肯尼亚产及栽培罗勒挥发油进行研究,结果都表明芳樟醇相对量最高,达50%左右,其他主要成分有茴香脑、对烯丙基苯甲醚、1,8-桉叶素、表姜烯酮、杜松烯醇和樟脑。卢汝梅等[10]对桂产罗勒挥发油的研究结果表明,相对量最高的为对烯丙基茴香醚(50.26%),其他主要成分有双环倍半水芹烯和3,7,11-三甲基-(Z,E)-1,3,6,10-十二碳四烯。汪涛等[11]从河南产罗勒挥发油中鉴定出相对量最高的是1,7-二甲基-1,6-辛二烯-3-醇(29.87%),其他主要成分有1-己烯、3-己酮、环氧乙烷。胡西旦?格拉吉丁[12]从新疆产罗勒中鉴定出相对量最高的为α-萜品油烯(30.97%),其他主要成分有香榧烯醇、α-萜品油、β-月桂烯、δ-愈创水烯和杜松烯。

关于罗勒中挥发油及生物碱的量及在不同栽培环境、措施及品种间的差异有一定的报道,但是上述研究均未能从本质上揭示活性物质的生物合成机制、代谢调控途径及调控水平。分子生物学是研究罗勒活性成分代谢调控途径的重要手段。随着后基因组时代的到来,转录组学、蛋白质组学、代谢组学等各种组学技术相继出现,其中转录组学是率先发展起来以及应用最广泛的技术。转录组是特定组织或细胞在某一功能状态下转录出来的所有RNA的总和,包括mRNA和非编码RNA[13-14]。目前转录组测序及分析技术可以解决新基因的深度发掘、低丰度转录本的发现、转录图谱绘制、可变剪接的调控、代谢途径确定、基因家族鉴定及进化分析等各方面的问题[15-18]。为此,本课题组在前期对罗勒资源收集、评价,有效成分提取、分离及检测的研究基础上,采用转录组测序的方法,对罗勒花和叶片中功能基因进行功能注释和分类,为后期功能基因的挖掘、代谢途径及调控机制的研究奠定理论基础。

1材料与方法

1.1材料

供试植物于年采集于四川省绵阳市,经绵阳师范学院生命科学与技术学院罗明华教授鉴定为罗勒OcimumbasilicumL.。

1.2RNA的提取与分离

采用GENEOUTTM植物RNA提取试剂盒(多糖多酚样本,成都兰博生物科技有限公司)提取罗勒花期花和叶的总RNA,使用磁力架(厂商Invitrogen)以磁珠法分离mRNA[15]。分离到mRNA之后进行扩增、构建文库以及测序。

1.3转录组数据的获得

将上述获得的罗勒总RNA,以5μg的起始量建库;采用磁珠法分离mRNA,打断mRNA(TruseqTMRNAsampleprepKit);双链cDNA合成、补平、3’端加A、连接index接头(TruseqTMRNAsampleprepKit);文库富集,PCR扩增15个循环;2%琼脂糖胶回收目的条带(CertifiedLowRangeUltraAgarose);TBS(Picogreen)定量,按数据比例混合上机;cBot上进行桥式PCR扩增,生成clusters;在Hiseq测序平台进行2×bp测序。

1.4原始数据处理及生物信息学分析

采用BaseCalling将测序得到的原始图像数据转化为序列数据,采用FASTQ文件格式来储存结果文件。将原始测序数据进行统计和评估,再根据接头信息去除有接头污染的序列。得到原始的FASTQ数据后,首先对其进行质控得到高质量的测序结果(cleandata),然后再进行denovo拼接。

在RNA-seq分析过程中,将测序得到的reads与前面所得的拼接结果进行比对(mapping)。通过对定位到基因组区域的测序序列(cleanreads)的数量来估计基因的表达水平,采用Trinity软件对拼接结果进行开放阅读框(ORF)预测。通过GO(geneontology)数据库和COG数据库对基因的功能进行分类;基于KEGG数据库,采用BLAST算法(blastx/blastp2.2.24+)将罗勒所有基因与KEGG的基因数据库(GENES)进行比对,再根据比对所得到的KO编号去查找具体的生物学通路,提供所分析基因可能参与的所有生物学通路。

2结果

2.1转录组数据组装

对罗勒花和叶进行了转录组测序之后,经原reads片段除杂,共获得个高质量reads片段,包含了个核苷酸序列信息。将质控后得到的高质量序列进行denovo拼接。结果显示,拼接得到的总Unigene片段达到条,平均长度为.85bp,最长的Unigene片段为bp,最短的Unigene片段为bp。总共得到条基因。

在拼接得到的条Unigene片段中,长度在~bp的片段最多,达条,其次是长度在~bp和~0bp左右的片段,分别为条和条。

转录本的丰度体现基因的表达水平,转录本丰度越高,则基因表达水平越高。在分析中,将测序得到的reads与前面所得的拼接结果进行比对。结果显示,罗勒花与叶的转录本丰度均较高(≥70%),分别为75%和70%。

2.2转录组数据拼接结果及基因预测

基于罗勒的花和叶的转录组测序,通过Trinity软件对拼接结果进行ORF预测,总共预测到具有ORF的序列有条,另外个序列未预测到ORF。对具有ORF的序列进行蛋白质预测,共预测到条蛋白质序列。

2.3基因功能注释

2.3.1GO分类GO是基因本体论联合会建立的数据库。本研究将罗勒花和叶转录组获得的Unigene在GO功能数据库中比对分析发现,共有条Unigene与数据库中的基因具有相似性,较多的单条Unigene能够与多种基因相对应,建立了条对应关系,从而得到尽可能多的注释和分类。罗勒花和叶转录组中的Unigene根据GO功能大致可分为生物过程、细胞组分和分子功能3个大类43个分支(图1)。通过对每一类的基因数量进行统计分析,结果表明,在生物过程这一大类中,代谢过程涉及的基因最多,有条;在细胞组分这一大类中,细胞部分涉及的基因最多,达条,其次是组成细胞器的基因,有条。在分子功能这一大类中,具有催化活性功能涉及的基因最多,达条,其次是具有结合功能的基因,有条(表1)。

2.3.2KEGG代谢途径分类利用KEGG数据库作为参考,依据代谢通路将转录组中的数据分成类,包括生化代谢通路、植物病原体互作、DNA剪切、植物激素生物合成、苯丙氨酸生物合成、萜类化合物与类固醇类化合物合成、脂类代谢、RNA降解等,共涉及基因条(表2)。其中,次生代谢物涉及基因条,占整体的9.4%。如黄酮类(包括了黄酮、黄酮醇、类黄酮)的基因有44条,占总体的0.%;萜类(包括了单萜、二萜、三萜、倍半萜、萜类化合物骨架)涉及的基因有条,占整体的0.88%;类胡萝卜素代谢途径中涉及基因有81条,占总体的0.35%。

2.3.3COG功能分类将罗勒花和叶的转录组Unigene片段与COG数据库进行比对,发现共有条Unigene与COG数据库中的基因具有相似性,且较多的单条Unigene能够与多种基因相对应,建立了条对应关系。罗勒花和叶转录组中的Unigene根据功能大致可分为25类,并对每一类的基因数量进行了统计。结果显示,Unigene的COG功能种类比较全面,涉及到大多数的生命活动,仅作为一般功能预测的基因数量最多,有条;其次是基因的复制、重组、修复等,涉及的基因为条。其他种类基因的表达丰度也不尽相同,具体种类和数量见表3。

2.3.4转录组序列中SSR重复基元分析从







































北京治疗白癜风中医医院
北京中科医院假



转载请注明:http://www.bjgongshangzhuce.com/jyzl/2053.html


当前时间: