基因组研究相关名词解释一常见词汇

北京白癜风治疗医院 http://m.39.net/pf/bdfyy/
测序过程相关名词

接头(Adaptor):特定的一段DNA序列,在构建测序文库时连接在片段化的DNA末端,与测序槽中固定的接头序列匹配,从而固定待测序列在测序槽中的位置。

测序读长:不同的测序平台所能获得目的序列的长度各不相同,当待测序列的长度超过测序仪的最大读长时,得到的结果准确性会大幅降低。

测序文库:高通量测序技术具有测序读长的限制,因此在进行测序之前,需要将提取得到的样品DNA打断成为符合测序仪器读长的小片段,经过片段长度筛选、添加接头和定量,即构成了能够用于高通量测序的DNA文库。

单端测序(Single-end):在构建DNA文库时,将测序引物连接在DNA片段的一端,然后在末端添加接头序列,在进行上机测序时只能从序列的一端开始进行测序。

双端测序(Paired-end):在构建DNA文库时,在DNA片段的两端均连接测序引物和接头,在进行上机测序时可以分别从序列的两端进行测序,从而使得测序读长增加为原本的两倍左右。

测序深度:测序得到的总数据量与待测基因组大小的比值,假设待测基因组大小为Mb,测序深度为30X,那么最终得到的数据量为3G。

Fastq格式:保存测序仪得到的核酸序列及其测序质量信息的标准格式,每条序列由4行文件组成,第一行由"

"开始,后面跟着序列的描述信息;第二行是序列的碱基排列顺序;第三行由"+"开始,后面也可以跟着序列的描述信息;第四行是与第二行序列相对应的各碱基质量评价结果。

质量得分:即Fastq格式第四行的信息,Q=-10log10(p),p为碱基错误概率,也就是Q=20时,碱基错误概率为0.01。

Q20(%):碱基识别准确率在99%以上的碱基所占比例。Q30(%):碱基识别准确率在99.9%以上的碱基所占比例。N(%):测序结果中模糊碱基所占的比例。

质量控制:按照指定的标准对测序得到的序列进行筛选,去除不合格序列的过程。

Rawdata:测序仪下机得到的原始数据。Cleandata:原始数据经过质量控制后,得到的可以用于后续分析的数据。

基因组denovo测序相关名词

基因组Survery:在正式进行基因组测序之前,需要先进行小规模的测序以评估目的基因组的大小、重复序列含量和复杂度,从而确定正式基因组测序的数据量以及测序和拼接策略,这种评估基因组基本信息的过程即是基因组Survery。

Read:高通量测序平台产生的序列即为Reads,每一条序列称为一条Read。

Contig:根据Reads间的重叠区域,使用拼接软件拼接得到的长序列称为Contig。

Scaffold:基因组测序过程中,通过Reads拼接得到Contigs之后,还需要依赖其它测序文库的支持,确定这些Contigs之间的顺序关系,确定顺序的Contigs构成的序列称为Scaffold。

ContigN50(90):将所有拼接得到的Contigs按照长度从长到短排列,将序列长度按照该顺序依次相加,当相加的长度达到所有Contigs总长度的50%(90%)时,最后一条Contig的长度,该指标用来评估基因组拼接的质量。

ScaffoldN50(90):将所有拼接得到的Scaffold按照长度从长到短排列,将序列长度按照该顺序依次相加,当相加的长度达到所有Scaffolds总长度的50%(90%)时,最后一条Scaffold的长度,该指标用于评估基因组拼接的质量。

基因家族:由一个共同的祖先基因经过重复和突变产生的、具有相似结构和功能的一组相关基因。

基因组重测序相关名词

SNP(SingleNucleotidePolymorphisms,单核苷酸多态性):在基因组上单个核苷酸的变异,一般指变异频率大于1%的单核苷酸变异包括置换、颠换、缺失和插入4种类型。

Indel:不同个体基因组间小片段的插入或缺失。

染色体结构变异(SV):是染色体变异的一种,导致变异的原因可能是遗传因素,也可能是外部条件刺激,主要分为缺失、重复、倒位、易位等类型。

全基因组重测序:对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。由于已知该物种的基因组,因此个体的测序数据量无需基因组denovo测序那么大,同时该技术无需基因组拼接,只需与参考基因组比对,因此应用二代测序技术即可完成。

全基因组关联分析(GWAS):选取具有不同表型特征的的多个同种生物个体,对每个个体分别进行全基因组重测序,与已有参考基因组进行比对后,检测全基因组范围内SNP、InDel与SV等变异类型,利用检测到的变异信息与


转载请注明:http://www.bjgongshangzhuce.com/jyyf/6359.html


当前时间: