基因组研究相关名词解释一常见词汇

接头(Adaptor)：特定的一段DNA序列，在构建测序文库时连接在片段化的DNA末端，与测序槽中固定的接头序列匹配，从而固定待测序列在测序槽中的位置。

测序读长：不同的测序平台所能获得目的序列的长度各不相同，当待测序列的长度超过测序仪的最大读长时，得到的结果准确性会大幅降低。

测序文库：高通量测序技术具有测序读长的限制，因此在进行测序之前，需要将提取得到的样品DNA打断成为符合测序仪器读长的小片段，经过片段长度筛选、添加接头和定量，即构成了能够用于高通量测序的DNA文库。

单端测序(Single-end)：在构建DNA文库时，将测序引物连接在DNA片段的一端，然后在末端添加接头序列，在进行上机测序时只能从序列的一端开始进行测序。

双端测序(Paired-end)：在构建DNA文库时，在DNA片段的两端均连接测序引物和接头，在进行上机测序时可以分别从序列的两端进行测序，从而使得测序读长增加为原本的两倍左右。

测序深度：测序得到的总数据量与待测基因组大小的比值，假设待测基因组大小为Mb，测序深度为30X，那么最终得到的数据量为3G。

Fastq格式：保存测序仪得到的核酸序列及其测序质量信息的标准格式，每条序列由4行文件组成，第一行由"

"开始，后面跟着序列的描述信息；第二行是序列的碱基排列顺序；第三行由"+"开始，后面也可以跟着序列的描述信息；第四行是与第二行序列相对应的各碱基质量评价结果。

质量得分：即Fastq格式第四行的信息，Q=-10log10(p)，p为碱基错误概率，也就是Q=20时，碱基错误概率为0.01。

Q20(%)：碱基识别准确率在99%以上的碱基所占比例。Q30(%)：碱基识别准确率在99.9%以上的碱基所占比例。N(%)：测序结果中模糊碱基所占的比例。

质量控制：按照指定的标准对测序得到的序列进行筛选，去除不合格序列的过程。

Rawdata：测序仪下机得到的原始数据。Cleandata：原始数据经过质量控制后，得到的可以用于后续分析的数据。

基因组denovo测序相关名词

基因组Survery：在正式进行基因组测序之前，需要先进行小规模的测序以评估目的基因组的大小、重复序列含量和复杂度，从而确定正式基因组测序的数据量以及测序和拼接策略，这种评估基因组基本信息的过程即是基因组Survery。

Read：高通量测序平台产生的序列即为Reads，每一条序列称为一条Read。

Contig：根据Reads间的重叠区域，使用拼接软件拼接得到的长序列称为Contig。

Scaffold：基因组测序过程中，通过Reads拼接得到Contigs之后，还需要依赖其它测序文库的支持，确定这些Contigs之间的顺序关系，确定顺序的Contigs构成的序列称为Scaffold。

ContigN50(90)：将所有拼接得到的Contigs按照长度从长到短排列，将序列长度按照该顺序依次相加，当相加的长度达到所有Contigs总长度的50%(90%)时，最后一条Contig的长度，该指标用来评估基因组拼接的质量。

ScaffoldN50(90)：将所有拼接得到的Scaffold按照长度从长到短排列，将序列长度按照该顺序依次相加，当相加的长度达到所有Scaffolds总长度的50%(90%)时，最后一条Scaffold的长度，该指标用于评估基因组拼接的质量。

基因家族：由一个共同的祖先基因经过重复和突变产生的、具有相似结构和功能的一组相关基因。

基因组重测序相关名词

SNP(SingleNucleotidePolymorphisms，单核苷酸多态性)：在基因组上单个核苷酸的变异，一般指变异频率大于1％的单核苷酸变异包括置换、颠换、缺失和插入4种类型。

Indel：不同个体基因组间小片段的插入或缺失。

染色体结构变异(SV)：是染色体变异的一种，导致变异的原因可能是遗传因素，也可能是外部条件刺激，主要分为缺失、重复、倒位、易位等类型。

全基因组重测序：对基因组序列已知的个体进行基因组测序，并在个体或群体水平上进行差异性分析的方法。由于已知该物种的基因组，因此个体的测序数据量无需基因组denovo测序那么大，同时该技术无需基因组拼接，只需与参考基因组比对，因此应用二代测序技术即可完成。

全基因组关联分析(GWAS)：选取具有不同表型特征的的多个同种生物个体，对每个个体分别进行全基因组重测序，与已有参考基因组进行比对后，检测全基因组范围内SNP、InDel与SV等变异类型，利用检测到的变异信息与

当前时间：