上周给大家分享了群体进化常用的图片解读,很多老师对于绘图和软件这块很感兴趣,小编这不立刻就给安排上啦。
群体进化:利用全基因组重测序或简化基因组测序技术获得某物种自然群体各亚群的基因组信息,通过与参考基因组比对或聚类分析的方法得到大量变异信息,然后基于群体的变异信息讨论群体的遗传多样性、遗传结构、基因交流情况、物种形成机制以及群体进化动态等生物学问题。
这周开始给大家逐步介绍群体进化分析会用到的生物信息学分析方法。也就是基于snp的结果,如何进行一系列群体进化相关的分析,主要包括PCA、进化树、遗传结构、连锁不平衡分析、选择性清除分析。今天先带大家进行实战PCA分析,内含分析和绘图代码哦。
首先,我们回顾一下PCA的原理及应用(知己知彼,百战不殆):
PCA原理
主成分分析(PCA)全称是PrincipalComponentAnalysis,是通过纯数学的运算方法,将多个相关变量经过线性转换选出较少个数的重要变量,这些少数的重要变量保留原始变量的绝大部分信息,通常为原始变量的线性组合。
PCA应用
第一,用于群体分层分析和推断进化关系,PCA分析可以准确地展示群体分层的类型,一般可以与phylogenetictree,structure的结果互相验证。
第二,检查离群样本,在一个群体中,如果有一些样本取样错误,或者测序时有严重污染,这样往往会导致离群样本的产生,通过PCA分析可以准确校正群体的样本,减少对后续关联分析的影响。
接下来就是实战部分啦,相关实战数据和代码可以通过以下链接下载: