vissE提供不同的基因集富集分析方

导语

GUIDE╲

通常,基因集富集分析的结果(例如使用limma::fry、singscore或GSEA)由一长串基因集组成。然后生物学家必须搜索这些列表,以确定新出现的主题来解释改变的生物过程。这项任务可能是劳动密集型的,因此需要解决方案来总结来自此类分析的大量结果

背景介绍

今天小编给大家介绍一款基于网络和文本挖掘方法对基因集富集分析的结果进行解释和分析的R包--vissE。该软件包利用基因集与通路数据库和基因本体中可能存在的固有层次结构之间的相关性来聚类结果。对于vissE识别的每个基因集集群,通过文本挖掘来表征生物功能和过程。

vissE的另一个功能是基于基因集之间的相似性网络执行一种新型的基因集富集分析。给定一个基因列表(例如来自DE分析),vissE可以通过首先识别与其相似的所有其他基因集来表征该列表,然后对生成的基因集进行聚类,最后通过文本挖掘来揭示新出现的基因集themes。

R包安装

if(!requireNamespace("BiocManager",quietly=TRUE))install.packages("BiocManager")BiocManager::install("vissE")功能介绍01基因集富集分析的结果

通常,基因集富集分析的结果是一个基因集列表,并附有其统计数据和p值或错误发现率(FDR)。生物学家会利用这些结果,提取与他们感兴趣的实验有关的相关功能。vissE包提供了自动化提取结果的功能。

下面的示例可用于任何富集分析的结果。

library(msigdb)library(GSEABase)#加载MSigDBmsigdb_hs=msigdb.v7.2.hs.SYM()#扩展KEGG基因集msigdb_hs=appendKEGG(msigdb_hs)#选择h,c2,andc5msigdb_hs=subsetCollection(msigdb_hs,c(h,c2,c5))#随机采样基因集以模拟富集分析的结果set.seed()geneset_res=sample(sapply(msigdb_hs,setName),)#使用基因集分析结果创建一个GeneSetCollectiongeneset_gsc=msigdb_hs[geneset_res]geneset_gsc#GeneSetCollection#names:GO_CARBOHYDRATE_TRANSPORT,GO_NEURON_DEVELOPMENT,...,KARLSSON_TGFB1_TARGETS_DN(total)#uniqueidentifiers:OCLN,SLC35B1,...,TLCD3A(total)#typesincollection:#geneIdType:SymbolIdentifier(1total)#collectionType:BroadCollection(1total)

vissE分析包括3个步骤:

1、计算基因集overlaps和基因集overlaps网络

2、根据overlaps识别基因集cluster

3、使用文本挖掘表征cluster

可视化基因级统计数据(额外)

02计算基因集overlaps计算overlaps的默认方法是使用Jaccard索引。overlap是基于基因集之间的基因overlap计算的。或者可以使用overlap系数(用于突出层次重叠)。

library(vissE)#计算基因集overlapgs_ovlap=


转载请注明:http://www.bjgongshangzhuce.com/jygn/8993.html


当前时间: