说明:我们(上海生命基因)在给客户提供RNAseq,蛋白组学等组学服务时,会遇到许多老师,反馈的各种售后分析问题,涉及数据再整理,数据库挖掘,GEO/TCGA分析辅助机制构建等,我们对遇到的各类问题及解决方法进行记录,供做相关实验的老师参考。(文中出现的数据为示例数据)。
一个Python爬虫,快捷批量爬取与感兴趣功能有关的基因
转录组数据分析中,老师会碰到这样的问题:(1)这么多差异表达基因中,哪些基因参与了特定的功能,我如何寻找与预期功能有关的基因?
()我的测序物种比较新,数据库中信息比较缺乏,难以通过已知数据寻找目标功能基因。
这个时候,如果一个个去设法查询每个基因的功能,工作量可能是非常大的。那么,有没有快捷的方法呢?答案是肯定有,比如可以转换下思路,首先根据预期的功能,在GO、KEGG等数据库中检索基因功能分类,并进而在搜索到的功能条目中细化基因。这样,就可以获得了与预期功能有关的一个基因集。随后,再根据感兴趣的差异基因名称,在该基因集中查找,如果匹配到相似的,就能够明确差异基因的功能了。
当然,在数据库中手动检索功能分类并匹配基因的过程,可能仍然略微繁琐。如果能够将这个过程交给计算机自动实现,那该多么节省时间。为此,我们提供了一个Python爬虫,帮助您在GO数据库中自动搜索并下载与其功能的相关基因。
就从这个思想出发,本文以探讨“氧化应激”相关功能的基因为例,教大家如何快速实现。Python爬虫脚本,可点击下方“阅读原文”获取。(备注:若无法成功打开链接,请切换到电脑端网页点击下载)
1第一步,搜索关键GO功能条目
首先进入GO网站(