杭州白癜风专科医院 http://baidianfeng.39.net/bdfby/yqyy/
点击蓝色字免费订阅,每天收到这样的好资讯
年5月,PlantPhenomics刊发了由美国爱荷华州立大学科研人员发表的题为ComputingonPhenotypicDescriptionsforCandidateGeneDiscoveryandCropImprovement的观点文章,本文主要介绍了在候选基因发现及作物改良领域表型描述的计算方法,植物表型资讯介绍如下。
植物表型组学通过集成自动化平台装备和信息化技术手段,获取多尺度,多生境,多源异构植物表型的海量数据,形成植物表型组学大数据,同时基于文本的表型描述也起到了重要作用。近年来,许多新发现、观察到的表型从基于语言描述,新增到文献和社区数据存储中。为了标准化表型描述并实现简单的数据聚类和分析,已经开发了受控词汇表和特定的数据体系结构。与自然语言相比,这种简化的描述具有以下优点:一可以为特定的上下文关系或问题严格定义它们;二可以编程地分配和解释它们,并且它们可以以一种允许语义推理(隐含事实的推理)的方式进行组织。因为研究人员通常使用自然语言报告文献中的表型,几十年来表型描述的负责人一直在将表型描述翻译成受控词汇表,以使描述信息可计算。不幸的是,这种方法论高度依赖于人类的监管,而人类的监管并没有扩展到所有植物生物学的涉及的范围。
表型描述在生物领域应用广泛,使用这些受控词汇表可以提高表型描述方式的一致性,并且这些数据结构的体系结构使得查询大量真实的表型。它们的层次性还通过继承隐含知识,增强了作为数据点收集的每个表现型的意义。例如,GO层次结构(图1(a))指定水果成熟是一种老化类型,因此与水果成熟相关的表型与该术语的关联允许通过查询老化来恢复该表型,而无需明确说明该关联。详细的手动精选是以为观察到的大量表型构建高质量注释所需的时间和精力为代价的,并且简化表型描述以匹配特定知识表示的体系结构必然会降低表型描述的特异性,从而失去使用自然语言直接传达的某些意义的阴影。如何才能解决这些缺点呢?随着研究人员在自然语言领域相关计算研究的快速发展,自动化的语言计算方法早期的分析结果显示出很大的希望。自然语言处理(NLP)与机器学习(ML)相结合,允许使用非结构化语言直接分析表型描述,能快速将自然语言特征进行分析并创建数据结构,如在预测基因功能和生化途径成员等任务上,这些数据结构的表现与研究人员精选生成的数据结构一样好,甚至更好。如在人类健康领域,机器学习(ML)与自然语言处理(NLP)的应用已经被用来发现隐藏的模式,这些模式可以帮助告知患者护理方案;在植物表型研究方面,使用NLP和ML对植物表型的描述进行编码,并测量成对相似性来构建相似网络,通过计算产生的网络被证明可以恢复潜在的基因功能。研究表明通过自动计算获取的结果在许多情况下优于手动精选方法获取的结果。Figure1:Phenotypicsimilarity.
图1(c)和1(d)说明了从表型的自然语言描述中推断出了两种类型的相似性网络。前者可用于新的候选基因预测,而后者可用于全基因组关联研究(GWAS),方法是指定一个我们称为“合成性状”的概念,其中聚类表型被视为单个性状。对于新的候选基因预测应用(图1(c)),网络中的每个节点指的是特定的基因及其对应的表型。两个节点之间的相似性意味着这对基因参与共同的调控网络、生化途径或类似的共享过程的可能性增加。基于表型描述进行计算的新时代的开端。在过去,研究人员必须创建简化和结构化的描述来使表型可计算。换句话说,研究人员被要求像计算机一样思考和行为。现在,计算方法可以适应专家用来描述表型的丰富语言,有了NLP和ML,计算机就能像人类一样推理。来源:IanR.Braun,ColleenF.Yanarella,andCarolynJ.Lawrence-Dill,“ComputingonPhenotypicDescriptionsforCandidateGeneDiscoveryandCropImprovement,”PlantPhenomics,vol.,ArticleID,4pages,.