作者
付海涛
审核黄 锋
今天介绍的是天津大学郝建业老师团队和西北工业大学尚学群老师团队合作于年发表在BriefingsinBioinformatics上的论文“Integratingmulti-networktopologyforgenefunctionpredictionusingdeepneuralnetworks”。在这项工作中,作者捕获多个网络的拓扑结构,并考虑网络之间的相关性来预测基因功能,并以此为约束条件,提出了一种新的半监督自编码模型DeepMNE-CNN,以获得基于多个网络的基因的紧凑非线性拓扑特征表示。在数据集上的评估结果表明,DeepMNE-CNN在基因功能预测方面优于现有的最新方法,并且多网络嵌入框架比其他方法具有更好的优先性。
1.摘要
动机:得益于先进的高通量技术的发展,丰富的生物网络有助于描述和建模基因和蛋白质等生物实体之间复杂的内部相互作用。多样的网络为推断基因或蛋白质的功能提供了丰富的信息。近年来,为了基于多样的异质网络提取基因的功能模式,致力于提取基于网络生物学的非线性低维特征表示的网络嵌入方法已经在基因功能预测方面取得了显著的成绩。然而,现有的方法在特征学习过程中没有考虑不同网络间的共享信息。
结果:考虑到网络间的相关性,作者设计了一种新的半监督自动编码方法来集成多个网络并生成低维的特征表示。然后利用基于集成特征嵌入的卷积神经网络对未标记的基因功能进行标注。作者在酵母和人类数据集上测试了方法,并与三种最先进的方法进行了比较。结果表明,该方法具有良好的性能。作者不仅全面分析了新算法的性能,而且提供了一种基于多网络的基因特征提取工具,可用于下游机器学习任务。
2.模型
DeepMNE-CNN包含两个主要部分:多网络嵌入和基于CNN的基因功能预测。
图1DeepMNE-CNN算法的流程图
图1中,A表示多网络嵌入框架:(a)表示重启随机游走获取低维嵌入向量的过程;(b)表示经典的自编码器过程;(c)表示利用表示向量和先验约束的修改后的半监督自编码器过程。B表示基因功能预测模块。
2.1多网络嵌入框架Step1:基于重启随机游走学习单个网络的全局结构
节点表示的更新规则为:
其中,表示重启概率;表示n维初始化的节点特征;第k次第i个基因的特征表示。
Step2:提取先验约束作者用基因特征之间的皮尔逊相关系数(PCC)来衡量基因节点之间的相似性,将相关系数高于特定阈值的基因对称为“must-link”;将相关系数低于特定阈值的基因对称为“cannot-link”。PCC的计算方法为:Step3:用半监督自编码器整合约束
(1)经典的自编码器的目标函数是:
最小化输入输出的特征表示。
(2)半监督自编码器,带有约束条件。约束条件的loss函数为:
M表示“must-link”的指示矩阵,C表示“cannot-link”的指示矩阵。其表示在损失函数中,must-link的基因pair的表示越相似,损失值越小;cannot-link的基因pair的表示越不相似,损失值越小。与经典的损失函数相加,即可得到半监督自编码器的损失函数:
2.2基于CNN的基因功能预测作者利用卷积神经网络、全连接层、sigmoid函数来作为基因功能预测的工具。最终的算法框架为:
表1DeepMNE-CNN的算法框架
3.实验结果
作者首先在酵母的三个数据集上进行了实验,实验结果显示DeepMNE-CNN均取得了最好的实验效果,如表2所示。
表2在三个酵母数据集上面的实验结果作者亦展示了整合多网络与利用单网络的对比实验结果。实验证明,作者整合多网络的实验效果显著高于利用单网络的实验结果,如图2所示。
图2基因功能预测的结果:整合多网络表现优于单网络
作者亦在两个人类数据集上与最先进的方法进行了比较,DeepMNE-CNN的性能仍优于最先进的其他方式,如图3所示。
图3DeepMNE-CNN在人类的两个数据集上改进了基因功能预测效果
.总结
考虑不同网络的相关性作为约束条件,作者提出了新的半监督自编码器模型DeepMNE。其基于多种网络可以获得有效且非线性拓扑的基因特征表示。
基于由多网络提取的特征向量,作者采用CNN来预测基因功能。
评估结果显示,在基因功能预测任务上,DeepMNE-CNN优于已有的最先进的方法;并且证实了多网络的嵌入框架比其他方法具有更好的有限性。
参考文献
文章地址