Bioinformatics基于深度图卷
作者
付海涛
审核
黄 锋
今天给大家介绍的是北京大学深圳研究生院周耀旗课题组和中山大学杨跃东课题组合作发表在Bioinformatics上的文章“Structure-awareprotein-proteininteractionsitepredictionusingdeepgraphconvolutionalnetwork”。本文中,作者提出了一个用于PPI位点预测的基于深度图的框架GraphPPIS,其结果表现较好,预测相互作用位点更接近于原生位点。
1
摘要
动机:蛋白质-蛋白质相互作用(PPI)在许多生物过程中起着至关重要的作用,识别PPI位点是理解疾病机理和设计新药的重要步骤。由于PPI位点识别的实验方法既昂贵又耗时,许多计算方法被开发为筛选工具。然而,这些方法大多基于序列中的相邻特征仅限于获取空间信息。
结果:作者提出了一个用于PPI位点预测的基于深度图的框架GraphPPIS(蛋白质相互作用位点预测的深度图卷积网络),其中PPI位点预测问题转化为一个图节点分类任务,并通过使用初始残差(initialresidual)和恒等映射(identitymapping)技术的深度学习来解决。作者展示了,与其他基于序列和基于结构的方法相比,在AUPRC和MCC上,更深层次的体系结构(多达8层)可以使性能分别提高12.5%和10.5%以上。进一步的分析表明,即使做出了假阳性预测,GraphPPIS预测的相互作用位点在空间上更为聚集,更接近于原生位点。结果突出了捕获空间相邻残基对于相互作用位点预测的重要性。
2模型
数据集
表1数据集的描述信息表1展示了三个基准数据集的统计信息以及本研究中使用的训练集和测试集。按列顺序给出了数据集名称、每个数据集中交互和非交互残基物的数量以及交互残基占总数的百分比。
蛋白表示
一条蛋白序列包含n个氨基酸残基,被表示为一个无向图,具有节点和边,可以进一步表示为节点的特征矩阵(nodefeaturematrix)X和邻接矩阵(adjacencymatrix)A。其中,nodefeaturematrix包括进化信息(PSSM和HMM)和结构属性(DSSP),最后三种特征拼起来得到54维的特征矩阵,即;adjacencymatrix有两种计算方法,一种是根据蛋白的PDB文件,两两计算欧氏距离,确定阈值,小于阈值为1,大于阈值为0;另一种是根据(Chen,etal.,)提出的策略计算邻接矩阵。
GraphPPIS框架
图1GraphPPIS模型的网络框架。从蛋白质的序列和结构中提取的节点特征矩阵和邻接矩阵表示蛋白图(proteingraph),用作带有initialresidual和identitymapping的L层图卷积神经网络(GraphConvolutionalNetwork,GCN)的输入。这里,H表示网络的隐藏状态,本项工作中L被设置为8。第L层的输出通过最后的多层感知机(MultilayerPerceptron,MLP)模块转换为残基级别的蛋白交互概率。
GCN
常规的GCN层传递公式如上,P为normalize后的邻接矩阵。
GCNwithinitialresidualandidentitymapping
拓展后的GCN层传递公式如上。本文中,作者采用了这种传递方式。
MLP
通过MLP,映射出每个残基非交互或者非交互两类的概率。
3结果
特征重要性和模型消减分析
表2用单一特征或去掉某种特征的GraphPPIS模型在5折交叉验证和独立测试集(Test_60)上的AUROC和AUPRC值。PSSM、HMM、DSSP为三种特征,“-”表示去掉某一种特征后模型的表现,“*”表示模型用BLOSUM62编码替换进化信息的一种高效版本。
蛋白距离的作用衡量
图2基于不同的临界矩阵与阈值的GraphPPIS在Test_60数据集上的表现。
与其他基准方法相比
表3GraphPPIS模型在Test_60上与其他模型表现的比较。标“*”的结果从(Li,etal.,)中得来。DeepPPISP和MaSIF-site的结果是从他们的源代码中得来。PSIVER,ProNA和SPPIDER的结果从他们的网站服务中得来。可以看出,GraphPPIS还是取得了较好的表现。
独立数据集上的比较
表4与其他基于结构的方法在独立测试集Test_和UBtest_31上的表现比较。可以看出GraphPPIS取得了最优表现。
原文中,还有许多实验结果与论文细节,读者可以参考原文。
4
总结
在本研究中,作者提出了一种基于深度图的PPI位点预测方法GraphPPIS,其中作者使用基于距离的邻接矩阵构建蛋白质图,并使用深度图卷积技术学习节点表示。GraphPPIS在综合评价中表现出比现有的基于序列和基于结构的方法更好的性能。然而,由于测试集上的AUROC小于0.8,因此该任务仍有进一步改进的余地。例如,扩大数据集或对不平衡问题使用高级采样技术可能有助于训练更好的模型。向现有特征组中添加其他信息性特征可能有助于更好地表示蛋白质,例如预训练的氨基酸嵌入、相对氨基酸倾向性和物理化学性质。推荐阅读原文。
参考资料
- 上一篇文章: 建网站如何选择好用的网站源码程序
- 下一篇文章: 没有了