跳至内容

蛋白质组学/蛋白质 - 蛋白质相互作用/预测

来自维基教科书,开放世界中的开放书籍
Previous page
通过实验确定结合
蛋白质相互作用 Next page
蛋白质结构空间
相互作用和对接的预测方法

页面由:Dan Surdyk 编辑和更新
电子邮件:[email protected]


本节


相互作用和对接的预测方法

[编辑 | 编辑源代码]

蒙特卡罗

[编辑 | 编辑源代码]

蒙特卡罗方法用于蛋白质/蛋白质相互作用,它模仿了计算机科学中著名的随机抽样算法。该理论总结如下:给定足够多的初始配置,其中一个配置将成为最佳配置,或者最终导致最佳配置。该过程从一个蛋白质与另一个蛋白质的对接开始。然后根据能量、暴露疏水表面的量、相互作用氨基酸的数量等参数计算得分。对相互作用进行随机改变(在整个蛋白质、侧链甚至单个原子级别!),然后根据得分是否提高来接受或拒绝该步骤。 [2]

可及表面积 (ASA)

[编辑 | 编辑源代码]

蛋白质中的每个原子都有范德华半径,用于创建蛋白质的范德华表面。ASA 描述了溶剂可能与该表面接触的所有地方。它通过在范德华表面上计算“滚动”一个球体来计算,并计算它与表面接触的部分。该表面被纳入许多对接和表面斑块程序中。 [3]

相互作用预测的关键评估 (CAPRI)

[编辑 | 编辑源代码]

CAPRI 挑战是欧洲生物信息学研究所 (EBI) 评估蛋白质对接程序的一种创造性方式。研究小组从 EBI 接收蛋白质数据,并尝试对接蛋白质。然后测试和比较他们的结果,不仅表彰应得的研究人员,而且还为科学家提供每个程序或协议优势的比较。 [4]

几何散列

[编辑 | 编辑源代码]

几何散列是一种分子建模技术,它将目标分子与感兴趣的蛋白质匹配。

  • TESS

TESS 是一种算法,它使用 X 射线和 NMR 数据从 PDB 中存储的结构中确定蛋白质的 3D 模板。可以扫描新结构以匹配这些 3D 结构,以识别功能位点。因此,TESS 用于识别新蛋白质结构的功能,并通过开发 3D 模板数据库来设计具有特定功能的蛋白质。 [5]

平面上的德劳内三角剖分,带有外接圆。 [1]

加权德劳内三角剖分

[编辑 | 编辑源代码]

德劳内三角剖分是将蛋白质表面转化为三角形的一种方法。该方法包括在三维空间中取一组点,并形成三角形,以便如果绘制一个包含所有三个点的圆(外接圆),则该集合中的其他点不会落在该圆内。对于蛋白质表面,这些点将是原子位置。这会创建一个表面,没有占用更多时间和内存的“薄片”三角形,而这些三角形对于计算而言并没有真正意义。 [6]

FADE 和 PADRE

[编辑 | 编辑源代码]

快速原子密度评估器 (FADE) 和成对原子密度逆向工程 (PADRE) 程序用于确定蛋白质的分子模型。FADE 和 PADRE 通过阐明感兴趣的特征(如缝隙、凹槽和突起)来识别蛋白质中最突出的特征,例如与其他分子相互作用的区域。FADE 具有评估对接的蛋白质-蛋白质复合物的形状互补性的特殊功能。 [7] FADE 和 PADRE 可从 http://www.mitchell-lab.org/mitchell-lab/FADE.php 下载。

表面形貌计算图谱使用加权德劳内三角剖分来测量蛋白质口袋的形状。蛋白质和某些氨基酸具有称为腔体的特定结构,这些结构产生了蛋白质功能所需的理化性质。CASTp 是一种在线工具,它通过定位和测量 3D 蛋白质结构上的口袋和空洞来估计蛋白质的功能。CASTp 的新版本包含来自 PDB、Swiss-prot 和 SNP 的注释版本。来自这些来源的注释残基被映射到 PDB 结构的表面口袋、内部空洞或其他区域。CASTp 用于研究蛋白质的表面特征、功能区域和关键残基的特定作用。 [8] [9] CASTp 可从 http://cast.engr.uic.edu 下载。

预测蛋白质和结构域相互作用伙伴的计算方法

[编辑 | 编辑源代码]

预测蛋白质相互作用伙伴的方法

[编辑 | 编辑源代码]

基因邻近和基因簇方法

[编辑 | 编辑源代码]

基因邻近方法的假设是,具有相似功能的基因被转录在一起,作为一个称为操纵子的单一单元。如果编码两种蛋白质的基因在多个基因组的染色体上是相邻的,那么这些蛋白质将具有相似的功能。这些尽管在它们之间存在遗传距离但仍一起转录的基因被称为共调控基因。即使在远缘生物体中,共调控基因的保守性也是观察到的。操纵子揭示了组成基因之间的功能联系。与其他基因组推断方法相比,基因邻近方法是最广泛使用的方法。该方法用于检测以前未知的相互作用。基因邻近预测的例子包括通过与真核生物基因组进行比较来预测古细菌外泌体。 [10] [11]

系统发育谱方法

[编辑 | 编辑源代码]

系统发育谱描述了蛋白质在基因组已被测序的特定生物体中存在或不存在的情况。系统发育谱包含 n 个条目,其中 n 表示已测序的基因组数量。在第 n 个基因组中存在与给定蛋白质的同源物用 1 表示,蛋白质不存在用 0 表示。然后根据其系统发育谱的相似性对蛋白质进行聚类。功能相关的蛋白质存在于同一个簇中。使用这种方法可以检测蛋白质和蛋白质结构域。这种方法的主要缺点是成本高、依赖于高信息谱以及错误检测远缘生物体之间的同源性。错误相关性的最显着例子是检测所有基因组中存在的普遍非连接蛋白质之间的相关性。 [12] [13] [14]

罗塞塔石碑方法

[编辑 | 编辑源代码]

罗塞塔石碑方法也称为基因融合方法。一些相互作用的蛋白质对在其他生物体中具有同源物,这些同源物被融合成一条单一的蛋白质链。这种融合蛋白被称为罗塞塔石碑蛋白。该方法检测不同基因组中的蛋白质相互作用。例如,大肠杆菌中的 Gyr A 和 Gyr B 是独立的蛋白质亚基,而这些蛋白质在酿酒酵母中发现的同源物是单一的蛋白质拓扑异构酶-2。罗塞塔石碑方法用于预测大约 6.4% 的所有实验相互作用。在大肠杆菌中,该方法发现了大约 6,809 对相互作用的非同源蛋白质。 [15] [16] [17]

罗塞塔蛋白在酿酒酵母中的想象视图,它是从大肠杆菌中的 2 种蛋白质融合而成的

基于序列的共同进化方法

[编辑 | 编辑源代码]

该方法基于测量两种不同生物体之间的进化距离。共同进化是非同源蛋白质在系统发育树中的相似性。通过计算两个不同蛋白质家族的距离矩阵之间的相关系数来量化相似程度,以指示它们的共同进化。为了计算相关系数,需要两个元素之间的对应关系,但这并不总是可用的。因此,开发了几种算法来识别特定的相互作用模式。在共同进化中,一种蛋白质的变化导致其功能丧失,而另一种基因的相关变化则弥补了这种丧失。由于物种形成过程,任何蛋白质的树之间总是存在一些相似性。这被称为“背景相似性”。它由 16S rRNA 序列构建,最终的距离矩阵通过从原始系统发育树获得的进化距离中减去基于 rRNA 的距离来计算。共同进化研究的广泛研究示例是预测 DNA 细菌素及其免疫蛋白的相互作用伴侣。共同进化方法也用于预测结构域相互作用。 [18]

分类方法

[编辑 | 编辑源代码]

分类方法用于预测蛋白质和结构域的相互作用。这些方法通过使用各种数据源训练分类器来区分真正的相互作用蛋白质对和错误的非相互作用蛋白质对。在分类方法中使用了许多分类器,最流行的分类器是随机森林决策,其次是支持向量机。最常用的分类方法是核方法,它在特征空间中用一组成对比较来提供数据的向量表示。特征向量代表了蛋白质的特定信息,例如蛋白质相互作用、特定蛋白质的结构域组成。 [19]

从蛋白质相互作用中预测结构域相互作用

[编辑 | 编辑源代码]

关联方法

[编辑 | 编辑源代码]

关联方法通常用于预测结构域相互作用。关联方法用于区分相互作用蛋白质和非相互作用蛋白质。使用不同的分类器(如相关的序列特征)来区分这一点。相关的序列特征分别考虑每对相互作用的结构域,而忽略蛋白质中存在的其他结构域。这些方法通过计算对数几率得分来区分相互作用蛋白质和非相互作用蛋白质。对数几率得分 (log2(Pij/PiPj)) 是通过取一个蛋白质对中观察到的结构域频率与数据中背景频率的比率来计算的。结构域相互作用是根据正的对数几率得分预测的。根据蛋白质相互作用对中结构域的出现情况,也可以进行蛋白质预测。 [20]

贝叶斯网络模型和最大似然方法

[编辑 | 编辑源代码]

该方法用于预测域的相互作用。与关联方法相比,这是一种优势,因为贝叶斯网络模型考虑了缺失和错误的交互数据。贝叶斯参数是使用最大似然估计方法估计的。最大似然估计方法通过最大化推定域对相互作用的概率来计算评分方案中的实验误差。似然函数(θ)是许多参数的函数,例如λij(域i和j相互作用的概率)、fp(假阳性率)、fn(假阴性率),因此直接最大化似然函数非常困难。因此,使用期望最大化算法通过计算两个迭代集中的完整数据来找到未知参数的最大似然估计:1)观察数据:包括蛋白质-蛋白质相互作用;2)未观察数据:包括非蛋白质-蛋白质相互作用。 [21]

域对排除分析

[edit | edit source]

该方法是对最大似然估计方法的改进,它预测非特异性相互作用。域对排除分析检测蛋白质之间特定且罕见的相互作用,这些相互作用具有较低的θ值。这些相互作用是通过计算Eij得分来估计的,Eij得分是给定域i和j相互作用时两个蛋白质相互作用的概率与给定i和j不相互作用时两个蛋白质相互作用的概率的对数比率。分子中的概率是使用期望最大化过程计算的,分母中的概率是通过重复该过程计算的,其中域对相互作用的概率为零。较高的E得分表示域相互作用的可能性较高,而较低的值表示竞争域负责相互作用。因此,域对排除分析检测具有低θ和高Eij值的相互作用。尽管它不能检测假阳性和假阴性,但它在很大程度上检测到了真阳性。 [22]

p值方法

[edit | edit source]

该方法的零假设检验了蛋白质对中域的存在是否影响蛋白质的相互作用。p值方法中的统计量是通过考虑两个因素来计算的。它们是称为实验误差的假阳性比例和称为数据集不完整性的假阴性比例。该方法的理想参考分布是通过随机排列蛋白质中的域获得的,以使蛋白质相互作用保持稳定。然后,考虑到参考分布获得的p统计量表明,给定两个蛋白质相互作用,域相互作用的可靠性。p统计量的值与蛋白质相互作用之间存在反比关系。给定两个蛋白质相互作用,具有最低p值的域对最有可能相互作用。如果给定蛋白质对中有九个或更多个域,则p值方法效果很好。 [23]

确定蛋白质-蛋白质相互作用的可用软件程序

[edit | edit source]

蛋白质相互作用计算器

[edit | edit source]

蛋白质相互作用计算器 (PMID:17584791) 是一个服务器,它识别各种类型的相互作用;例如,蛋白质内部或复合物中蛋白质之间的二硫键、疏水相互作用、离子相互作用、氢键、芳香族-芳香族相互作用、芳香族-硫相互作用和阳离子-π相互作用。它还确定可及表面积以及残基到蛋白质表面的距离。输入应为蛋白质数据库 (pdb) 格式。相互作用是根据经验或半经验规则集来计算的。所有相互作用和键可以在一个站点中看到,并且还可以使用 RasMol 和 Jmol 接口可视化识别出的残基之间的相互作用/键。 [24] URL: http://crick.mbu.iisc.ernet.in/~PIC/

DOCK 软件与基于 UNIX 的平台兼容。DOCK 在用户选择的受体结构区域中生成推定配体的许多可能方向。这些方向使用几种评分方案进行评分,这些评分方案旨在测量受体-配体复合物的空间和化学互补性。DOCK 有许多应用,例如检测蛋白质-蛋白质复合物的结合方向、蛋白质-DNA 复合物、评估单个配体的可能方向、对数据库中的分子进行排名。它还在不同的数据库中搜索充当酶抑制剂、DNA 结合化合物、与受体结合的化合物等,DOCK 使用几何匹配算法通过将配体的负像叠加到结合口袋来评估刚性受体对接。 [25][26] DOCK 的官方网站是 http://dock.compbio.ucsf.edu/

autoDOCK

[edit | edit source]

AUTODOCK 由许多自动对接工具组成。它预测底物和候选药物如何与已知 3D 结构的受体或蛋白质结合。它有两个主要程序。第一个程序将配体对接到描述目标蛋白质的一组网格上。第二个程序是 AutoGrid,它预先计算这些网格。AUTODOCK 也与基于 UNIX 的平台兼容。AUTODOCK 在许多领域都有应用,例如 X 射线晶体学、基于结构的药物设计、蛋白质-蛋白质对接、先导优化、组合文库设计等。 [27] [28] [29]

ICM(内部坐标机制)

[edit | edit source]

ICM 使用键长、扭转角、键角来确定结构预测。它执行快速而准确的对接模拟。它具有一套独特的工具,用于准确的配体-蛋白质对接、肽-蛋白质对接和蛋白质-蛋白质对接,包括交互式图形工具。 [30] 访问 Abagyan 实验室:http://abagyan.scripps.edu/lab/web/man/frames.htm 或 www.molsoft.com 了解更多信息。

FleXX

[edit | edit source]

FleXX 是一款高速计算机程序,用于确定结合模式。如果蛋白质的三维结构已知,它可以在几秒钟内检测到蛋白质-配体复合物。FLEXX 通过从已知的蛋白质 3D 结构预测蛋白质-配体复合物的几何形状来估计蛋白质-配体复合物的结合亲和力。FLEXX 在蛋白质预测中主要有两个应用:1)复合物预测:当存在蛋白质和小分子,但不知道蛋白质配体复合物的结构时,使用此方法。它创建并对一系列可能的蛋白质-配体复合物进行排序。2)虚拟筛选:它用于从化合物集和给定蛋白质中对用于实验测试的化合物进行优先排序。FLEXX 中的放置算法基于两个分子之间的相互作用,并应用 Boehm 函数进行评分。FLEXX 中广泛使用两个数据库来预测蛋白质-配体相互作用。它们是 1)MIMUMBA 扭转角数据库:用于创建构象异构体。2)相互作用几何数据库:用于精确描述分子间相互作用模式。该软件的优势在于它是在结构基础的药物设计中最好的富集工具,通过使用高速对接在蛋白质结合位点生成先导结构的姿势并对接巨大的库。 [31][32] 从以下地址下载程序:http://www.biosolveit.de/download/

GRAMM(全局范围分子匹配)

[edit | edit source]

GRAMM 是一种经验方法,通过改变原子-原子势的范围来平滑分子间能量函数。它是一个用于蛋白质对接的免费程序,用于高分辨率和不精确的研究。它根据两个分子的原子坐标,通过对分子进行相对平移和旋转进行详尽的 6D 搜索,来预测复合物的结构。复合物可以由两个蛋白质、蛋白质和小分子、两个跨膜螺旋等组成,GRAMM 在 SGI 系列、SUN SPARC、IBM RS6000、DEC Alpha 和 PC 上编译。 [33][34] 要查看 GRAMM 网站:http://reco3.musc.edu/gramm/

GRAMM X

[edit | edit source]

GRAMMX 是 GRAMM 的扩展版本。它是通过更新平滑势、细化阶段和基于知识的评分完成的。对接问题由一个 320 处理器 Linux 集群处理。GRAMMX 可以用 Python 和 C++ 实现。在以下地址执行 GRAMMX 模拟:http://vakser.bioinformatics.ku.edu/resources/gramm/grammx/

FTDOCK

[edit | edit source]

FTDock 是一款免费程序,它对两个生物分子执行刚性体对接,以预测它们的正确结合几何形状。FTDock 输出多个预测,可以使用生化信息对这些预测进行筛选。该软件在 RedHat Linux 和奔腾平台上运行。FTDock 使用傅里叶变换来确定对接。 [35] 从以下地址下载程序:http://www.bmm.icnet.uk/docking/download.html

ZDOCK

[edit | edit source]

它是一种计算技术,其中根据两个蛋白质的独立结晶结构来预测两个蛋白质之间复合物的结构。ZDOCK 使用傅里叶变换来搜索蛋白质的所有可能的结合模式,并根据形状互补性、去溶剂化能和静电统计数据进行评估。 [36] 访问波士顿大学网站:http://zdock.bu.edu/software.php

更多信息

[edit | edit source]

参考资料(开放访问)

[edit | edit source]
  1. ^ 维基百科关于蛋白质-蛋白质对接(蒙特卡罗部分)的页面:http://en.wikipedia.org/wiki/Protein-protein_docking#Monte_Carlo_methods
  1. ^ NACCESS S.Hubbard 和 J.Thornton。1992 年。 http://wolf.bms.umist.ac.uk/naccess/naccess.html
  1. ^ CAPRI 关于蛋白质-蛋白质对接结构预测比较评估的社区范围实验 http://capri.ebi.ac.uk/
  1. ^ Wallace AC、Borkakoti N、Thornton JM。1997 年。TESS:一种几何散列算法,用于推导出用于搜索结构数据库的 3D 坐标模板。
  1. ^ 维基百科关于德劳内三角剖分的页面:http://en.wikipedia.org/wiki/Delaunay_triangulation
  1. ^ Mitchell, JC、Kerr, R 和 Ten Eyck, LF。2001 年。用于分子形状表征的快速原子密度测量。J.Mol. Graph. Model. 19(3): 324-329,2001 年。
  1. ^ Joe Dundas、Zheng Ouyang、Jeffrey Tseng、Andrew Binkowski、Yaron Turpaz 和 Jie Liang。2006 年。CASTp:计算出的蛋白质表面地形图,具有功能注释残基的结构和地形映射。Nucl. Acids Res., 34:W116-W118。
  1. ^ Dundas J、Ouyang Z、Tseng J、Binkowski A、Turpaz Y 和 Liang J。2006 年。CASTp:计算出的蛋白质表面地形图,具有功能注释残基的结构和地形映射。
  1. ^ Marcotte, EM、Pellegrini, M、Ho-Leung, N、Rice, DW、Yeates, TO、Eisenberg, D。1999 年。从基因组序列中检测蛋白质功能和蛋白质-蛋白质相互作用。Science 285:751–753.
  1. ^ Shoemaker, BA、Panchenko, AR。2007 年计算方法来预测蛋白质和结构域相互作用伙伴。PLoS Comput Biol 3(4): e43。
  1. ^ Timothy Palzkill,蛋白质组学,Kluwer Academic Publishers。 http://books.google.com/books?id=JoEgI1a3yrAC&pg=PA78&lpg=PA78&dq=Gene+neighbor+method+in+proteomics&source=bl&ots=k7ByV84JZf&sig=wSdaO0l91A9BX-cFt9xwjQil3o4&hl=en&ei=034BSvLoBomeM4PclOcH&sa=X&oi=book_result&ct=result&resnum=1#PPA76,M1
  1. ^ K. G. Tina、R. Bhadra 和 N. Srinivasan。2007 年。PIC:蛋白质相互作用计算器,核酸研究,第 35 卷,网络服务器问题 W473–W476。
  1. ^ BioSolveIT http://www.biosolveit.de/FlexX/
  1. ^ 伊利诺伊大学厄巴纳香槟分校。 http://www.ks.uiuc.edu/Development/biosoftdb/biosoft.cgi?&category=7
  1. ^ 基于结构的药物设计和分子建模。 http://www.imb-jena.de/~rake/Bioinformatics_WEB/dd_tools.html
  1. ^ 波士顿大学生物信息学。 http://zlab.bu.edu/zdock/
  1. ^ 德劳内三角剖分。 http://en.wikipedia.org/wiki/Delaunay_triangulation
  1. ^ 斯克里普斯研究所。 http://www.scripps.edu/mb/olson/doc/autodock/
华夏公益教科书