结构生物化学/生物信息学/结构比对/用于结构比对的程序
尽管结构比对中使用的程序和方法有些复杂,但它们却非常有趣,并且蕴藏着大量的知识等待我们去学习。大多数程序都涉及矩阵和看似复杂的数学过程。尽管这些过程包含了复杂的数学知识,但看到蛋白质的结构比对是如何确定的,以及每种方法具体发现了什么,仍然令人着迷。
结构比对技术的目的是比较单个结构、结构集或“全对全”比较数据库,该数据库测量蛋白质数据库 (PDB) 中每对结构之间的差异。全球蛋白质数据库可以在这里找到 这个网站。 这些数据库通常根据蛋白质的折叠方式对其进行分类。
某些方法在对每个正确的蛋白质比对所赋予的点数和对每个错误的蛋白质比对所扣除的点数方面有所不同。例如,谷氨酰胺和天冬酰胺都是极性的,并且具有非常相似的疏水性指数,因此,如果谷氨酰胺出现在天冬酰胺应该出现的地方,则扣除的点数会比如果缬氨酸出现在那里要少。这种方法允许对那些对蛋白质结构或功能改变最小的比对授予最大点数。对每个比对授予的点数可以与其他比对进行比较,以便更好地了解某些蛋白质在结构或功能上彼此之间的关系。
实际上比较两个结构的一种方法是使用 VMD (http://www.ks.uiuc.edu/Research/vmd/)。VMD 代表虚拟分子动力学。可以使用 VMD 加载 pdb 文件,然后转到文件->添加结构。VMD 使用 RMSD 结构比对来比较两个结构。RMSD 代表均方根偏差,它比较原子的距离。两个蛋白质的 RMSD 值越低,它们的比对度越高。
DALI 涉及将输入的蛋白质结构分解为六肽片段,然后将这些片段输入到一个距离矩阵中,该矩阵评估连续片段之间的接触模式。DALI 方法已被用于确定结构邻居和折叠分类。
组合扩展 (CE) 将每个蛋白质分解成一系列片段,并试图将它们重新组装成完整的比对。该方法可用于结构叠加、残基间距离、二级结构、溶剂暴露、氢键模式和二面角。
SSAP 使用双重动态规划,基于结构空间中的原子间矢量来生成结构比对。在第一步中,SSAP 将执行残基间距离矢量和相邻的非相关相邻蛋白质。每个矩阵上的动态规划产生局部比对,然后将这些局部比对记录到一个摘要矩阵中,以确定总体结构比对。SSAP 分数范围在 80-100 之间,说明结构高度相似,而分数范围在 70-80 之间,说明结构略微相似,存在少量偏差。分数 60-70 可能包含相同的三级结构,但类别可能有所不同。
- Beiber*
*Beiber* 方法是一种用于蛋白质的非连续结构比对和数据库相似性搜索的组合算法。该方法侧重于二级结构,根据接触图评估两种不同蛋白质结构之间的相似性。
MAMMOTH 的目的是最初为比较来自结构预测的模型而开发的,但现在也适用于实验模型。MAMMOTH 已被用于创建包含 150 个基因组的未知蛋白质预测结构的大型数据库,从而允许进行基因组规模的归一化。
RAPIDO 是一个基于网络的程序,用于分析不同蛋白质分子在存在构象变化情况下的三维晶体结构。该方法涉及计算两个不同蛋白质中结构相似的片段之间的差异距离矩阵。
SABERTOOTH 使用结构特征来执行结构比对。与其他基于坐标的已建立比对工具相比,该工具能够识别结构相似性,并具有更高的准确性和质量。
BLOSUM 代表氨基酸替换矩阵的块,它根据在比对相关的蛋白质中观察到的这种发生频率分配一个分数。某些分数可以添加正值或负值。然后,这个尺度由对数奇数比运行。本质上,两个矩阵通过相似的或相同的序列的比率与一个矩阵中丢失的未知序列的比率进行比较和评估。
TOPOFIT 基于从主链表示中得出的三维德劳内三角剖分模式分析蛋白质结构。TOPOFIT 基于这样一个事实来生成蛋白质的结构比对,即蛋白质具有一个共同的空间不变部分(一组四面体),这在数学上被描述为从德劳内镶嵌 (DT) 中得出的三维接触图的共同空间子图体积。
insightII 是由 Biosym 开发的分子建模软件包。其中包含的程序包括 Insight II、BioPolymer、Analysis 和 Discover。因此,InsightII 是一款功能全面的程序,不仅可以构建任何类别的分子或分子系统,而且还可以使用分子力学程序 Discover 来操作这些相同的分子。
Insight II 主要用于可视化。它创建、修改、操作、显示和分析分子系统。Insight II 本质上提供了所有软件模块的核心需求。Analysis 围绕分子性质的数学和几何建模展开。分子性质是交互式定义的,动态评估的,并通过电子表格、图形和图形表示交互式地可视化。BioPolymer 构建了聚合物模型——肽、蛋白质、碳水化合物和核酸——用于可视化复杂结构并用于进一步的模拟工作。CHARMM 是 Insight II 中可用的一个模拟程序,它使用能量函数来描述分子中原子上的力。这使得能够计算相互作用和构象能量、自由能和振动频率。
通过使用 Discover 程序,可以优化所观察的分子或蛋白质的结构。这是因为它整合了一系列经过充分验证的力场,用于动力学模拟、最小化和构象搜索。这使得能够推断系统的结构、能量学和性质,无论是无机、有机、有机金属还是生物系统。借助该程序,可以从蛋白质序列推断出基本的结构。Discover 还实现了进程间通信,允许 Discover 将控制权移交给外部程序并检索这些结果,将其整合到持续的 Discover 计算中。