跳转到内容

结构生物化学/蛋白质/开发蛋白质结构的新分类

来自维基教科书,开放的书籍,为开放的世界

提出的蛋白质结构新分类

[编辑 | 编辑源代码]

来自加州大学圣地亚哥分校的三位结构生物化学领域的科学家(Ruben E. Valas、Song Yang、Philip E. Bourne)提出了一种新的蛋白质分类方法。这个想法是由于已解决的大量大分子结构,以及许多尚未被阐明的结构。这带来了一个严重的问题,即如何同化大量可用的结构信息。其次,目前的分类方法似乎不足以揭示进化铺设的巨大结构谱系网络,因此,他们的策略是采用还原论的方法来更好地解释蛋白质结构的进化基础以及这些结构不同种群之间的谱系。

目前普遍使用两种蛋白质分类方法

自下而上的方法

[编辑 | 编辑源代码]

自下而上的方法使用算法试图根据几何形状、使用均方根偏差 (RMSD) 重叠的能力、比对长度、空隙数量和统计显著性得分来比较蛋白质。最终结果是蛋白质结构域比较,这几乎没有生物学意义。

由于可用方法的多样性,每个氨基酸序列的分析通常会得到不止一个结果。自下而上方法的一个缺点是,由于氨基酸序列在初级状态下没有揭示太多关于蛋白质生物学功能的信息,因此无法确定哪个结果在生物学上是最重要的。自下而上方法的优点是,它是一种有用的还原论,确实提供了一种不同蛋白质结构域的代表性比较,这可以证明是有用的。

自上而下的方法

[编辑 | 编辑源代码]

自上而下的方法被认为是当今的黄金标准,例如 CATH 和 SCOP。这些方法主要利用同源序列比较来反映不同蛋白质结构域之间的关系,并因此形成生物学背景。作者同意,这种技术可以基于结构分类是作为物种之间进化联系的结果而发展的这一前提,更进一步。此外,作者建议在功能背景下将基因复制、趋同进化与发散进化、共同进化等问题纳入考虑,作为未来蛋白质分类中应该使用的想法。

蛋白质结构域:一个好的结构分类单位吗?

[编辑 | 编辑源代码]

自下而上和自上而下的方法都依赖于蛋白质结构域作为比较单位。结构域是复杂的单位。有些结构域具有相似的序列,并且在进化上是相关的,有些结构域是模糊相关的,具有相似的结构,但序列不同,还有一些结构域具有相似的拓扑结构,但不足以建立进化联系。基本问题是结构域可以是进化单位或非进化单位。许多蛋白质是多结构域蛋白质,这进一步增加了复杂性。

折叠的存在,它被认为是大多数自上而下分类中的离散组成部分,进一步使问题复杂化。折叠不是进化的直接结果,但它们确实提供了对进化实践的洞察。折叠有时在进化过程中会发生改变;一个α折叠可以通过二级结构改变变成β折叠。也可以创建两个具有相似序列但不同折叠的多肽,从而导致完全不同的功能。还有变色龙序列,它们可以采用多种不同的折叠。由于折叠在结构变异方面的多样性,折叠不是合适的分类单位。本质上,两种蛋白质是否属于同一个折叠实际上是语义问题,而确定哪一种蛋白质在进化上导致了另一种蛋白质,实际上可以洞悉蛋白质之间的关系。它没有被广泛使用的原因仅仅是因为它比聚类相似结构更难。

进化选择的例子

[编辑 | 编辑源代码]

Valas 等人通过给出两个突出了这种现象的例子来展示进化选择的普遍性。首先,Basu 等人在 28 种不同真核细胞的基因组分析中发现,有 215 个强性混杂结构域。Basu 等人将强性混杂定义为那些出现在不同结构域体系结构中的结构域,其中这些体系结构被表示为这些结构域的线性组合。“结构域体系结构通过结构域重排、结构域复制以及结构域插入和删除而产生,从而产生新的功能。” 结构域混杂的程度取决于与不同结构域伙伴一起出现的频率。第二个例子是由 Vogel 等人提出的,他们发现了 2 结构域或 3 结构域组合的过度表达,这些组合被称为“超结构域”或宏结构域。这些是蛋白质进化过程中已证明具有稳定的内部结构域的结构。已发现了超过 1400 个这种宏结构域,它们显示出一种似乎在进化上有利的自然关联性。

蛋白质分类的多元化方法

[编辑 | 编辑源代码]

蛋白质结构域一直是评估蛋白质结构进化的唯一方法。虽然蛋白质结构域本身的进化分析在评估蛋白质结构方面已经取得了成功,但似乎需要其他因素来补充进化网络中未知的部分。因此,作者建议使用一种蛋白质结构分类的多元化方法,其中不仅包括结构域,还包括子结构域、宏结构域以及趋同进化和发散进化。关于子结构域,作者提到了子结构域的区域,这些区域可能是连接蛋白质进化网络的重要组成部分。

有许多工具可以用于在子结构域级别比较蛋白质。一个名为 Fragnostic 的数据库根据来自不同蛋白质的片段进行分析,这些片段共享结构和/或序列相似性。片段的边缘是不确定的;也就是说,它们没有被定义为发散进化或趋同进化,但与其他信息相结合,可以测试片段的结构进化。

闭环是另一个子结构域单位。大多数蛋白质结构由跨越 25-30 个残基的环组成。结构域层次结构和闭环 (DHcL) 使用范德华力来从蛋白质结构中阐明结构域和闭环。研究人员发现,与闭环相关的片段更有可能形成大型簇,这些簇彼此相连。这种描述可能代表了对蛋白质功能的更详细的视图。在不同结构中相似的闭环可以证明这些结构曾经共享一个共同的祖先。

另一个子域单元是功能位点。许多不同的蛋白质可以与相同的配体结合,这意味着它们可能共享一个共同的祖先,该祖先与所讨论的配体结合。蛋白质在进化过程中结构发生了分化,但功能位点保持不变。SMAP 可以找到既具有序列又具有结构保守性的功能位点,这是趋异进化的一个完美例子。另一方面,不同的蛋白质可以收敛到同一个配体。PROCOGNATE 数据库使用来自 PDB 的信息将哪些蛋白质与哪些配体结合在一起。这些方法的结合可以将趋异进化和趋同进化都纳入考虑。

除了子域之外,宏域也可以用于帮助分类。趋异进化在一些蛋白质-蛋白质相互作用位点(一种宏域特征)中很明显。在这些情况下,虽然蛋白质随着时间的推移而分化,但域界面保持不变。PDB 中许多蛋白质-蛋白质界面在截然不同的蛋白质中包含非常相似的界面。

实质上,基于域的方案效率不高,因为它只能确定蛋白质是来自一个共同祖先的进化,而包括对子域和宏域的分析在内的检查将提供一个进化假设。多元化蛋白质分类方法面临的一个问题是趋同进化。两个具有完全不同进化谱系的蛋白质可以结合在一起具有非常相似的结构,这对连接蛋白质进化网络提出了巨大的问题。

作者认为,为了获得蛋白质的最后通用共同祖先 (LUCA),有必要观察除氨基酸序列之外的更多内容,如已经完成的工作,并结合其他结构方面,以便能够拼凑进化拼图。

华夏公益教科书