蛋白质组学/蛋白质组学与药物发现/蛋白质聚集

软件工具	蛋白质组学与药物发现	下一章 - 贡献者
	蛋白质聚集

章节作者：Ashlee Benjamin 和 Rhea Sanchez

联系 amb4541@rit.edu 或 ris6859@rit.edu 以获取贡献

本节

蛋白质聚集简介

蛋白质聚集近年来已成为一个越来越受关注的话题，尤其是在制药研究中。蛋白质聚集通常在生物制药研究的后期阶段或生产中遇到。聚集体的存在通常会导致免疫反应，从而拒绝该产品，有时还会干扰身体的正常功能。聚集会导致几种严重的疾病，如阿尔茨海默病和II 型糖尿病 ^[1]。为研究而开发的抗体或其他小分子有时会在过表达时发生聚集，给公司造成时间和金钱上的损失。许多公司正在利用生物信息学技术来预测聚集。这些方法只是预测，但对于研究和开发过程中的分析仍然非常有用。

什么是聚集？

聚集和淀粉样蛋白纤维

蛋白质聚集可以描述为纤维化或从完全或部分展开的肽 ^[2]形成不溶性结构。一个肽可以以非自然的方式与自身或细胞中的其他蛋白质结合。这通常发生在蛋白质过表达时。蛋白质聚集不止一种类型；然而，研究得最透彻的类型是淀粉样蛋白纤维化。淀粉样蛋白纤维主要由β 片层构成，主链主导蛋白质的结构。这些纤维是高度有序的结构，由氢键 ^[3]稳定。淀粉样蛋白纤维的直径通常为 10 纳米，由大约 2-6 个“原纤维”相互缠绕而成。原纤维是淀粉样蛋白纤维的前体，对细胞有最大的毒性。原纤维由交叉 β 结构构成。在交叉 β 结构中，β 片层由垂直于纤维的 β 链组成。图 1 显示了淀粉样蛋白纤维的图像 ^[4]。

图 1：小型淀粉样蛋白纤维

*图 1* - 图 1 显示了一个淀粉样蛋白纤维。可以看到该纤维由两个相互缠绕的原纤维组成。原纤维由交叉 β 结构组成，β 片层垂直于纤维。

蛋白质的天然状态通常是该蛋白质在环境条件下能量最有利的形式，这种状态可以产生适当的功能。当蛋白质发生链间接触，与该蛋白质的其他部分或其他蛋白质接触时，就会发生蛋白质聚集。因此，人们认为这些聚集体在能量上与天然状态一样有利，或者比天然状态更具能量优势。有几种疾病与蛋白质聚集有关。本讨论将考察阿尔茨海默病和转甲状腺素蛋白相关疾病 ^[4]。

不同类型的聚集体

可能发生许多不同类型的聚集。它们根据相互作用类型和溶解度进行分类。可溶性聚集体是不可见的颗粒，无法通过过滤器去除。不溶性聚集体可以通过过滤去除，通常是人眼可见的。这两种类型的聚集体都会在生物制药开发中造成问题。共价聚集体是由给定肽的多个单体的共价键形成造成的。游离硫醇的二硫键形成是共价聚集的常见机制。酪氨酸残基的氧化会导致双酪氨酸的形成，这通常会导致聚集。可逆蛋白质聚集通常是由于蛋白质之间较弱的相互作用造成的。当环境因素如蛋白质浓度、盐浓度或 pH 值发生变化时，这种聚集的可逆性可能会改变 ^[5]。

蛋白质折叠理解的进步

为了理解蛋白质聚集，我们需要更多地了解蛋白质折叠本身。在开发预测工具时，了解和解释所有与聚集相关的因素是不可行的。然而，对这些因素了解得越多，预测模型就可能越好。在理解蛋白质折叠过程方面取得了进展。这些进展可以帮助我们了解该过程是如何“出错”的，并导致聚集。图 2 显示了一个展开的肽链及其相应的天然折叠状态肽的图像。

图 2：蛋白质折叠

蛋白质的一般折叠过程可以描述为对天然状态 ^[3]^[7]的“随机搜索”。天然状态通常是稳定、低能量的构象。更具体地说，较小的蛋白质通过成核-凝聚机制折叠，而较大的蛋白质则以模块或较小的部分折叠 ^[7]。成核-凝聚是折叠核的形成，其余的结构围绕它凝聚或坍塌。随着对折叠过程的更多了解，对像这样的预测模型的需求将减少。然而，在此期间，可以创建这样的模型来加深对聚集甚至蛋白质折叠本身的理解。

影响聚集的因素

有人认为，一些普遍的原则或蛋白质特征可能决定聚集和纤维化 ^[7]^[2]。尽管已经证明在合适的外部条件下，任何普通蛋白质都有能力形成类似淀粉样蛋白纤维的聚集体，但聚集也取决于序列的特征。除了温度等外部条件以及序列本身的特征外，肽单体的特征可能无法提供其聚合物版本的聚集倾向的见解，因为肽间链相互作用会导致构象变化 ^[2]。无论涉及哪些因素，人们已经对可以用来预测聚集的因素有了很多了解。已知的内在属性可能影响聚集，包括电荷、疏水性、疏水/亲水模式以及二级结构倾向。

疏水性表面在变性后暴露出来，极易受到杂乱无章的相互作用的影响，导致蛋白质聚集。这些表面充当“粘性”点，试图与它们能接触到的任何东西相互作用。高螺旋二级结构倾向性显着降低聚集的可能性，而高β-折叠倾向性显着增加聚集。带电荷残基已被证明也能减少聚集。外在因素如离子强度、温度、pH 值、蛋白质浓度、伴侣蛋白、质量控制和压力已被证明对聚集有影响^[1]。一些配体和离子的存在会增加聚集。施加到蛋白质上的应力会导致变性，从而导致随后的聚集。这些应力包括冷冻、暴露在空气中或与金属表面相互作用——其中许多都参与生物制药的开发。由于这些应力在药物开发中的参与，我们对聚集的了解越多，在药物开发中就越能更好地控制。极性或非极性可及表面积、偶极矩和芳香族残基等物理化学性质也很重要^[8]^[9]。研究表明，朝向内侧的带电荷残基和较少的悬挂氢键将减少蛋白质聚集的量^[2]。利用所有这些知识，我们可以确定给定蛋白质聚集的可能性。这些因素可以，并且已经被用来预测蛋白质聚集。

当蛋白质被表达时，蛋白质浓度的急剧增加会导致细胞内聚集。这是由于未折叠的蛋白质分子之间的相互作用或分子伴侣蛋白对新生肽链的识别不良。

当然，仍然存在生物体通过自然途径阻止聚集的问题。伴侣蛋白在蛋白质折叠中起辅助作用。守门人残基也有助于防止聚集^[1]^[3]^[7]^[2]。这些外在因素在创建预测模型时几乎不可能利用。

聚集相关的疾病

阿尔茨海默病

阿尔茨海默病是一种神经退行性疾病，由β-淀粉样蛋白肽的聚集引起。β-淀粉样蛋白肽在人体以及实验条件下都容易发生聚集。该肽的天然状态相对不稳定，导致聚集。该肽在大脑中的聚集导致聚集斑块的形成。图 3 显示了阿尔茨海默病患者大脑皮层的这些斑块。

图 3：β-淀粉样蛋白斑块

β-淀粉样蛋白单体被认为会形成六边形排列，然后继续形成淀粉样原纤维。中间步骤的确切结构尚未确定^[4]。

TTR 相关疾病

甲状腺素运载蛋白或 TTR 是一种蛋白质，当它聚集时会导致老年性系统淀粉样变性、家族性淀粉样变性神经病变以及其他一些罕见神经退行性疾病。甲状腺素运载蛋白存在于中枢神经系统中。 TTR 是脑脊液中的血清蛋白，并携带甲状腺激素甲状腺素。在血液中，白蛋白通常执行此功能，但脑脊液中不存在白蛋白。许多TTR 疾病已被证明是由肽序列中的点突变引起的。这些突变改变了序列的内在特性，增加了聚集的倾向。 TTR 是一种四聚体，聚集在四聚体解离时开始。分离后，肽链形成有利于纤维化的能量有利接触。从这一点开始，TTR 单体的聚集迅速进行。中间结构尚未通过TTR 聚集确定^[4]。

创建的预测模型

为了更好地理解和预测蛋白质聚集，几个研究小组一直在开发基于不同原理的预测模型。

Tartaglia 等人创建的预测方法基于物理化学性质。该方法是一种从头预测方法，基于极性和非极性可及表面积、偶极矩、电荷、芳香族残基和β-折叠倾向性。预测结果给出了聚集速率和“淀粉样蛋白谱”。该方法使用确定的窗口大小扫描每个序列，一次移动一个氨基酸。使用聚集倾向性对每个片段进行排名。存储三个最高排名片段的位置。该方法与实验聚集速率的关联度高达 95%^[8]。

AGGRESCAN 方法基于实验得出的单个氨基酸的聚集倾向性。使用滑动窗口来计算窗口的平均聚集倾向性，并将该值分配给中心氨基酸。这给出了聚集“热点”的分布。该方法提供了聚集分布的图形表示，包括热点、峰值区域和聚集值^[11]。

TANGO 方法是一种统计机制算法，用于识别序列中容易发生聚集的区域。该方法考虑了多肽序列的几种不同类型的内在结构倾向性，并确定了不同长度的滑动窗口最可能的构象。该方法在一般聚集预测方面的准确率在 87% 到 92% 之间，但与大多数聚集预测工具一样，它无法区分淀粉样蛋白形成和无定形聚集。 ^[12]。

Pawar 等人创建的方法使用序列的内在特性来寻找易聚集和易受聚集的区域。该方法利用α-螺旋倾向性、β-折叠倾向性、电荷、疏水性和疏水/亲水模式来预测序列的易聚集和易受聚集区域。使用此方法可以计算出总的聚集倾向性、倾向性的 z 分数、聚集速率以及速率或倾向性分布。在计算分布时，将每个氨基酸突变为所有其他可能性，并计算速率或倾向性。存储最大值、最小值和野生型值，并在 7 个氨基酸的滑动窗口上对这些分布进行平滑处理^[13]。

肽的序列特征能否提供对蕴含淀粉样蛋白倾向性位点的见解？已知的与聚集相关的疾病为我们提供了研究基础，使我们能够开始模式搜索。到目前为止，从生物信息学方法在这个领域所看到的情况来看，序列特征确实告诉了我们很多关于蛋白质聚集的信息。但是，还没有建立完美的模型，因此很明显我们还没有理解蛋白质聚集的各个方面。我们希望能够理解蛋白质聚集，并学习如何防止它。

参考文献

↑ ^a ^b ^c "淀粉样蛋白生成多肽链绝对聚集速率的预测。"Dubay, K. F., Pawar, A. P., Chiti, F., Zurdo, J., Dobson, C. M., & Vendruscolo, M. (2004). J. Mol. Biol. 341, 1317-1326. 摘要
↑ ^a ^b ^c ^d ^e "蛋白质和肽聚集的分子基础的新兴观点。"Thirumalai, D., Klimov, D. K., & Dima, R. I. (2003). Current Opinion in Structural Biology. 13, 146-159. 摘要
↑ ^a ^b ^c “蛋白质折叠和错误折叠的实验研究。” Dobson, C. M. (2004)。方法。34, 4-14。摘要
↑ ^a ^b ^c ^d thglab.lbl.gov 访问日期：2008 年 3 月 27 日。
↑ 蛋白质聚集和生物加工访问日期：2008 年 3 月 21 日。
↑ “蛋白质折叠。” http://en.wikipedia.org/wiki/Image:Protein_folding.png 访问日期：2008 年 4 月 2 日。
↑ ^a ^b ^c ^d “蛋白质折叠、错误折叠和聚集的原理。” Dobson, C. M. (2004)。细胞与发育生物学研讨会。15, 3-16。摘要
↑ ^a ^b “芳香性、暴露表面和偶极矩在决定蛋白质聚集速率中的作用” Tartaglia, G. G., Cavalli, A., Pellarin, R., & Caflisch, A. (2004)。蛋白质科学。13, 1939-1941。全文
↑ Tartaglia, G. G., Cavalli, A., Pellarin, R., & Caflisch, A. (2004)。蛋白质科学。14, 2723-2734。
↑ “阿尔茨海默病。” http://en.wikipedia.org/wiki/Alzheimer%27s_disease 访问日期：2008 年 4 月 2 日。
↑ AGGRESCAN：用于预测和评估多肽中聚集“热点”的服务器” Conchillo-Sole, O., de Groot, N. S., Aviles, F. X., Vendrell, J., Daura, X., & Ventura, S. (2007)。BMC 生物信息学。8, 65-81。全文
↑ “Fernandez-Escamilla, A. M., Rousseau, F., Schymkowitz, J. & Serrano, L. (2004)。预测肽和蛋白质聚集的序列依赖性和突变效应。Nat Biotechnol 22, 1302-6。[1]
↑ “预测与神经退行性疾病相关的蛋白质中‘易于聚集’和‘易受聚集影响’的区域。” Pawar, A. P., Dubay, K. F., Zurdo, J., Chiti, F., Vendruscolo, M., & Dobson, C. M. (2005)。J. Mol. Biol. 350, 379-392。全文

[dubay-1] "淀粉样蛋白生成多肽链绝对聚集速率的预测。"Dubay, K. F., Pawar, A. P., Chiti, F., Zurdo, J., Dobson, C. M., & Vendruscolo, M. (2004). J. Mol. Biol. 341, 1317-1326. 摘要

[thirumalai-2] "蛋白质和肽聚集的分子基础的新兴观点。"Thirumalai, D., Klimov, D. K., & Dima, R. I. (2003). Current Opinion in Structural Biology. 13, 146-159. 摘要

[dobson1-3] “蛋白质折叠和错误折叠的实验研究。” Dobson, C. M. (2004)。方法。34, 4-14。摘要

[glab-4] thglab.lbl.gov 访问日期：2008 年 3 月 27 日。

[eleven-5] 蛋白质聚集和生物加工访问日期：2008 年 3 月 21 日。

[pfold-6] “蛋白质折叠。” http://en.wikipedia.org/wiki/Image:Protein_folding.png 访问日期：2008 年 4 月 2 日。

[dobson2-7] “蛋白质折叠、错误折叠和聚集的原理。” Dobson, C. M. (2004)。细胞与发育生物学研讨会。15, 3-16。摘要

[tart1-8] “芳香性、暴露表面和偶极矩在决定蛋白质聚集速率中的作用” Tartaglia, G. G., Cavalli, A., Pellarin, R., & Caflisch, A. (2004)。蛋白质科学。13, 1939-1941。全文

[tart2-9] Tartaglia, G. G., Cavalli, A., Pellarin, R., & Caflisch, A. (2004)。蛋白质科学。14, 2723-2734。

[alz-10] “阿尔茨海默病。” http://en.wikipedia.org/wiki/Alzheimer%27s_disease 访问日期：2008 年 4 月 2 日。

[conc-11] AGGRESCAN：用于预测和评估多肽中聚集“热点”的服务器” Conchillo-Sole, O., de Groot, N. S., Aviles, F. X., Vendrell, J., Daura, X., & Ventura, S. (2007)。BMC 生物信息学。8, 65-81。全文

[Fernandez-Escamilla-12] “Fernandez-Escamilla, A. M., Rousseau, F., Schymkowitz, J. & Serrano, L. (2004)。预测肽和蛋白质聚集的序列依赖性和突变效应。Nat Biotechnol 22, 1302-6。[1]

[pawar-13] “预测与神经退行性疾病相关的蛋白质中‘易于聚集’和‘易受聚集影响’的区域。” Pawar, A. P., Dubay, K. F., Zurdo, J., Chiti, F., Vendruscolo, M., & Dobson, C. M. (2005)。J. Mol. Biol. 350, 379-392。全文

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]