蛋白质组学/蛋白质一级结构/选择性剪接
本节
选择性剪接是指基因的初级转录本被重组以产生多种成熟的mRNA转录本的过程。通过操纵外显子区域,可以控制从mRNA产生的氨基酸序列,从而产生具有不同结构和功能的不同蛋白质序列。 [1] 选择性剪接已被观察到是产生来自单个基因的组织特异性蛋白质的机制。这允许增加细胞特化,而无需基因修饰。这是发育的一个非常关键的方面,因为它允许以仍然允许灵活性,和修饰的方式确定细胞命运。选择性剪接,尤其是在神经元发育的背景下进行了研究, [2] [3] 然而,许多剪接变体已被发现,它们仅在发育期间的某些组织中表达,似乎在触发细胞类型特异性基因表达中起着至关重要的作用。 [4]
选择性剪接是生物体中蛋白质多样性的主要来源。据估计,人类基因组中至少 30% 的基因都经历选择性剪接,并且这个数字还在不断增加。最初认为,选择性剪接基因的数量仅占人类蛋白质的 5%。随着人类基因组的揭示,发现人类基因组包含不到 30,000 个基因 [5]。这可能可以解释相对较少的基因数量和蛋白质组中大量蛋白质之间的巨大差距。
有人提出,选择性剪接是真核生物中高级复杂性的来源 [6]。这个想法是基于这样一个想法,即更复杂的生物体将更频繁地选择性剪接其基因以获得更多可能的 mRNA 序列。然而,证据表明,不同复杂程度的生物体之间的选择性剪接水平并不显著。一项使用 EST(表达序列标签 [7])进行的研究提供了相反的证据。EST 作为转录的 mRNA 的一部分,在检测选择性剪接基因方面非常有效。随着越来越多的 EST 研究的开展,越来越明显的是,选择性剪接基因的数量比以前认为的要多(见上文)。
选择性剪接与多种疾病有关。一个在选择性剪接中起作用的疾病的例子是雷特综合征 (RTT)。这种疾病主要发生在女孩身上,其特征是神经元之间连接形成障碍,或突触 [8]患有这种疾病的女孩通常在 6-18 个月大之前发育正常 [9]。在这个年龄之后,她们开始表现出运动和语言技能下降,通常伴随有搓手动作。 [10] 据信,MeCP2 基因会产生一种突变蛋白,该蛋白会破坏其作为某些蛋白质中选择性剪接的共调节因子的正常功能。当这种突变版本的 MeCP2 产生时,会产生一种缺乏野生型关键功能的蛋白质,该蛋白质不允许调节选择性剪接。MeCP2 最初被确定为一种甲基化依赖的转录抑制因子。然而,人们发现 MeCP2 具有其他功能,这是由 MeCP2 与 Y 盒结合蛋白 (YB-1,mRNP 的一个组分) 的相互作用首先阐明的。YB-1 和 MeCP2 的复合物被证明可以调节报告基因的剪接。
来自导致表型类似于雷特综合征的突变小鼠的微阵列数据显示,选择性剪接基因的数量与野生型小鼠相比存在显著差异。选择性剪接转录本与细胞分析相匹配,细胞分析表明 MeCP2 在盒式外显子改变中发挥作用。
剪接通过剪接体机制发生,剪接体是一种由多种蛋白质和 snRNA 组成的复合物,包括 snRNA U1、U2、U3、U4、U5 和 U6 [11]。这些 snRNA 识别剪接位点,然后募集其他蛋白质来连接剪接位点。然后,这些剪接位点通过这些形成剪接体的蛋白质的相互作用被连接在一起。一旦剪接体形成,这些位点就会被切割以使正确的外显子(或内含子)连接在一起。生物体中的剪接位点尚未得到很好的表征。在使用 HMM 分析和其他形式的机器学习进行计算预测方面已经取得了一些进展。这将在本文后面讨论。内含子的 5' 端以通常以“GU”结尾的共有序列为特征。该区域被称为剪接供体位点。内含子的 3' 端被称为剪接受体位点,包含一个共有序列,该序列在内含子/外显子边界处具有一个 AG。在剪接机制中起作用的还有靠近内含子 3' 端的一个腺嘌呤,通常称为分支点。在剪接过程中,U1 开始在剪接供体位点形成复合物,而 U2 将剪接体复合物的一部分募集到剪接受体位点。U4、U5 和 U6 连接这两个位点之间的间隙,导致内含子折叠。DNA 在剪接供体位点被消化。然后,内含子的这部分与分支点连接,形成套索。这使外显子区域彼此靠近,允许连接。最后,剪接受体位点被切割,外显子区域被连接起来。 [12]
有 4 种常见的选择性剪接类型,如下所示
- 选择性启动子选择:不同的启动子用于不同的剪接变体。这导致 mRNA 转录本的起点不同。
- 选择性切割/聚腺苷酸化位点:基于对不同切割或聚腺苷酸化位点的识别,不同的外显子被剪接,整个外显子可以被跳过。导致转录本 3' 端的外显子不同。
- 内含子保留:内含子用作编码区。通常被认为是内含子的序列被保留在最终转录本中,该转录本充当翻译的模板。
- 外显子盒:整个外显子可以在蛋白质中间被跳过,导致不同的转录本
蛋白质是生物系统中结构和功能的基本单位。因此,蛋白质组学领域在现代生物学研究中变得更加重要。基因组革命,其最终导致了多个基因组的测序,产生了大量数据。蛋白质组学领域 [13] 不幸的是落后了,导致基因组信息和可观察到的表型之间脱节。最初,蛋白质和蛋白质依赖的途径是单独研究的。最近,对系统生物学的强调导致了这种方法的改变。整个细胞正在使用高通量技术进行表征。
质谱法 已成为蛋白质鉴定的金标准 [14] [15]。简而言之,蛋白质被分解成肽段,通过多种方法之一将其悬浮到气相中,电离,然后送入检测器,检测器可以确定各种肽段的质荷比。质谱法易于自动化,并可与其他形式的蛋白质分离方法结合使用,使其成为高通量分析的理想选择。此外,可以一次从单个来源识别数千种肽段,使该技术比埃德曼降解等旧技术更适用于系统生物学。质谱法还可以用于识别已使用其他技术(如色谱法)分离的特定感兴趣的蛋白质。
剪接和蛋白质鉴定
[edit | edit source]质谱分析甚至埃德曼降解鉴定的一个主要缺点是,蛋白质必须在鉴定之前被消化成肽段。通常为了与鸟枪法测序一起使用 [16],蛋白质在任何形式的隔离过程完成之前就被消化。为了确认鉴定结果,搜索蛋白质数据库以匹配唯一肽段到完整蛋白质。这种过程因可变剪接产生的肽段之间存在大量序列同源性而变得更加复杂。 [17]。这些蛋白质虽然具有相似的初级结构,但可能具有非常不同的甚至拮抗的功能,因此从生物学的角度来看,识别它们至关重要。更重要的是,可变剪接发生的程度尚未得到很好的表征,因此甚至不知道哪些蛋白质无法被明确识别。这些问题可能在可变剪接得到充分记录或能够通过计算有效地预测之前一直存在。
分析可变剪接的影响
[edit | edit source]体内分析目前是识别可变剪接的最准确方法,无论是在转录本水平还是在某些情况下在蛋白质水平。许多数据库记录了已知经历可变剪接的蛋白质,包括可变剪接数据库 [18] 和转录本多样性数据库 [19]。虽然这些都是很好的参考资料,但如上所述,即使是对真核生物中存在多少可变剪接的估计,也存在很大差异。因此,关于这些数据库的完整性信息非常少。
还采取了一些步骤来计算地预测可变剪接 [20]。通常,这些算法将基因寻找方法与实验数据结合在一起。剪接位点被识别并根据一致性序列对其效率进行评分。然后将序列与已知的表达序列标签匹配以进行预测。BLAST、Spidey 和 SIM4 等工具可以适用于这些过程。大多数现代计算工具在将基因组数据与剪接位点一样小且多变的序列进行比较时会遇到困难。假阳性和假阴性相当普遍 [21]。新的方法仍在开发中。
参考文献
[edit | edit source]- ↑ Möröy, T 等人。 “体内可变剪接的影响:小鼠模型指明了方向”。 http://www.rnajournal.org/cgi/content/full/13/8/1155 于 2008 年 4 月获得
- ↑ Goymer, P. “发育:可变剪接开启大脑”。《自然评论神经科学》8,576(2007 年 8 月)。 http://www.nature.com/nrn/journal/v8/n8/full/nrn2200.html 于 2008 年 4 月获得
- ↑ Azuma, N 等人。 “带有可变剪接外显子的 Pax6 同种型促进神经视网膜结构的发育”。《人类分子遗传学》2005 年 14(6):735-745 http://hmg.oxfordjournals.org/cgi/content/full/14/6/735 于 2008 年 4 月获得
- ↑ Michelle Lesimple 等人。《DNA 和细胞生物学》。2000 年 6 月 1 日,19(6): 365-376 http://www.liebertonline.com/doi/abs/10.1089/10445490050043335 于 2008 年 4 月获得。
- ↑ 可变 RNA 剪接。ExonHit Therapeutics。 http://www.exonhit.com/index.php?page=59。于 2008 年 4 月获得
- ↑ Brett D 等人。 可变剪接和基因组。《自然遗传学》30,29-30(2001) http://www.nature.com/ng/journal/v30/n1/abs/ng803.html;jsessionid=BF0AED8347574D063F5E347EC693AE83 于 2008 年 4 月获得
- ↑ http://en.wikipedia.org/wiki/Expressed_sequence_tag
- ↑ “雷特综合征概况”。美国国立神经疾病和中风研究所。 http://www.ninds.nih.gov/disorders/rett/detail_rett.htm#109713277 于 2008 年 4 月获得。
- ↑ “雷特基因调节可变剪接”。《科学日报》。 http://www.sciencedaily.com/releases/2005/10/051019002531.htm 于 2008 年 4 月获得
- ↑ Young, J 等人。 “依赖甲基化的转录抑制因子甲基-CpG 结合蛋白 2 对 RNA 剪接的调节”。《美国国家科学院院刊》第 102 卷:49 http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1266160&blobtype=pdf 于 2008 年 4 月获得。
- ↑ Cáceres, J 等人。 “可变剪接:多种控制机制及其在人类疾病中的参与”。《遗传学趋势》第 18 卷,第 4 期,2002 年 4 月 1 日,第 186-193 页。 http://www.sciencedirect.com/science?_ob=ArticleURL&_udi=B6TCY-45FYM7X-F&_user=47004&_rdoc=1&_fmt=&_orig=search&_sort=d&view=c&_acct=C000005018&_version=1&_urlVersion=0&_userid=47004&md5=eea15989e03f8b963bdc33384a4ef93b
- ↑ “从 DNA 到 RNA”。《细胞的分子生物学》。 http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.1020 于 2008 年 4 月获得
- ↑ http://en.wikipedia.org/wiki/Proteomics
- ↑ http://en.wikipedia.org/wiki/Mass_spec
- ↑ “通过质谱法鉴定蛋白质”。美国能源部研究新闻 http://www.eurekalert.org/features/doe/2001-06/drnl-pib061902.php 于 2008 年 4 月获得
- ↑ Lu, B 等人。 “通过结合使用 LTQ-Orbitrap 高质量精度进行鸟枪法蛋白质组学的 MS 和 MS/MS 信息来提高蛋白质鉴定灵敏度”。《分析化学》,第 80 卷(第 6 期),2018-2025,2008 年。Datahttp://pubs.acs.org/cgi-bin/article.cgi/ancham/2008/80/i06/html/ac701697w.html 于 2008 年 4 月获得
- ↑ Nesvizhskii, A 等人。 “鸟枪法蛋白质组学数据的解释:蛋白质推断问题”。《分子与细胞蛋白质组学》4:1419-1440,2005 年。 http://www.mcponline.org/cgi/content/full/4/10/1419 于 2005 年 4 月获得
- ↑ Dralyuk, I 等人。可变剪接数据库。 http://hazelton.lbl.gov/~teplitski/alt/ 于 2008 年 4 月获得
- ↑ hanaraj T.A.、Stamm S.、Clark F.、Riethoven J.J.M、Le Texier V. 和 Muilu J. ASD:可变剪接数据库。核酸研究。2004 年 32:D64-D69。 http://www.ebi.ac.uk/asd/ 于 2008 年 4 月获得
- ↑ Bonizzoni, P 等人。 “可变剪接预测的计算方法”。《功能基因组学与蛋白质组学简报》。第 5 卷(第 1 期),第 46-51 页。 http://bfgp.oxfordjournals.org/cgi/content/full/5/1/46 于 2008 年 4 月获得
- ↑ Black, D 等人。 “来自可变剪接的蛋白质多样性——生物信息学和后基因组生物学的挑战”。《细胞》。第 103 卷,第 3 期,2000 年 10 月 27 日,第 367-370 页。 http://www.sciencedirect.com/science?_ob=ArticleURL&_udi=B6WSN-41T1FBT-2&_user=47004&_rdoc=1&_fmt=&_orig=search&_sort=d&view=c&_acct=C000005018&_version=1&_urlVersion=0&_userid=47004&md5=d3b999a5147780e759f2e9aa7b8c47e7 于 2008 年 4 月获得