跳转到内容

结构生物化学/生物信息学/同源性

来自维基教科书,开放世界中的开放书籍
A wings.
达尔文发现鸟类翅膀的进化变化是同源性的一个例子,这是基于翅膀骨骼结构的相似性。 http://www.talkorigins.org/faqs/precursors/precurscommdesc.html

同源性是一个概念,它考虑了两种不同生物体之间核酸或蛋白质序列的相似性。由 理查德·欧文 在 1948 年提出,同源性通过比较两种不同蛋白质氨基酸序列样本或 DNA 序列中出现的匹配来量化,并为对齐中出现的相同/相似匹配分配一个点值系统。这种分析方法有助于确定物种之间的关系,并有助于追踪祖先的起源以及特定物种组在一段时间内发生的进化变化。如今,已经开发出评估两种生物体同源性的可能性,并且在很大程度上已成为全球生物信息学家的主要关注领域。核酸之间的同源性主要分为两种类型:直系同源和旁系同源。如果同源物是通过称为物种形成的事件分开的,则称其为直系同源。直系同源基因存在于不同的物种中,但彼此相似,因为它们起源于同一个共同祖先。直系同源通常具有相同的功能。旁系同源是通过基因复制事件分开的基因。旁系同源大多具有相同的功能。编码血红蛋白和肌红蛋白的基因被认为是旁系同源基因。同样,血红蛋白 A、A2、B、F 也是彼此的旁系同源。

术语的误用

[编辑 | 编辑源代码]

在描述蛋白质或核酸序列时,术语“同源性”经常被错误地使用,因为“同源性是一个质量概念,不能被‘量化’[1]”。在最近的一项分析中,在 PubMed 的 2007 年数据库中搜索了术语“同源性”,并发现了 1966 篇摘要包含“同源性”一词,无论是标题还是摘要,都排除了将该术语用作蛋白质或程序名称一部分的摘要。在这些摘要中,57%(1128 篇)正确使用该术语,而 43%(828 篇)错误地使用了该术语。一些错误的用法包括与百分比值相关联,以及“高”、“低”和“显着”等术语。分析 1986 年数据库中摘要的该术语表明,错误使用“同源性”一词的频率略有下降。[2]

该术语的分析也在跨语言进行。在 1986 年对包含同源性的文章的搜索中,总体而言,错误使用该术语的文章比例较低。然而,随着其他国家在科学研究方面取得长足进步,来自新兴国家的研究文章数量不断增加,其中错误使用同源性一词的文章比例更高。文章“当涉及同源性时,不良习惯难以改变”主张通过要求科学期刊推广关于常用术语的正确用法指南以及对新兴国家的新研究人员进行术语教育来解决这个问题。[2]

错误使用同源性一词被认为是一个问题,因为它会导致读者在试图理解作者意图时感到困惑。例如,作者可能会说两种蛋白质是同源的,同时还会说明这两种蛋白质没有相同的进化起源(这是同源性的定义)。作者还可能会说两个肽链是同源的,而完全忽略了它们是否具有相同进化起源的讨论。还发现作者将该术语用作蛋白质来自同一进化起源的证据(例如,“这些蛋白质同源这一事实证明它们来自同一进化链”)。[3]

同源性和相似性之间的区别的一个例子是人类和黑猩猩 DNA 的比较与人类和老鼠 DNA 的比较。虽然老鼠和人类与人类共享约 97.5% 的 DNA,但这并不意味着它们具有相同的进化起源。虽然非常相似,但它们并不同源。[4] 然而,人类和黑猩猩共享超过 98.0% 的 DNA,并且被认为具有相同的进化起源。因此,人类和黑猩猩的 DNA 链可以正确地称为同源的。[5]

直系同源物

[编辑 | 编辑源代码]

直系同源物是指两种完全不同的物种之间密切相关的特定基因序列,但通常具有相同的功能。术语“直系同源”源于“ortho”的词根,意思是“其他”,由沃尔特·菲奇在 1970 年创造。在物种形成事件中,一个物种分化为两个独立的物种,单个基因的差异拷贝会导致直系同源的同源序列。

直系同源基因的一个例子是牛和人类中编码血红蛋白的基因。直系同源物的映射可以帮助生物学家构建更加详细和具体的进化树。分类学和系统发育研究得益于直系同源序列。一个简单的例子可以是蝙蝠和鸟类;鸟类和蝙蝠属于两个不同的物种,但它们的翅膀具有相同的功能。

旁系同源物

[编辑 | 编辑源代码]

旁系同源物是指同一物种中生物体共有的但功能不同的基因序列。旁系同源物通常是基因复制的产物,基因复制可以通过多种机制引起,例如 转座子 或非等位交叉。这些重复的基因通常具有相似的功能,并且可以进一步突变以承担其他功能,从而导致旁系同源物。

差异或替换的数量与基因复制后经过的时间成正比。从而阐明了基因组进化的方式。肌红蛋白和血红蛋白被认为是所有进化的古老旁系同源物。

疑似旁系同源物是指编码血红蛋白和肌红蛋白的基因,因为它们都具有相似的蛋白质结构,但在氧气携带功能上有所不同。已知有四类血红蛋白(血红蛋白 A、血红蛋白 A2、血红蛋白 B 和血红蛋白 F),它们都是彼此的旁系同源物。旁系同源物的其他例子是肌动蛋白和 Hsp-70。它们的叔结构相似,但功能不同;肌动蛋白是细胞骨架的一部分,而 Hsp-70 是一种热休克蛋白。

序列比对检测同源物

[编辑 | 编辑源代码]

为了检验两个分子是否同源,重要的是检查核酸或蛋白质序列中两个序列之间出现的匹配。虽然测序的形式有效,但蛋白质测序通常是可取的,因为它由 20 种不同的组成单元(氨基酸)组成,而 DNA 和 RNA 分别只包含四种核酸;因此,蛋白质测序中出现大量匹配是共同祖先的更有力证据,而不是核酸测序。此外,遗传密码的冗余性,即不同的基因可以编码相同的氨基酸(例如,GCU、GCC、GCA、GCG 都编码丙氨酸),使得蛋白质的比较在确定蛋白质功能的相似性方面比 DNA 或 RNA 更敏感和有用。

可以通过分析两个蛋白质序列在直接对齐或一个序列相对于另一个序列滑动时氨基酸匹配的次数来比较它们。例如,在评估匹配次数时,顶层链的第一个氨基酸可以与第二层链的第 1 个氨基酸直接对齐,也可以滑动到它的左侧/右侧,从而导致不同的氨基酸对齐。然后将匹配次数绘制在对齐图上,以评估最大匹配次数的对齐方式。重要的是要理解,大量的匹配并不意味着两个蛋白质是同源的。

为了考虑插入和缺失等突变,可以插入间隙以创建更好的匹配。如果两个序列比较看起来很匹配,则可以插入间隙以适应这两个比较。科学家对对齐进行评分:每次匹配 +10 分,每次间隙 -25 分,无论间隙大小如何。然后必须将此分数绘制在通过随机洗牌一个蛋白质链并将它与另一个蛋白质链比较多次获得的其他分数分布中,以确保氨基酸匹配不是由于偶然造成的。如果分数与大多数分数有很大偏差,则两个蛋白质可能是同源的。但是,低分并不能排除同源性。

同源测序技术:矩阵

[编辑 | 编辑源代码]
核苷酸简单同一性矩阵
同一性对齐的随机洗牌往往会重叠。

可以使用同一性或替换矩阵计算分数。通过选择一个矩阵来添加间隙以进一步匹配序列,此过程可以更加精确。矩阵的例子包括 PAM、BLOSSUM(一种替换矩阵)、GONNET(专门针对距离的矩阵)、DNA 同一性矩阵和 DNA PUPY 矩阵。总体而言,替换矩阵对蛋白质序列最敏感。通过使用这些矩阵,可以检测到遥远的进化关系。如果两个序列至少有 25% 的同源性相同,则可以确定这两个蛋白质是同源的。但是,百分比低于 25 的序列不一定不是同源的。例如,如果蛋白质 A 与蛋白质 B 同源(基于它们的同一性百分比),而蛋白质 B 与蛋白质 C 同源,则 A 和 C 可能在功能上具有相似性,即使它们只有 15% 的同一性。同一性矩阵对序列之间的匹配分配一个值 1,对不匹配分配一个值 0。这种方法不区分可能突变和罕见突变,因此不能对同源性给出明确的答案。替换矩阵通过给予它们一个大的正分数来解释保守突变,这些突变不太可能是有害的或严重改变功能,例如交换甘氨酸和丙氨酸。因此,换句话说,替换矩阵不仅考虑序列是否相同(给予它们最高可能的分数),而且与同一性矩阵不同的是,它们也为氨基酸序列分配值,当它们被另一个具有相似性的氨基酸“替换”时。氨基酸序列越相似,它接收的“值”就越大。序列差异越大或给定氨基酸的替换“罕见”程度越高,例如,A 被替换为 P,它们接收的“负”值就越大。通过区分不同类型的突变,可以进行更好的匹配,并避免基于随机机会的对齐。

同一性矩阵:同一性矩阵使用 1 和 0 的分数,其中相同氨基酸或核苷酸的匹配得到 1 分,任何不匹配得到 0 分。这并不像意义重大,因为随机洗牌分数可能与原始分数在同一区域。[6]

GONNET:Gonnet 矩阵使用蛋白质的“详尽成对比对”并测量距离来估计对齐。这将创建一个新的距离矩阵,从而细化对齐分数。这种类型的矩阵表明蛋白质是否源于密切相关的或遥远相关的同源蛋白质。这种类型的矩阵是由 Gonnet 在 1993 年在 Cohen 和 Benner 的帮助下形成的。[7]

alt text
来自 www.clcbio.com 的替换矩阵

DNA PUPY

DNA Pupy 矩阵为嘌呤-嘌呤转换和嘧啶-嘧啶转换提供分数。据信它有助于寻找 PCR 引物。[8]

PAM:点接受突变 (PAM) 是一组用于序列比对评分的矩阵。PAM 由美国物理化学家和生物信息学家玛格丽特·戴霍夫 (Margaret Dayhoff) 于 1978 年引入。PAM 用于开发一个评分矩阵,该矩阵用于确定两个基因或蛋白质的同源性。该矩阵被标准化,以便 PAM1 给出对每 100 个氨基酸有 1 个点突变的序列的替换概率。最常用的的是 PAM250,其中概率是针对每 100 个氨基酸有 250 个点突变确定的。

BLOSUM 62:BLOSUM 62 是最常用的替换矩阵。美国国立生物技术信息中心 (NCBI) 开发了一个程序来进行这种序列比对,该程序可以在线使用。此替换矩阵统计不同氨基酸对的分数,不仅考虑同一性,还考虑氨基酸对的保守性(一个氨基酸与另一个氨基酸的相似程度,以不诱导特定蛋白质功能的剧烈变化)和频率(氨基酸在蛋白质序列中出现的次数)。如果氨基酸相同,该矩阵将给予更高的分数,但它也将根据相似性给予分数。例如,异亮氨酸和缬氨酸将获得更高的分数,因为虽然氨基酸不相同,但它们在都是疏水性方面是相似的。

同源建模

[编辑 | 编辑源代码]

同源建模的主要目标是研究大分子结构。X射线晶体学NMR 是提供详细结构信息的唯一方法;但是,这些技术涉及复杂的程序,许多蛋白质无法结晶或无法以足够的量获得或溶解用于 NMR 分析。因此,根据已知同源蛋白质的三维结构进行模型构建是获得未知蛋白质结构信息的最可靠方法。以下是同源建模的主要步骤

1. 查找同源蛋白质数据库文件(模板)模板选择是同源建模中的一个关键步骤。数据库搜索技术可以帮助识别模板。

2. 使用单序列或多序列比对创建比对。

当涉及多个已知时,已知将相互比对,然后将未知序列与该组比对;这有助于确保更好的域保守性)此外,可以通过插入或删除间隙来校正比对。尽管引入间隙会使比对变得复杂,但已经开发出使用评分系统来比较不同系统并对间隙进行处罚以防止不合理的插入的方法。比对评分涉及构建同一性矩阵和替换矩阵。替换矩阵被认为是最好的,这些方法基于对观察到给定氨基酸在可以比对序列的蛋白质中被其他氨基酸替换的频率的分析。

3. 模型生成:模板和比对中包含的信息可用于生成蛋白质的三维结构模型,该模型表示为一组笛卡尔坐标。

4. 模型细化:同源建模中的主要误差来源是模板选择不当和模板-目标序列比对不准确。这可以通过使用多个序列和结构比对来改进。

参考文献

[编辑 | 编辑源代码]
  1. Lewin, R. (1987) 同源性什么时候意味着其他东西? 科学 237, 1570
  2. a b “谈到同源性,坏习惯很难改掉。” 生物化学趋势。第 34 卷,第 3 期,2009 年 3 月,第 98-99 页。
  3. Reeck GR. “蛋白质和核酸中的同源性:术语混乱及其解决方法。” 细胞杂志,第 50 卷,第 5 期,1987 年 8 月。
  4. Coghlan A. “只有 2.5% 的 DNA 将老鼠变成人” 新科学家,http://www.newscientist.com/article/dn2352-just-25-of-dna-turns-mice-into-men.html 2002 年 5 月
  5. Choi C. “猴子 DNA 指向共同的人类祖先。” 直播科学,http://www.livescience.com/health/070412_rhesus_monkeys.html 2007 年 4 月
  6. [Berg,Jeremy M.,John L. Tymoczko,Lubert Stryer 和 Jeremy M. Berg。生物化学学生指南,第 7 版,国际版。纽约:W.H. Freeman,2011。]
  7. [Rastogi,S. C.,Namita Mendiratta 和 Parag Rastogi。生物信息学方法及其应用:基因组学、蛋白质组学和药物发现。新德里:印度培生出版公司 (P),2006。]
  8. 矩阵教程
华夏公益教科书