跳转到内容

结构生物化学/生物信息学/序列比对

来自维基教科书,开放世界中的开放书籍

有超过一百万种不同的基因折叠成数万种不同的蛋白质结构。因此,必须存在同源结构。由于结构数量有限,两种蛋白质可能具有非常相似的结构,这就是序列比对发挥作用的地方。同源性的理论来自于进化中基因和蛋白质相似性的实验证据。大多数基因知之甚少,因此同源性可用于预测基因的功能。同源物有两种类型:旁系同源物和直系同源物。旁系同源物存在于同一生物体中,具有相似的基因组结构,例如血红蛋白和肌红蛋白,但具有不同的功能。直系同源物是旁系同源物的反面;它们存在于不同的生物体中,但本质上在其宿主生物体中发挥相似的功能,暗示着进化祖先的证据。

人类基因组包含超过 30 亿个碱基对和超过 25,000 个基因。选择性剪接是基因编码大量蛋白质的原因。

序列比对可用于检测两条多肽链之间的同源性。弄清楚序列比对可以帮助发展进化起源,追溯基因组的功能、结构和机制。通过将序列与其本身比对,可以检测到重复的基序。超过 10% 的所有蛋白质具有两个或多个彼此相似的区域。这方面的例子是与 TATA 盒结合的蛋白质,该蛋白质由通过将蛋白质与其本身进行序列比对确定的两个相似区域组成。该蛋白质的三维结构已得到阐明,并且已确认了两个相似区域。

两个基因序列之间的相似度百分比被称为可以在所有可以对序列进行的比对中获得的最佳比对。

比较蛋白质序列最简单的方法是对齐每条链并计算匹配的残基。将序列向下滑动一个残基,并将每个序列重新对齐并再次匹配。对所有可能的比对组合继续此过程,为每个组合生成一个比对分数。

氨基酸可能彼此非常相似,因此在进化过程中可以相互替换。序列比对通过在考虑同一性概率和百分比的情况下包含错配来承认这一点。

新阐明蛋白质序列可以通过将序列输入到先前测序蛋白质的大型数据库中来比对。此过程称为 BLAST(基本局部比对搜索工具)搜索。使用 blast,可以确定新测序蛋白质的同源性,以及预测蛋白质的功能和三级结构。使用细菌嗜血杆菌完成的第一个基因组识别出大约 1743 个蛋白质序列。使用 BLAST 搜索,研究人员能够识别出这些蛋白质序列中 1007 个的可能功能和结构。

ClustalO 生成的哺乳动物组蛋白的序列比对。
序列是蛋白质残基 120-180 的氨基酸。所有序列中保守的残基以灰色突出显示。在蛋白质序列下方是一个键,表示保守序列 (*)、保守突变 (:)、半保守突变 (.) 和非保守突变 ( )。[1]

同源性

[编辑 | 编辑源代码]

随着目前存在的数千个基因,推断关于基因的完整信息不太可行,而通过进化特征比较基因和蛋白质则更加可行。因此,同源基因和蛋白质是具有明显相似特征的蛋白质和基因。

两个序列可能极其相似,具有相同的进化背景,但是,多年来,序列可能丢失了一组几乎不影响基因或蛋白质功能的氨基酸或蛋白质。相似的氨基酸也可以相互替换,并且对基因或蛋白质的功能几乎没有影响。这些蛋白质或基因之间的替换仍然是同源的。

当一个序列可以更好地对齐以包含更多匹配的残基时,就会引入间隔。例如,如果两个比对看起来是良好匹配,则可以插入间隔以适应这两个比对。间隔也反映了随着时间的推移核苷酸的插入、缺失和突变。

间隔增加复杂性

原则上,可以在序列的任何位置添加任意大小和数量的间隔。为了避免过多的间隔并进一步偏离原始序列,使用带有惩罚的分数系统。一个例子是给任何大小的间隔一个 -25 的惩罚。但是,根据间隔对齐的每个新序列都获得 +8 的分数。如果有 50 个新的同一性匹配和 1 个间隔,那么分数将为 [(50*8)-(1*25)],分数将为 375。在具有 86 个残基的序列中,将有 50/86 % 的同一性匹配。总分计算为同一性百分比 [见下文],表示序列相似性的统计概率。

间隔

为了检查原始序列是否准确,将原始序列随机洗牌。随机序列的匹配残基与原始序列的匹配残基,以生成一个比对分数。然后比较原始序列和随机序列的比对分数之间的匹配比对数量。

当比较未洗牌的比对分数与洗牌的比对分数时,如果未洗牌的比对分数与洗牌分数的均值和标准差相差很大(是异常值),这表明序列可能具有同源性,并且相似性并非仅仅是偶然的。未洗牌的比对分数与洗牌的比对分数相差很大的概率大约为 1020 中的 1,[2] 表明真实比对在碱基比对方面很可能是唯一的。此方法不能排除同源性。

同一性矩阵

[编辑 | 编辑源代码]

同一性矩阵是评估两个不同氨基酸序列相似性的方法。在同一性矩阵中,每当两个序列的氨基酸完全匹配时,就为这两个序列分配一个点。它是全有或全无的,两个氨基酸要么匹配,要么不匹配。同一性矩阵在评估两个序列表达同源性的可能性方面并不那么准确,因为在氨基酸序列中经常发生突变,要么不改变蛋白质的功能,要么几乎不改变蛋白质的功能。这些通常发生在相似的氨基酸中,例如亮氨酸和异亮氨酸。由于这个因素,其他技术(如替换矩阵)更受欢迎。

替换矩阵

[编辑 | 编辑源代码]

同源性是进化生物学中一个重要的工具。替换矩阵是研究同源性的一种方法,它描述了蛋白质序列或 DNA 序列的相似性。它是通过分配一个点数系统来实现的,该系统比较两个序列与其随机序列。氨基酸具有一定的突变为另一种氨基酸的能力。疏水性氨基酸(例如缬氨酸)更容易突变为另一种疏水性氨基酸(例如亮氨酸)。经常发生的替换会得到一个较高的正分数,而罕见的替换则会得到负分数。替换矩阵中也会对相同的氨基酸匹配进行评分。已经开发出许多类型的替换矩阵,它们对替换分配了不同的分数,例如 PAM、Blosum、BLAST 矩阵。这些矩阵是蛋白质的 20X20 矩阵。Blosum(块替换)矩阵通过比较许多序列比对中保守序列的块与同一性序列来计算同源性。这些块被认为在进化生物学中具有功能意义。

使用替换矩阵的序列分析比同一性矩阵更敏感,因为它考虑了随着时间的推移可能发生的保守替换,这些替换不会显着改变蛋白质的结构。替换矩阵可以检测序列之间的同源性,而这些同源性使用简单的同一性矩阵原本无法找到。

替换矩阵

同一性概率

[edit | edit source]

如果两个序列在至少 100 个氨基酸的链中相似度大于 25%,那么它们是同源体的可能性很高。如果两个序列的相似度小于 15%,那么它们是同源体的可能性很低。在 15% 到 25% 之间,必须使用其他方法(例如比较三级结构)来确认同源性。

序列模板

[edit | edit source]

在序列比对中,某些氨基酸残基对蛋白质的功能比其他氨基酸残基更重要,并且在整个进化过程中更高度保守。通过检查蛋白质的三维结构,可以确定对功能至关重要的区域以及构成该区域的氨基酸残基。例如,与氧气结合的珠蛋白家族(血红蛋白、肌红蛋白、豆血红蛋白)通过一个血红素基团结合氧气,该基团由一个组氨酸残基组成,该残基与血红素基团中的铁相互作用。这个组氨酸残基在所有珠蛋白家族的蛋白质中都是保守的。这个对珠蛋白蛋白质具有重要意义的区域可以用作该蛋白质家族的特征序列模板。然后可以将新阐明的蛋白质序列与该序列模板匹配,以将该蛋白质与某些家族匹配,或确定新蛋白质是否具有与这些家族相似的功能。

测序方法

[edit | edit source]

桑格双脱氧法用于测序 DNA。这个过程快速简单,它涉及使用 DNA 聚合酶合成一个互补序列,该序列包含四个脱氧核苷酸碱基上的荧光标记。然后通过电泳或色谱分离含有荧光碱基的 DNA 链片段,然后通过检测器发送。另一种测序基因组 DNA 的方法是鸟枪法。

埃德曼降解用于测序蛋白质。苯异硫氰酸盐与 N 端氨基酸中的氨基反应,然后酸化去除。高效液相色谱 (HPLC) 用于鉴定氨基酸。该过程对以下每种蛋白质重复进行。

数据库

[edit | edit source]

分离和比较单个链与任何给定链可能很繁琐且耗时。因此,存在具有同源序列的数据库,可以轻松获取和利用。如上所述的序列比对方法在与互联网上提供的广泛数据库和资源一起使用时非常有用。

PAM 和 BLOSUM 矩阵是两种最常用的评分技术。

BLOSUM, or Block Substitution Matrix, is a technique that measures local multiple alignments of related sequences. BLOSUM 62 is the 
default matrix for BLAST. BLOSUM 62 requires 62% sequence identity, while BLOSUM 80 would require 80% identity, etc. 

- 基本局部比对搜索工具 (BLAST) 位于美国国家生物技术信息中心。可以通过网络浏览器搜索单个氨基酸序列。数据库中包含超过 300 万个序列。此外,输入的氨基酸序列可以与所选基因组(例如人类)进行比较,以及数据库中当前的所有基因组。该数据库给出了一系列序列比对和同一性百分比。它将寻找 DNA 或蛋白质序列之间的相似性。网站是 [1].

PAM 代表每 10^8 年的可接受点突变百分比。此过程衡量相似蛋白质的全局比对。这种做法要求序列的差异小于或等于 1%。突变概率通过列 X(代表氨基酸突变)与行 Y(突变产物)之间的分数来提供一段时间内的分数。通过将该矩阵自身重复相乘,可以制作新的矩阵来衡量更大的进化距离。

DNA 主要有三个数据库:Genebank、EMBL、DDBJ。这些数据库包含许多条目,是科学家迄今为止发现和克隆的基因和其他 DNA(如遗传作图标记)的 DNA 序列。每个序列条目都被分配了一个唯一的登录号。

NCBI(美国国家生物技术信息中心)- 数据库和分析工具的集合。该网站由美国国立卫生研究院支持,对研究人员或任何对此感兴趣的人免费开放。您只需访问网站:http://www.ncbi.nlm.nih.gov/ 并搜索蛋白质、DNA、RNA 等序列。NCBI 的许多数据库都通过一个名为 Entrez 的搜索和检索系统链接,该系统允许使用关键字进行特定文本搜索。

ExPASy(专家蛋白质分析系统)- 一个非常有用的蛋白质和氨基酸序列分析工具集合,它是瑞士生物信息学研究所服务器的一部分。网站:http://www.ca.expasy.org

蛋白质数据库- 蛋白质结构信息的数据库。网站:http://www.rcsb.org/pdb/

Clustal W- 欧洲生物信息学研究所网站上的一个在线氨基酸序列比对程序。这是一个用于比较蛋白质序列的强大网站,比对后,可以单击“显示颜色”以查看基于颜色的氨基酸相似性表示。网站:http://www.ebu.ac.uk/clustalw/

如何在 Genbank 中查找序列

[edit | edit source]

以下是使用在线程序和网站的分步指南

1. 转到 NCBI 主页。(http://www.ncbi.nlm.nih.gov/

2. “所有数据库”旁边的菜单栏应该包含所有可用的不同类型的数据库。选择合适的那个。例如,如果您想找到 DNA 序列,您将选择核苷酸。

3. 使用“关键字”查找序列。它将有许多不同的选项。哪个是我们正在寻找的?如果我们试图找到包含基因完整编码区的 DNA 序列,那么我们必须找到一些已经去除内含子或编码序列的完整 CDS 的东西。通过输入动物的学名(如果您正在寻找动物的基因),可以更容易地找到所需的序列。

4. 登录号是特定序列的 ID 标签,一旦找到所需的序列,它就会显示为蓝色。

5. DNA 序列在页面底部给出,序列中核苷酸的编号在右侧给出。

6. CDS 代表编码序列。

如果要找到同源性,则使用 BLAST

1. 转到 NCBI 主页并单击 BLAST。有很多不同的比对选项,在这种情况下,我们将选择核苷酸 BLAST。

2. 在大字段中输入未知序列。对于选择搜索集,您将选择其他。然后 BLAST 它。

3. 然后将给出一个与查询核苷酸序列匹配的摘要页面,从最高相似度(顶部)到最低相似度(底部)。

4. 查询覆盖率和最大同一性列也可用。查询覆盖率将显示我们相同或匹配程度的核苷酸百分比。然后将确定未知序列的同源性。

BLAST 也可以用来比较或比对两个 DNA 序列以查看它们的相似程度

1. 获取要比较的两个序列的完整基因序列(如之前所述)。

2. 打开 BLAST 主页,然后单击“专业 BLAST”下的“比对”。

3. 在查询序列框中,您可以输入登录号或整个序列。

4. 程序选择包含您可以使用的许多不同程序。选择合适的程序后,单击 BLAST。然后您将比对两个选定的 DNA 序列。

总结

基因组测序的三阶段方法

初始阶段

基于此类信息提供的细胞遗传图提供了更详细作图的起点。有了这些手中的染色体细胞遗传图,人类基因组测序的初始阶段是构建一个连接图,其中包含分布在整个染色体上的几千个遗传标记。在这个阶段,标记的顺序以及标记之间在该图上的相对距离是基于重组频率的。标记可以是基因,也可以是 DNA 中的任何其他可识别序列。它也是组织特定区域更详细地图的有价值框架。

第二阶段

这个阶段是人类基因组的物理图谱绘制。在物理图谱中,标记物之间的距离用某种物理测量值来表示,通常是沿 DNA 的碱基对数量。关键是要制作重叠的片段,然后使用探针或片段末端的自动核苷酸测序来找到重叠的部分。这样,片段就可以被分配到一个测序顺序,对应于它们在染色体中的顺序。在处理大型基因组时,研究人员会进行多轮 DNA 剪切、克隆和物理图谱绘制。在将这些长片段排序后,每个片段被切成更小的片段,这些片段被克隆到质粒或噬菌体中,依次排序,最后进行测序。

最后一个阶段

绘制基因组图谱的最终目标是确定每个染色体的完整核苷酸序列。对于人类基因组,这是通过使用链终止法的测序机器完成的。

序列比对程序:Geneious

[编辑 | 编辑源代码]

有很多程序用于比对已经由测序公司处理过的序列。最受认可的测序程序是 Geneious。Geneious 是一款跨平台生物信息学套件,包含序列比对和与 NCBI 对应的序列 BLAST 搜索应用程序。Geneious 拥有许多功能,涵盖从分割查看器基因组浏览以进行简单的限制性分析和克隆工作流程,到 PCR 引物设计,允许您设计和测试能够与多个引物错配以搜索可实施的 DNA 测序的简并引物。

参考文献

[编辑 | 编辑源代码]
  1. "Clustal FAQ #Symbols". Clustal. 检索于 2014 年 12 月 8 日.
  2. Berg, Jeremy M. John L. Tymoczko. Lubert Stryer. 生物化学 第六版. W.H. Freeman and Company. 纽约,2007 年。

1. Berg, Jeremy M. John L.,Tymoczko, 和 Lubert Stryer. 生物化学 第六版. W.H. Freeman and Company. 纽约,2007 年。

2. Coleman, Aaron Gould Meredith Stephano Luis Jose. 生化技术. 加州大学圣地亚哥分校。2009 年

3. “基因组及其进化”。生物学。坎贝尔和里斯。第 8 版。2007 年。500-600。

华夏公益教科书