生物化学/生物信息学
当科学家研究不同物种之间蛋白质的关系时,他们必须确定这些蛋白质是否彼此同源。同源蛋白是具有共同祖先的蛋白质。同源物有两类:直系同源物和旁系同源物。直系同源物是在不同物种中发现的具有相似功能的同源蛋白。直系同源物是由于物种形成而产生的。旁系同源物是在同一物种中发现的同源蛋白。它们具有非常相似的结构,但在生物体中起着不同的作用。旁系同源物是由于物种内部的基因复制而产生的。科学家通过研究DNA序列、氨基酸序列、蛋白质的三级结构来确定蛋白质是否同源。换句话说,他们研究蛋白质的序列比对和结构比对。
在分析DNA序列或氨基酸序列的相似性和差异时,科学家研究DNA序列的比对或蛋白质的氨基酸序列的比对。DNA序列比对对氨基酸序列比对的敏感度较低。DNA序列只包含4个碱基。这意味着两个残基相同的概率是4分之1。对于氨基酸序列,两个残基相同的概率是21分之1。每个比对的相似程度评分由矩阵决定。有各种方法来确定核苷酸序列的最佳比对。一种著名的方法是由Needleman Wunsch算法确定的。
矩阵是一种用于确定序列(DNA或氨基酸)之间相似程度的方法。矩阵考虑了两个因素:保守性和频率。
保守性通过比较残基的物理性质(如疏水性、电荷和大小)来确定某个残基是否可以替换另一个残基。例如,如果两个残基都是疏水的,它们可能可以相互替换。如果两个残基的电荷不同,它们可以相互替换的概率非常小。
频率表示残基出现的频率。例如,如果序列A的残基A占20%,残基B占30%,而序列B的残基A占21%,残基B占35%,那么这些残基A和B的流行度可能表明这些序列彼此相关。
矩阵使用的技术是序列之间的滑动、序列中引入的间隙以及序列中某些残基的删除。该方法用于提高比对的相似性。在滑动中,一个序列相对于另一个序列滑动。例如,在将序列滑动一个残基后,序列之间的相似性可能会增加,因为更多残基是相同的或彼此相似的。在序列中引入间隙以提高残基相似性。例如,如果序列A具有此特定范围的残基,这些残基对它的功能或结构并不重要或至关重要,但它在非重要残基范围之后具有重要的残基范围,而另一个序列B则缺乏非重要残基范围,但确实具有与序列A相同的重要的残基范围。然后在序列B中引入一个间隙以弥补非重要残基范围。对于删除,序列中的某些残基被省略。通常删除不重要的残基以提高序列之间的相似性。
矩阵有两种类型:恒等矩阵和替换矩阵。恒等矩阵只为相同的残基分配分数,而替换矩阵可能为不同的但从保守的角度来看相似的残基分配分数。替换矩阵比恒等矩阵更准确,因为在考虑保守替换时,替换矩阵对发生频繁替换的序列给出较高的正分数,对发生罕见替换的序列给出较高的负分数。因此,替换矩阵比恒等矩阵更敏感。
结构比对是对一级、二级和三级结构相似程度的分析。在蛋白质中,三级结构比一级结构更保守,因为三级结构与蛋白质的功能更密切相关。结构比对的目的是通过创建序列模板来改进序列比对(之前讨论过的方法)。由于某些区域比其他区域更保守,因此序列模板是映射出对特定蛋白质家族成员在结构上和功能上重要的保守氨基酸残基的模板。因此,序列模板有助于找到属于某个家族成员的蛋白质。
SIRCh 生物信息学链接(精选互联网资源)