跳转到内容

结构生物化学/生物信息学

来自维基教科书,开放世界中的开放书籍

什么是生物信息学?

[编辑 | 编辑源代码]

生物信息学是一个快速发展的科学领域,它利用计算机技术的优势来分析分子生物学。生物信息学领域的方法可以源于统计学、语言学、数学、化学、生物化学和物理学。核酸或肽链的序列或结构数据以及实验数据可以被生物信息学领域的科学家用作数据[1]。具体来说,涉及生物信息学的结构生物化学领域处理如何获得序列比对,以及最终如何分析序列可以帮助生成系统发育树。这些关系最终可以帮助人们了解大分子结构是如何显示和相互比较的。

蛋白质数据库的属性

[编辑 | 编辑源代码]

一些最著名的生物大分子结构被存档为原子坐标。这些原子坐标是包含分子结构三维结构的数据文件。原子坐标的链接进一步解释了这些数据文件的细节。分子结构的阵列被存档在蛋白质数据库,也称为 (PDB)。PDB 链接是用于查找公开提供的许多坐标的 URL。现在,许多发表生物大分子结构结果的科学期刊要求研究人员将原子坐标上传到数据库。因此,在这个数据库中,有近 20,000 多种生物大分子结构,包括 蛋白质核酸碳水化合物,这些结构是通过 X 射线晶体学衍射技术核磁共振 (NMR)电子显微镜 和理论模型等技术确定的。这个数据库正在不断扩大,每年大约有 2500 种结构出现。

随着结构的确定,一个四字符标识符与生物大分子结构相关联,称为 蛋白质数据库识别码 (PDBid)。第一个字符必须是 1 到 9 的数字,而剩下的三个字符可以是大写或小写字母。例如,肌红蛋白 结构在 PDB 中被编码为 1MBO。然而,重要的是要注意,标识符不一定需要与生物大分子的名称有任何关系。

首先,原子坐标文件从一些信息开始,例如所研究分子的标识和属性,文件提交日期,获得生物大分子的生物体,以及发现结构的作者及其期刊参考文献。此外,该文件还包含关于结构确定方法、对称性和未研究残基的描述。许多链的序列彼此呈现,并附有描述和公式,称为异源基团 (HET)。HET 是与标准氨基酸或核苷酸残基不同的分子,例如有机分子,如 血红素基团,残基,如 Hyp,金属离子,以及与其他分子结合的 水分子。该文件继续提供二级结构的元素以及任何存在的 二硫键。大多数 PDB 文件包含两个系列 - 标准残基,也称为 ATOM,以及异源体,也称为 HETATM 记录行。在这两个系列中,ATOM 和 HETATM 针对结构中特定原子提供坐标,对应于其序列号。在该系列之后,原子 笛卡尔坐标 (X,Y,Z) 相对于原子空间占据的位点的比例呈现。通常,这个任意的原点被量化为 1.00,但对于包含许多构象的基团,或者不是完全与蛋白质结合的分子,该数字是正数,并且小于 1。此外,还描述了各向同性温度,因为它可以呈现原子的热迁移率。各向同性温度的量越大,表示涉及的运动越大。如果结构是通过 NMR 确定的,则 PDB 将包含 ATOM 和 HETATM 系列,用于在找到结构时计算的坐标集中最具代表性的成员。最后,PDB 文件以连接记录 (CONECT) 结束,这些记录呈现原子之间的非标准实体,例如 氢键 和二硫键。

核酸数据库的属性

[编辑 | 编辑源代码]

与蛋白质数据库类似,核酸数据库 (NDB) 包含核酸的原子坐标。NDB 的以下链接是数据库的直接 URL。核酸文件格式与 PDB 文件类似。然而,NDB 具有对比鲜明的组织和算法,用于搜索特定于核酸。此功能特别重要,因为蛋白质按肌红蛋白等名称分类,而核酸的标识是通过它们的序列定义的。

三维查看大分子结构

[编辑 | 编辑源代码]

研究三维结构非常重要,因为它为反应位点以及生物大分子的功能提供了很多信息。研究生物大分子结构最直观的办法是利用 分子图形程序。一个有用的程序被称为 PyMOL。以下链接是 PyMOL 的直接网站,以及该程序查看三维结构的功能。像 PyMOL 这样的程序允许用户通过旋转分子并获得对分子印象来积极地参与分子结构,这可以比二维查看增强对分子的理解。PyMOL 以及 RasMol 等许多其他常用的程序使用 PDB 文件作为输入以进行进一步的可视化。

结构分类和比较

[编辑 | 编辑源代码]

许多发现的蛋白质在结构上与其他蛋白质相关。这种相似性是由于进化保留了蛋白质的结构而不是它们的蛋白质序列。以下描述集是一些为公众提供的网站,这些网站具有用于分类和比较蛋白质结构的计算工具。通过使用这些工具,可以检查功能、序列比较中通常不显示的远缘进化关系、为预测结构生成独特的折叠库,以及解释为什么某些结构比其他结构更占优势。

1. 类别、结构、拓扑和同源超家族 (CATH) 使用这四个主题将蛋白质分类到各自的结构层次中。首先,“类别”是最高级别,包含四个二级结构类别。分别是:主要为α螺旋、主要为β折叠、α/β混合、以及没有太多二级结构的蛋白质。其次,“结构”是指二级结构的排列方式,与拓扑结构不同。第三,“拓扑”指的是蛋白质连接性和形状的整体视图。第四,“同源超家族”是指与所选蛋白质同源的蛋白质。此外,还可以显示蛋白质的交互式或静止视图。例如,肌红蛋白的 CATH 分类为:类别:主要为α螺旋;结构:正交束;拓扑:血红蛋白样;同源超家族:血红蛋白。因此,CATH 允许用户访问数据库并向上或向下浏览,以比较许多结构层次。


生物信息学的优势是什么?

[edit | edit source]

1. 创建生物数据库的电子图书馆

[edit | edit source]
生物数据库是组织好的生物信息,以电子形式存储,并且可以恢复。例如,生物数据库可以记录一个核酸序列,包括名称、输入序列、以及其分离来源的生物体的学名[2]
在这个计算时代,存储数据库为科学家之间的交流带来了极大的便利。电子图书馆中的数据可以被科学家、学生以及知识丰富的普通人广泛使用。

2. 与分子生物学交互的新方法

[edit | edit source]
由于分析分子生物学是生物信息学的主要领域之一,生物信息学研究集中在创建新的工具,以及存储、检索和分析蛋白质序列等材料的方法。
分析目标样本的方法通常是计算机程序,这些程序将帮助研究人员确定感兴趣样本的结构,或帮助科学家从存储数据中确定样本的家族类别。生物信息学中常用的一个程序是 BLAST,即基本局部比对搜索工具。BLAST 搜索的结果是一个序列比对列表,这将帮助研究人员从已知序列数据库中识别样本序列的同源序列[3]

3. 探究进化

[edit | edit source]
具有共同祖先的蛋白质将具有相似的氨基酸序列[3]。因此,利用序列和结构数据的信息,科学家可以将未知蛋白质归类到不同的组中,并重建蛋白质的进化过程。序列比对方法是一种检测同源基因或蛋白质的技术。两个基因或蛋白质的进化关系可以通过使用同一性矩阵或替换矩阵来计算得分来确定。结构比对方法通过比较蛋白质的三级结构,也可以探究两个蛋白质序列的进化关系。然后,科学家可以创建蛋白质的进化树,以及地球上生命的进化树[3]
[edit | edit source]

与生物信息学相关的领域包括[4]

生物物理学 - 利用物理科学中的技术和概念来研究生物学的领域。

药物基因组学 - 在与生物信息学相关的领域中,利用生物信息学技术来存储和处理整个基因组的药理学和遗传信息。

药物遗传学 - 与药物基因组学类似,它使用生物信息学和基因组学技术来关注一个或几个基因,并识别基因组的相关性。

医学信息学 - 是一门学科,使用算法和结构等计算机应用程序来帮助有效地传递和处理医疗信息。

数学生物学 - 侧重于使用数学工具和方法来表示、评估和模拟生物过程的领域。

计算生物学 - 与生物信息学非常相似,涉及使用计算机应用程序和统计方法来解决生物学问题。因此,生物建模、模拟和成像使 RNA 结构和基因预测、序列比对算法和多序列比对等技术成为可能。

蛋白质组学 - 是对蛋白质组的研究。蛋白质组是细胞、组织或生物体表达的完整蛋白质集合。蛋白质是特定基因组的补充。

基因组学 - 这一科学分支的目的是通过使用 DNA 测序和作图方法来研究基因组,即生物体的完整 DNA 序列。

化学信息学 - 是使用计算机和信息技术来解决化学领域的问题。

参考资料

[edit | edit source]

[1] Nelson, David L. 和 Cox, Michael M. Lehninger 生物化学原理. 纽约:W. H. Freeman & Company. 2008

[2] 国家生物技术信息中心 <http://www.ncbi.nlm.nih.gov/>

[3] Berg, Jeremy M., Tymoczko, John L. 和 Stryer, Lubert. 生物化学. 纽约:W. H. Freeman & Company. 2007

[4] 生物信息学组织. 2010. <http://wiki.bioinformatics.org/Bioinformatics_FAQ>

华夏公益教科书