蛋白质组学/蛋白质鉴定 - 质谱/数据库
本节
质谱数据库在维护大量 MS 实验数据方面面临着独特的挑战,因为数据量大且复杂。虽然产生的实际数据(主要是本章前面讨论的峰数据)相对线性,但产生光谱的各种技术差异导致了试图将质谱实验必须呈现的格式标准化的重大复杂性。尽管在标准化这些数据类型方面取得了重大进展,但从一个光谱数据库到另一个光谱数据库之间仍然存在着很大的不一致。这部分是由于技术的多种变化以及应用依赖性的变化程度,以目的驱动的质谱在很大程度上决定了实验设计(包括设备、协议和材料),以及预期结果的格式。 [1] 因此,尽管存在一些标准数据格式(以前讨论过的基于 XML 的数据类型)以及大量成熟的数据库,但在有效、以目的为导向的光谱数据挖掘方面仍然存在着重大挑战。
也许第一个将光谱数据组织成一个经过整理的来源的尝试是美国国家标准与技术研究院 [2] 与美国环境保护署 (EPA) 和美国国立卫生研究院 (NIH) 共同做出的。该标准参考数据库始于 1970 年,是一个详细的光谱数据集合,采用通用数据类型,需要最少的数据量来描述实验,以及用于呈现来自各种 MS 应用的光谱数据的一种标准格式。然而,更专注的存储库更为常见,这些存储库用于存储和整理特定类型的光谱。这种类型的数据库的一个例子是质谱数据库委员会的综合药物库 [3],其中包含有关药物物质、代谢物和中间体化合物的光谱数据。其他包含蛋白质组学数据的数据库包括
- 蛋白质组学鉴定数据库 (PRIDE)
- 开放蛋白质组学数据库 (OPD)
常见碎片表:http://ull.chemistry.uakron.edu/gcms/
数据库汇编:http://www.infochembio.ethz.ch/Links/en/spectrosc_mass.html
光谱数据库:http://www.chemlin.de/chemistry/spectral_database.htm
光谱数据表:http://www.lohninger.com/spectroscopy/dball.html
质谱信息和分析:http://www.dkfz.de/spec/glycosciences.de/sweetdb/start.php?action=form_profiling_search
计算机光谱数据库:http://www.hellers.com/steve/resume/p125.html
公司数据库:http://www.medibix.com/CompanySearch.jsp?cs_choice=c&clt_choice=t&treepath=15442&stype=i
Vizcaíno JA,Côté R,Reisinger F,Barsnes H,Foster JM,Rameseder J,Hermjakob H,Martens L。蛋白质组学鉴定数据库:2010 年更新。核酸研究。2010 年 1 月;38(数据库问题):D736-42。Epub 2009 年 11 月 11 日。
审稿人:Ben H。
本文旨在强调蛋白质组学鉴定数据库的最新进展和修改,并指出其在收集和存储质谱 (MS) 数据方面的至关重要作用。数据库中的数据来自各种实验,并以一种允许以通用格式进行简单和复杂查询的格式存储。数据库一直在不断增长,在 2008 年到 2010 年的两年中,该数据库已扩展到包含超过 250 万个蛋白质 ID 和 1150 万个肽。它还包含超过 5000 万个光谱。所有这些数据来自大约 60 种不同的生物体。其中包含的数据主要是蛋白质和肽 ID、MS 质谱以及任何相关的元数据。
- 蛋白质组学鉴定数据库 (PRIDE)
- 一个集中、公开且符合标准的数据库,其中包含各种蛋白质组学数据。(http://www.ebi.ac.uk/pride/)
- 本体查找服务 (OLS)
- 用于控制词汇和本体查找的查询界面。(http://www.ebi.ac.uk/ontology-lookup/)
- 蛋白质标识符交叉引用系统 (PICR)
- 一个旨在将蛋白质序列与蛋白质 ID 进行匹配的系统。(http://www.ebi.ac.uk/Tools/picr/implementation.do)
- 按需数据库 (DoD)
- 用于生成 FASTA 序列自定义数据库的工具。(来源:http://)
- PRIDE 光谱查看器
- 用于查看蛋白质组学鉴定数据库中光谱的工具。(http://www.ebi.ac.uk/pride/viewSpectrumHelp.do)
- PRIDE 转换器
- 用于将各种蛋白质组学数据转换为 PRIDE XML 格式,以便提交到 PRIDE 并符合提交标准的工具。(http://code.google.com/p/pride-converter/#What_is_PRIDE_Converter?)
- 蛋白质组学交换
- 一个旨在为各种蛋白质组学存储库提供共同提交点的联盟。它还致力于鼓励存储库之间共享信息。(http://www.proteomexchange.org/)
蛋白质组学鉴定数据库 (PRIDE) 于 2005 年建立,以应对大量蛋白质组学数据。它并不是唯一一个作为蛋白质组学数据存储库的数据库。其他数据库包括 GPMDB、蛋白质百科、肽谱图和 NCBI 的肽组。提交到 PRIDE 数据库的数据可以通过登录帐户与审稿人和编辑匿名共享。此功能使 PRIDE 数据库成为各种期刊(包括《自然生物技术》、《蛋白质组学》和《自然方法》)的首选数据提交平台。有两个工具对 PRIDE 数据库的增长产生了非常积极的影响。它们是本体查找服务 (OLS) 和蛋白质标识符交叉引用系统 (PICR)。按需数据库 (DoD) 是第三个添加到数据库以提高其实用性的工具。
PRIDE 中包含的数据非常多样化,而且随着时间的推移,数据的多样性还在不断增加。截至 2010 年,人类在数据库中的代表性最多,占所有蛋白质数据的 38% 和所有肽数据的 36%。细菌是生物体中最具多样性的群体,数据库中代表了 20 个不同的物种。提交到 PRIDE 的最大实验约为 85GB,与秀丽隐杆线虫基因组有关。目前 PRIDE 中最大的实验集是关于大鼠分泌途径的实验集。令人惊讶的是,该数据库还包含来自各种灭绝动物的数据,最引人注目的是霸王龙。
PRIDE 网页界面中的主要改进是能够提交片段离子注释。然后,这些数据可以使用在线“PRIDE 光谱查看器”进行可视化。另一个开发的功能是将 PICR 映射集成到各种工具中。这些工具包括维恩图工具、查询和 BioMart 界面。“鉴定详细信息视图”也进行了修改,以考虑 PICR 映射。
PRIDE 转换器的加入极大地简化了提交流程,导致数据提交量激增。该工具提供了一个简单的向导,可将各种蛋白质组学数据格式转换为 PRIDE XML 格式以供提交。除了转换数据之外,现在还可以通过 FTP 服务器提交非常大的数据集。这实际上消除了数据提交的所有大小限制。
PRIDE BioMart 接口用于将 PRIDE 中的信息与其他资源整合。这些资源的数量在不断增长。能够将这些资源链接在一起,以便更清楚地了解生物学整体,这对我们理解生物学至关重要。未来的目标包括实施一项技术,允许使用 PRIDE 和 NCBI 作为主要提交点,在社区所有成员之间共享蛋白质组学数据。所有数据将共享并公开提供,以确保在科学界充分公开。
在过去十年中,蛋白质组学领域取得了爆炸式增长,信息量也大幅增加。质谱法只是众多技术中的一种,它产生了大量数据,现在存储在 PRIDE 中。在任何蛋白质组学课程中,了解能够存储和共享数据以及从数据中获得的信息的重要性都非常重要。拥有一个用于共同访问共享数据的单一位置,对于任何学习蛋白质组学的人来说都具有巨大的优势。