代谢组学/数据库
使用高通量技术收集的大量代谢组学信息需要一种有效的存储手段来组织、传播和促进分析和注释。这种需求推动了数据库的发展,作为正在生成的代谢组学数据的存储库。这些数据库中存储的数据涵盖了从 NMR 光谱到代谢途径底物和产物的代谢组学研究的广阔领域。
代谢组学数据库的主要目的是组织有关代谢途径中遇到的众多代谢物的的信息。在万维网上存在许多不同的数据库,它们存储着涵盖各种生物体的各种信息。
该生物磁共振数据库(BMRB)侧重于通过生物大分子光谱研究产生的定量数据。它链接到 PubChem 等搜索引擎,这些引擎连接到最近的文章和新数据。它还链接到与代谢组学和代谢组学相关的项目和其他数据库。该数据库侧重于代谢物发现的 NMR 研究方面以及它们在代谢中的作用。BMRB 提供了大量不同已知化合物的清单以及与其相关的信息。
术语:
- 代谢组学(与代谢组学对比):术语“代谢组学”和“代谢组学”通常可以互换使用,尽管人们正在达成共识,以确定每个术语的具体含义。代谢组学的目标是识别和量化在不同条件下在生物流体中发现的无数小分子。代谢组学是研究复杂生物系统的代谢谱如何响应疾病、毒物暴露或饮食变化等压力而变化的研究。
- 代谢物:低分子量分子。
- 抗磁性:从磁场中弱排斥。它是一种仅在物质存在于外加磁场中的情况下才会表现出来的磁性形式。它是由电子轨道运动的变化造成的。施加磁场会对移动电子产生磁力,形式为 F = Qv × B。这种力改变了电子的向心力,使其在轨道运动中加速或减速。这种改变的电子速度在与外部场相反的方向上修改了轨道的磁矩
- 钙调蛋白:细胞内信号通路中钙结合调节蛋白的例子。它在所有真核细胞中高度保守且丰富。作为一种信号蛋白,钙调蛋白的功能是结合钙离子,然后结合靶蛋白,影响其活性。它影响从神经递质释放到膜蛋白组织等过程。
- 启发式:一种帮助解决问题的,通常是非正式的方法。它特别用于一种方法,该方法通常可以快速找到解决方案,该解决方案通常接近于最佳可能答案。
相关性:这些信息与我们在课堂上学习的内容相关,因为我们一直在学习代谢和参与其中的代谢物。该资源只是一个包含所有可核算知识的集合。代谢组学领域正在不断发展,在核磁共振波谱的帮助下,将发现更多化合物和代谢物,以及它们的功能。课堂上学习的信息构成了这些知识的基础。
该Sigma-Alderich 数据库提供了对许多代谢组学试剂盒和试剂的访问,以及许多资源,包括有关细胞信号通路、酶结构/功能/特异性、动画、图表和在线库的信息。该网站还提供指向其他资源的链接。
术语:
- 细胞因子:一组在生物体中用作信号化合物的蛋白质和肽。主要由小的水溶性蛋白质和糖蛋白组成。还在免疫系统中发挥核心作用。
- 代谢组:生物体中发现的所有代谢产物和中间体的集合。
- 血管生成素:促进新血管形成的蛋白质生长因子。只有四种已知的血管生成素:Ang1、Ang2、Ang3 和 Ang4。
- 磷酸化蛋白质组学:一种蛋白质组学类型,涉及识别、编目和表征含有磷酸基团作为翻译后修饰的蛋白质。
相关性:该网站以动画、深入的方式展示了细胞信号通路和其他代谢途径(包括糖酵解)。该网站还提供了搜索功能,以查找与您选择的分子相关的通路。
该麦迪逊代谢组学联盟数据库包含通过 NMR 和 MS 确定的代谢物。它包含以拟南芥为主的信息,但也提到了许多不同的物种。该数据库还包含有关代谢物在几种不同生理条件下的存在情况、它们的二维和三维结构以及指向相关资源和 其他数据库的链接的信息。
术语:
- 核磁共振波谱 (NMR):使用核磁共振来确定分子结构信息的技术。
- 质谱 (MS):利用离子的质荷比来确定样品组成的技术。
- 拟南芥:阿拉伯芥,一种基因组小、生命周期快的植物物种,是实验室中的模式生物。
- 化学信息学:将计算机和信息技术应用于化学领域的一系列问题的学科。
- 化学位移:与 NMR 相关,化学位移描述了核磁能级对分子电子环境的依赖性。
相关性:这些信息与迄今为止在本课程中学习的信息有何关系?使用该网站,可以将您感兴趣的分子输入搜索引擎,并获得指向该分子参与的通路列表的链接。对葡萄糖进行此操作时,将显示在本课程中涵盖的两个通路:淀粉降解(也称为糖酵解)和糖原降解。
MetaCyc 数据库的主要目标是收集和展示来自各种生物体的实验研究途径的信息。途径分为五类:生物合成、降解/利用/同化、解毒、前体代谢物和能量的生成以及超级途径。点击其中任何一个,将以纲要形式打开更具体的类别。最终会引导到图形化的单个代谢组。此外还有关于其历史和关联途径的详细信息描述。该数据库也可以通过化合物和反应进行浏览,尽管这些部分往往不太详细。
MetaCyc 允许任何人提交新发现的途径,但他们毫不意外地要求详细的、经过实验验证的数据,这些数据在任何添加内容被整理之前都会经过仔细审查。
术语:
- 超原子:一组原子,其行为与元素原子相同。
- 前列腺素:一组脂类化合物,存在于多种组织中,由必需脂肪酸合成。细胞有多种前列腺素受体,导致各种作用,从平滑肌收缩到增加脊髓神经元对疼痛的敏感性。
相关性:MetaCyc 与我们在课堂上学习的材料密切相关,因为它是一个综合性的数据库,涵盖了许多相同的途径,例如糖酵解 I (http://biocyc.org/META/NEW-IMAGE?type=PATHWAY&object=GLYCOLYSIS)
斯克里普斯质谱中心:代谢组学科学网页
[edit | edit source]斯克里普斯质谱中心的主要目标是为代谢组学领域的科学家提供一个用户友好的网站。他们提供有关分析工具、代谢组学历史时间线、全球举行的代谢组学活动、代谢系统数据库以及生物信息学软件的概况信息。
术语:
- 病理生理学:异常或患病生物体或其部分的生理学;与疾病或综合征相关的功能变化。
- 脂质组学:涉及脂质的研究,不仅研究它们的结构,还研究它们在生理和病理条件下的功能和修饰。
- 外源性:指代谢同化蛋白质或其他代谢物的,氮的排泄量与摄入的代谢物量成正比。
- Ernobiotic:指对生物体或生物系统而言是外来的化学物质或物质。
- 扑热息痛:一种常见的非处方药物的通用名称,用于治疗轻微疼痛或发烧。
- GC-MS:气相色谱质谱法
- CE-MS:毛细管电泳质谱法
- FT-IR:傅立叶变换红外光谱法
相关性:这个网站与我们在课堂上学习的信息有关,因为它包含关于途径和众多数据库的完整信息。其中一个数据库是 KEGG 途径数据库,其中包含所有参与代谢的途径。它展示了糖酵解、糖异生、柠檬酸循环、磷酸戊糖途径、半乳糖代谢、丙酮酸代谢等途径,以及数百种其他途径。点击此处查看糖酵解途径 -> http://www.genome.jp/kegg/pathway/map/map00010.html 这个网站很好地展示了所有途径如何相互连接在一起。
人类代谢组数据库
[edit | edit source]人类代谢组数据库是一个极其全面、免费的电子数据库,它详细概述了人类代谢物,将其分为化学、临床和分子生物学/生物化学数据。
术语:
- 人类代谢组计划:HMB 是一个雄心勃勃的加拿大项目,始于 3 年多前,其最终目标是“识别、量化和编目”人类组织中可检测到的浓度大于 1 微摩尔的每种代谢物。
- 生物体液:生物体液,如尿液、血液或汗液。在这个数据库中,代谢物可以根据其生物体液定位进行分类。
- 化学类别:一个广泛的术语,用于根据共同特征对有机和无机化学物质进行分类,将其分为胺类和碳水化合物等类别。该数据库可以按化学类别进行浏览。
- 代谢卡片:该数据库中代谢物的单个数据表称为代谢卡片。每个卡片都包含详细的描述、超过 90 类的数据以及引用的来源。柠檬酸的示例代谢卡片可以在以下位置找到:http://hmdb.ca/scripts/show_card.cgi?METABOCARD=HMDB00094.txt
- TOCSY:全相关谱,其中通过相邻质子和通过相邻质子连接的质子的化学键的磁化被可视化。一个
相关性:人类代谢组数据库与我们的课程相关,因为它非常全面地提供了关于我们一直在学习的所有代谢物的数据。反应中间体和产物,如葡萄糖、3-磷酸甘油酸和柠檬酸,都可以被查找,并且从 3D 结构到相关疾病的所有信息都将提供。
KNApSAcK
[edit | edit source]KNApSAcK 是一个Java 应用程序,它以交互式方式显示生物化学信息,可以通过生物体或代谢物名称进行搜索。KNApSAcK 主要关注特定代谢物的来源和质谱。
术语:
- JRE:Java 运行时环境是一组免费软件程序,许多互联网开发人员使用这些程序在用户的计算机上运行 Java 程序和脚本。
- Mw +- margin:KNApSAcK 的一个搜索参数,允许用户搜索一个设定数值的质量范围内的代谢物。例如,用 2 的边际搜索 MW: 100 将返回所有分子量在 98 克到 102 克之间的代谢物。
- 门:生物分类的第四个分类等级,位于界和纲之间。蓝藻就是一个门。该数据库允许根据任何指定分类等级进行搜索,尽管较高的分类等级需要大量时间加载。
- m/z:质荷比,一个物理量,用于对带电粒子进行详细检查。它是质谱研究的关键方面,该数据库高度关注这些数据。
相关性:KNApsAcK 与我们的课程相关,因为它允许比较对不同生物体重要的代谢物。一个尝试的示例搜索是查看蓝藻和植物用于光合作用的共同代谢物。
BRENDA
[edit | edit source]BRENDA 的开发者吹嘘它是科学界主要的功能性酶数据互联网存储库。这是一个极其强大的系统,它允许搜索超过 4000 种酶,并提供每种酶的综合信息,包括必不可少的反应图。
术语:
- ECTree:用于描述相关酶的 BRENDA 使用的大纲组织的术语。用户手册中氧化还原酶的 ECTree 示例图像
- TaxTree:TaxTree 是 BRENDA 用于按分类法搜索生物体的交互式显示。选择一个生物体或分类法名称后,将显示数据库中与之关联的所有酶。
- 子结构搜索:子结构搜索功能允许用户实际在骨架式中绘制酶结构的一部分。返回包含所绘制组件的所有酶。
- EC Explorer:一个搜索功能,允许用户通过多个标准访问酶信息,包括通用名称、反应,甚至历史。
- 系统名称:由酶委员会控制的酶命名风格。酶按四个数字进行分类,分别代表其主要类别、亚类别、子亚类别和序列号,这些数字之间用句点隔开。
相关性:该数据库的信息加强了课堂上的内容。课堂上的内容也是该数据库资料的基础。
Reactome
[edit | edit source]Reactome 是冷泉港实验室、欧洲生物信息学研究所和基因本体论联盟之间的合作项目,旨在提供一个经过整理的数据库,该数据库编目人类生物学中的核心途径和反应。Reactome 从其领域内的专家处获取信息,并由 Reactome 编辑团队进行交叉验证,该团队引用其他数据库,如 NCBI、Ensembl 和 UniProt。除了人类途径和反应外,Reactome 还包含来自 22 个非人类物种的推断数据,包括小鼠、大鼠、鸡、河豚鱼、蠕虫、苍蝇、酵母、两种植物和大肠杆菌。
Reactome 的当前版本允许按关键字搜索,但也允许更直观的搜索方法,允许研究人员查看数据库中存储的大部分数据的映射,并允许从顶层选择和放大反应。
术语
- Skypainter 工具:Reactome 提供的工具,允许用户上传蛋白质或基因标识符列表,为数据库生成的反应或通路图着色。
- 致病图:显示与疾病相关的已知基因的染色体位置的图表。
- Reactome 作者工具:用 Java 编写的桌面应用程序,用于将新数据输入 Reactome。使用图形界面,便于扩展或添加反应和通路。
- BioPAX:生物通路数据的通用交换格式的尝试。
- SBML:系统生物学标记语言;一种可计算机读取的格式,表示生化反应网络。
- PSI-MI:蛋白质组学标准倡议 - 分子相互作用;一种描述分子相互作用的标准化格式。
相关性:Reactome 数据库中存储的大量数据涵盖了我们在课程中涵盖的许多通路和反应,例如中间代谢和调节通路。与许多其他代谢组学数据库一样,它可以被认为类似于一本包含数千个关于代谢及其相关事件的条目教科书。
《京都基因与基因组百科全书(KEGG)通路数据库》是构成京都基因与基因组百科全书的众多小型数据库中的一个重要部分。通路数据库以其广泛的代谢通路集合及其对通路之间相互连接的处理而闻名,以及其他非代谢细胞相互作用。该数据库在将基因组、化学和系统功能信息整合到易于阅读的格式方面做得非常出色。
没有新的术语,请欣赏数据库的以下子部分列表。
- 1.1 碳水化合物代谢
- 1.2 能量代谢
- 1.3 脂质代谢
- 1.4 核苷酸代谢
- 1.5 氨基酸代谢
- 1.6 其他氨基酸代谢
- 1.7 糖类生物合成与代谢
- 1.8 聚酮化合物和非核糖体肽的生物合成
- 1.9 辅因子和维生素的代谢
- 1.10 次级代谢产物的生物合成
- 1.11 外源化合物的生物降解与代谢
数据库最近被开发为代谢组学资源。一些被设计为代谢组学资源的数据库旨在帮助进行相关研究的 MS 和 NMR 分析。这些特定数据库包括生物磁共振库 (BMRB)、麦迪逊代谢组学联盟数据库 (MMCD) 以及芝麻实验室信息管理系统的模块。
BMRB 包含超过 270 种纯化合物的实验光谱数据。每个分子条目包括五到六个一维和二维 NMR 数据集,以及化合物来源信息、溶液条件、数据采集协议和 NMR 脉冲序列。数据库条目可以通过名称、单同位素质量和化学位移进行访问。目前正在开发一个对该数据库的开放访问功能,该功能将允许用户贡献自己的数据,并为 BMRB 提供支持。
MMCD 包含超过 10,000 种代谢物的的信息,主要包括从拟南芥代谢物中收集的数据。用户可以进行包含 MS 和/或 NMR 光谱的查询。
芝麻实验室模块收集所有基于代谢组学的实验方案、背景信息和特定研究的数据。
文章链接
http://psb.stanford.edu/psb-online/proceedings/psb07/markley.pdf
总体概述:本文提供了开发 CellCircuits 的理由,CellCircuits 是一个开放获取数据库,专注于分子网络模型。该数据库涵盖了已通过计算推导并在已发表的期刊文章中发布的模型。本文解释了该项目的最终目标是弥合分子数据库之间的差距,即使是包含未经证实的数据的数据库,以及严格管制的通路数据库。本文的正文不仅探讨了 CellCircuits 的原理,还探讨了开发 CellCircuits 的计算过程以及一些分子网络模型的示例结果。
术语:
- GO 注解:GO 指的是基因本体论项目,该项目是一个跨多种数据库对基因进行通用描述的系统。CellCircuits 的开发人员已使用 GO 对跨数据库的基因进行比较评分。
- 数据处理管道:管道是用于将数据通过线程、脚本和过程,并通过软件元素链进行传递的构造。CellCircuits 使用管道从输入模型中提取文本信息以进行处理。
- MySQL:MySQL 是一种数据库管理系统,允许用户轻松设置多平台数据控制系统,并且非常流行于互联网应用程序,例如维基百科。CellCircuits 是用 MySQL 构建的。
- 评分模型:评分模型是指用于比较两组数据的系统。在 CellCircuits 中,评分模型与 GO 数据库一起使用来比较来自输入模型的基因集。
- Perl:Perl 是一种流行的程序式编程语言,大量借鉴了 C 语言。CellCircuits 的主要图形界面是用 Perl 编写的。
相关性:本文与我们的课程相关,因为它展示了将不断增长的代谢组学数据整合为科学界普遍可用的形式所涉及的令人眼花缭乱的复杂性。
总体概述 - 本文解释了 ProMEX 质谱库数据库的开发和使用。该不断扩大的数据库的目标是允许用户将未知样本与已知蛋白质的已确认质谱库进行比较。本文探讨了一些使这成为可能的理论和算法。
术语
- 元数据:一个常见的数据库术语,指的是对象的覆盖信息,而不是离散点。ProMEX 的开发人员使用它来指代实验结果和质谱参数的一致性。
- AGI 代码:1999 年开发的一种用于对基因进行分类的统一命名系统。AGI 代码引用了生物体、染色体编号、基因和基因 ID。关于最初创建拟南芥基因系统的决定的公告可以在以下网站找到:http://mips.gsf.de/proj/thal/db/about/agicodes.html
- LC-MS:液相色谱-质谱法是一种命名不够创意的数据收集过程,它将两种技术结合在一起,可以实现对特定化学物质的高度灵敏检测。ProMEX 的开发人员使用 LC-MS 来区分即使是密切相关的样本。
- CLR:公共语言运行时是 Microsoft 开发的一种虚拟机。它为各种平台上的软件程序提供了一个执行环境。ProMEX 的用于比较光谱的算法在 CLR 中运行。
阈值:在将未知用户提供的样本的质谱与数据库中的质谱进行比较时,阈值是指由于不认为匹配而忽略质谱匹配的点。
相关性 - ProMEX 与我们的课程相关,因为它展示了代谢组学领域发展速度之快。使用本文中描述的搜索算法,用户现在可以在快速且高度自动化的过程中从实验数据中识别未知蛋白质。
校正配体、代谢物和通路
[编辑 | 编辑源代码]总体概述 - 本文作者解释了他们的数据库 Biometa 的目标是提供一个示例,说明需要校正不准确的通路和化学结构。在最初开发该数据库后,他们想出了工具来验证其中包含的数据,方法是使用立体化学和化学计量结果,结果发现这些数据存在很高的错误率。本文解释了数据库和验证工具的创建过程,以及他们为进行校正所采取的步骤。
术语
- 外源物质:在生物体中可以实验或临床检测到的化学物质,这些化学物质通常不能在生物体内产生,或者在生物体内产生的浓度低于检测到的浓度。本文作者以外源物质为例,说明了代谢组学惊人的复杂性。
- 反应物和产物:虽然这些术语并不新鲜,但在 BioMeta 中的使用意义重大,因为作者有意避免使用“底物”一词,认为它不适合他们的目的,因为“底物”可以指酶的反应物或产物,而他们只对催化反应感兴趣。
- “模糊”同义词:为了解决命名不统一的问题,BioMeta 包含同义词表,识别化合物的常见名称或通路。如果初始搜索找不到同义词,它将被参考一个模糊同义词表,该表会删除非字母数字字符并将所有字母大写,以进行更宽松但仍是自动化的比较。
- ElemCount:ElemCount 是 BioMeta Compounds 数据表使用的一个字段,它涵盖化合物中每种元素的原始数量。可以进行搜索,指定最小或最大数量。
- Molfiles:Molfiles 是小分子化合物的微小结构描述,可以由开发人员的化学结构软件快速分析和验证。
- 规范化:将多个同义数据引用识别为单个引用的概念。开发人员使用的验证工具在大多数步骤中都大量使用规范化,以减少重复比较和错误报告。
相关性 - 本文与我们的课程相关,因为它解释了随着代谢组学数据量激增和增长速度不断加快,错误不可避免的逻辑必然性。作者提供了一些关于如何解决这个问题以及进行解决的必要性的见解。BioMeta 数据库的化合物查询窗口。
人类代谢组数据库 (HMDB) 建立于 2004 年,其明确的目标是像人类基因组计划解开我们遗传密码的奥秘一样,对人类的整个代谢组进行目录编制。本文涵盖了数据库中包含的信息,包括化合物描述、同义词、理化结构、疾病关联、通路信息以及核磁共振谱和质谱等;数据库中的每个条目都包含 90 个条目,其中填充了相关信息。本文还充当数据库的设计文档,详细介绍了数据库的构建方式,以便高效地进行搜索,并解释了数据库的质量控制和管理。
HMDB 建立在 MySQL 数据库之上,该数据库作为图形网页界面的后端。数据库中找到的原始文本通过特殊的 Perl 脚本转换为 HTML,这些脚本还会生成链接和图形。MySQL 数据库是称为 MetaboLIMS 的通用代谢组学 LIMS 系统的一部分,该系统利用 Java 处理输入和查询。
数据库的稳健性使研究人员能够从多个不同的角度进行搜索,包括通过化学结构、BLAST、单序列和多序列、MS 和 NMR 谱,以及通过 GLIMPSE 进行布尔文本搜索。
术语
- 生物标志物:可用于检测或测量疾病或治疗效果的生化特征。
- 医学信息学:信息科学的一个领域,主要涉及通过使用计算机对医学数据的分析和分发。这些数据可以应用于医疗保健和医学的不同领域。
- GLIMPSE:全局隐式搜索;一种用于搜索文件系统的索引和查询方案。
- SimCell:一种代谢模拟软件包,它在细胞水平上对复杂的代谢通路进行建模,并提供酶促过程的实时动画。这些动画还可以由软件包绘制成图表。
- 营养基因组学:研究食物如何与基因相互作用,从而增加慢性病的风险因素。
相关性:HMDB 中包含的信息可以通过我们迄今为止涵盖的所有课程进行追踪。HMDB 中包含的许多代谢物在教科书和课堂讲座中都直接讨论过。当然,这只是文本信息和本文之间的表面联系,因为 HMDB 和其他代谢数据库实际上涵盖了代谢世界的大部分,因为它们充当了存储所有过去和未来研究数据的存储库。
KEGG 数据库的创建旨在提供分子和遗传相互作用的示意图,以帮助理解生物系统。它的创建部分源于人类基因组计划的完成,作为一种将海量信息放在系统中适当位置的方式。KEGG 通过与 DBGET 工具集成连接到 DNA 和蛋白质数据库,该工具用于跨数据库进行搜索。
术语
- DBGET:一个集成的数据库检索工具,用于跨数据库进行搜索。
- GenomeNet:一个建立基因组研究和相关领域的网络框架的网络。
- Φx174:包含 11 个基因的小病毒基因组;第一个被测序的病毒之一。
- 超家族:对蛋白质进行分类的方案。
- 勃林格图表:经典的生物学通路图表。
相关性:KEGG 数据库只是数据库长链中的另一个条目,这些数据库总结了我们在课堂上学习的大部分代谢通路信息。
文章和网页供审查和纳入
[edit | edit source]植物生理学 141:1205-1218 (2006)