蛋白质组学/蛋白质鉴定 - 质谱/数据分析/解读
本节
一个质谱是分离化学物质集合的强度与质荷比的图。给定样品的质谱是该集合中组分的分布模式,无论原子还是分子,基于它们的质荷比。
图的X轴是质荷比,也称为(m/z),它是通过将离子的质量数除以其电荷数获得的量。对于飞行时间等质量分析仪,直接的X轴测量值是检测器测量的离子的时间序列。对于这些情况,必须使用已知标准校准光谱,才能将X轴从时间序列转换为m/z比。标准的值用于生成与飞行时间相关联的m/z比的方程式的参数。确定这些参数后,可以根据未知样品的飞行时间计算其m/z比。使用傅里叶变换离子回旋共振质谱仪,检测板收集的频率测量值在进行质量校准之前会进行快速傅里叶变换。
质谱的Y轴代表离子的信号强度,具有任意单位。在大多数质谱形式中,离子电流的信号强度并不准确地代表相对丰度,而是与之松散地相关。信号强度取决于某些因素,例如被分析分子的性质、它们的电离方式、缓冲液的相互作用以及样品的相互作用。
由于输出中起作用的限制和变量数量,样品有时可能难以分析。许多因素会影响质谱的解释方式,这些因素可能包括:偶电子与奇电子物种、正离子与负离子模式、完整蛋白质与片段肽离子等。
分辨率和峰高的基础取决于所用样品的量和质谱前完成的分离量。基于某些峰高和峰面积,可以确定结构。
并非所有质谱都能以相同的方式解释,因为可用的质量分析仪和电离方法的性质各不相同。例如,一些质谱仪将分析物分子分解成碎片;另一些则观察到几乎没有碎片的完整分子质量。基于质谱仪类型和所应用的特定实验条件,质谱可以代表许多不同类型的信息;然而,所有强度与质荷比图都被称为质谱。
从重复测量产生的数据中去除统计误差的过程称为归一化。在MS中,归一化技术用于去除肽样品中的系统偏差。这些偏差可能来自各种来源,包括蛋白质降解、测量误差和样本加载变化。MS数据中常用的归一化技术需要将数据从线性尺度转换为对数尺度。这样做可以使值符合正态分布,并降低用不太相关的蛋白质掩盖更相关蛋白质的可能性。
如上一节所述,有许多因素对从质谱实验中获得的数据进行有意义的解读至关重要。如果没有关于实验变量的这些元数据,很难使用质谱来生成评估。将此与质谱仪类型的差异相结合,报告标准的效用就出现了。
在关于微阵列实验的最低信息(MIAME)的脉络中,人类蛋白质组学组织蛋白质组学标准倡议开发了MIAPE MS,一种关于质谱中蛋白质组学实验的最低信息。该标准要求记录关于一般信息(如机器制造商和型号、ESI和MALDI的离子源变量、涉及的质量分析仪和检测器以及峰列表生成和标注中涉及的后处理)的元数据。除了质谱仪操作外,其他信号处理领域中常用的后处理方法通常应用于质谱,以生成更有用的光谱。
通过建立受控词汇表(CV)[1],已经做了进一步的工作来规范质谱数据的表达。由人类蛋白质组学组织在蛋白质组学标准倡议下开发,CV提供了一个本体,包含适用的术语和转换,它将通过规范用于描述的词汇来更好地控制质谱数据的表示。
精确时间标签法,简称 AMT,利用了 FTICR-MS 和 nanoLC 的高精度读数。来自这些技术的数据可以用于根据特定肽的分子量和保留时间形成独特的标签。这种技术假设在二维中存在足够的分离能力,以至于两个肽不太可能具有相同的质量和分离时间。因此,不太可能在对同一样本进行进一步分析时检测到具有与任何其他物种相同的质量和保留时间的新的物种。
决策树是广泛用于分析蛋白质组学数据的机器学习方法之一。从给定数据集生成,单个决策树通过其每个终端叶节点(分类器)报告分类结果。即使存在许多算法(例如 C4.5)可用于生成建模良好的单个决策树,但其预测仍然可能存在偏差,从而不利地影响其准确性。
为了克服这个问题,使用多个决策树来分析数据。它基于形成专家小组的概念,然后投票决定最终结果。专家小组类似于决策树集成,它提供了一组分类器。与投票类似,多数分类器成为数据的真实分类结果。正如 Ge 等人报道的那样,[1] 决策树集成比单个决策树更准确。
所示图表总结了使用 Bagging(bootstrap aggregating)算法生成决策树集成和对数据进行分类的过程。简要说明,Bagging 算法从原始数据集中随机抽样(有放回)以形成训练集。通常会生成多个训练集。请注意,由于允许替换,训练集中的数据可以重复。然后每个训练集生成一个决策树。对于给定的测试数据,每个决策树都预测一个结果,由一个分类器表示。决策树集成形成了一个专家小组,其投票决定来自这组分类器的最终分类结果。
虽然微阵列显著性分析 (SAM) 方法旨在用于识别差异基因表达,但最近它已被用于使用从液相色谱质谱法获得的数据识别差异蛋白表达。从 nanoLC/LTQ/FTMS 中获取的蛋白质组学数据通过 SAM 算法分析,揭示了可靠的数据,不仅与差异蛋白表达相关,而且在确定错误发现率方面也达到了以前标准蛋白质组学分析工具无法比拟的准确度水平。讨论了这种方法优于其他分析方法,例如,如果观察到 R 倍变化,则将基因识别为显著变化,以及基于如果在配对样本之间一致地观察到 R 倍变化,则表达的显著变化。此外,有关获取和使用 SAM 程序的信息可用(第 1.11.4 节)。
HUPO PSI 开发了这种 XML 格式,旨在将现有格式统一为报告峰列表信息的标准格式,称为 mzData。本质上,mzData 提供了一种标准方法来表示质谱实验的峰值数据,并建立正确解释光谱所需的根本参数,例如负离子或正离子光谱,以及其他基础信息。
这种数据格式由系统生物学研究所的西雅图蛋白质组学中心开发,在展示 MS 数据的最低要求方面与 mzData 类似,但存在几个关键差异,使其成为 MS 数据的首选文件格式 [2]。存在许多转换器和翻译器,允许从各种主要质谱仪(包括 Waters、Thermo、Bruker、MDS、Agilent 和 ABI)进行无处不在的数据传输。基于与 mzXML 相同的数据结构,prepXML(也由西雅图蛋白质组学中心生成)是一种数据格式,它已经出现以模拟从 MS-MS 实验生成的蛋白质测序数据。其他仅用于蛋白质和肽数据的格式,例如 protXML(西雅图蛋白质组学中心),存在于蛋白质 MS 实验的特定目的表示中。
HUPO-蛋白质组学标准计划在蛋白质组学数据(特别是质谱数据)标准化方面取得的持续进展导致开发了一种新的统一质谱数据格式,称为 mzML。简而言之,这种数据格式试图将质谱实验设计以及产生的峰值信息的现有标准结合起来。
- ASMS - 质谱的特征是什么?, http://www.asms.org/whatisms/p5.html
- 安捷伦科技 质谱解释 - 光谱
- McLafferty, F. W. 和 Turecek, F.,质谱解释,大学科学书籍;第 4 版(1993 年 5 月) ISBN 0935702253
- Zimmer JSD, Monroe ME, Qian WJ, Smith RD,使用精确质量时间标签法进行蛋白质组学数据分析和显示的进展。质谱评论。25(3):450-482 (2006)
Stephen J. Callister 等人。J Proteome Res. 卷:5(2) 227-286 (2006)[2]
主要重点
重点是尝试找到一种技术,对质谱数据进行统计归一化,以便可以对其进行有意义的分析。
总结
在查看质谱 (MS) 数据时,即使运行重复样本,结果也永远无法复制。因此,需要一种方法使结果具有可比性。由于结果的差异可能与偏差和噪声有关,除了生物学变化之外,还会导致无关的变异,因此归一化技术是必要的。在三个不同的样本集中(标准蛋白,早期对数生长期D. radiodurans样本和静止生长期样本,以及对照小鼠的纹状体脑样本和甲基苯丙胺应激小鼠的纹状体脑样本)测试了微阵列分析中常用的四种不同的归一化技术(中心趋势、线性回归、局部加权回归和分位数技术),这些样本集显示出不同的蛋白质复杂度水平。
尽管所有技术都至少在一定程度上减少了系统性偏差,但由于不同技术获得的结果之间没有明确的趋势,因此这些技术还不能用于归一化 MS 数据;但是,这项研究为开发适当的归一化技术提供了指导。
新术语
- 偏差
- 实验、样本制备或仪器中系统误差引起的变异(http://www.onesmartclick.com/exams/statistics-bias.html)
- 噪声
- 实验、样本制备或仪器中随机误差引起的变异
- 中心趋势
- 这种技术将肽的丰度围绕平均值或其他常数进行居中,以调整独立的系统性偏差(http://cnx.org/content/m10942/latest/)
- 局部回归
- 假设系统性偏差不与肽的丰度线性相关的技术(http://www.biostat.jhsph.edu/~ririzarr/Teaching/754/section-03.pdf)
- 分位数
- 最初设计用于与多个高密度阵列一起使用的非参数统计方法(http://mathworld.wolfram.com/Quantile.html)
课程相关性
质谱 (MS) 是蛋白质组学的主要工具之一,因为它提供了一种方法来获取样本中单个蛋白质丰度的测量值。由于蛋白质组学的目标是在不同条件下获取不同表达蛋白丰度的测量值,因此 MS 是一种强大的工具。
Zimmer JSD, Monroe ME, Qian WJ, Smith RD Mass Spectrom Rev. 25(3):450-482 (2006)
主要重点
蛋白质组学技术的最新进展提供了能够实现高效率和高通量蛋白质组学分析的工具。这些工具,特别是纳米LC-FTICR-MS以及必要的数据处理和管理工具,是本文的重点。
总结
虽然蛋白质组学领域相对较新,但已有30年的技术可以应用于这些新的蛋白质组学问题。这些技术,例如傅立叶变换离子回旋共振质谱 (FTICR-MS),提供了识别物种以及广泛的动态范围所需的高灵敏度和高质量测量精度 (MMA)。FTICR-MS 非常适合“自上而下”和“自下而上”的蛋白质组学,因为它可以根据母离子质量以及片段模式确定蛋白质/肽的特性,从而可以处理非常复杂的肽混合物。除了高通量技术生产方面的困难之外,收集数据的管理也存在问题。使用高性能 FTICR-MS 进行的单一实验通常会产生一个 10 GB 的原始数据文件,对于存储任何大量数据来说都太大了。使用利用样本中检测到的新物种在对同一系统进行额外分析时被检测到的低统计概率的技术。使用欧几里得距离在 n 维空间中进行聚类可以生成独特的质量类别,从而减少冗余。由于 LC-MS 数据的可靠性不可靠,因此需要聚类。通常,洗脱时间会发生变化,并且在同一肽的多次运行之间会有所不同,而人们会期望得到相同的结果。这些变化是由于流速、温度、色谱柱填充的差异以及污染造成的。这些相同的问题也会加剧数据集标准化的过程。样品制备是蛋白质组学分析中的一个关键步骤,可能非常困难。蛋白质浓度会随着环境的细微变化而发生很大变化。已经开发了许多此类技术,例如用于定量分析的固相同位素编码亲和标签 (SPICAT),以及消化后胰蛋白酶催化的 16O/18O 标记,该标记的优势在于所有类型的样品都可以以这种方式进行标记,用于高通量实验的定量半胱氨酸肽富集技术 (QCET)涉及哺乳动物细胞。每种技术都有其自身的局限性,正在采取措施克服这些局限性。此外,已经开发了方法来扩展动态范围并最大限度地减少样本中丰度高的物种产生的噪声。应用于质谱法的动态范围增强 (DREAMS) 有助于实时检测生物学意义重大且相对丰度低的物种。目标或数据驱动的 LC-MS/MS 可以关注两个样本之间丰度发生显着变化的蛋白质子集,而多路复用 MS/MS 提供了一种提高蛋白质组学测量速度和灵敏度的方法。这些技术已在广泛的应用中得到深入研究,并且正在调整现有技术,以更好地理解需要这些蛋白质存在或相对丰度发生变化的生物过程。
新术语
- 欧几里得距离
- 两点之间的直线距离。在具有 p1 (x1, y1) 和 p2 (x2, y2) 的平面上,它是 √((x1 - x2)² + (y1 - y2)²)。( http://www.itl.nist.gov/div897/sqg/dads/HTML/euclidndstnc.html )
- 归一化
- 识别和消除系统效应的过程。( http://www.absoluteastronomy.com/topics/Normalization_(statistics) )
- 傅立叶变换离子回旋共振质谱 (FTICR-MS)
- 一种用于确定离子质荷比 (m/z) 的质量分析仪(或质谱仪),基于离子在固定磁场中回旋的频率。(http://www.ncbi.nlm.nih.gov/pubmed/9768511?dopt=Abstract)
- 洗脱
- 用溶剂洗涤从另一种物质中提取一种物质的过程,以去除吸附在吸附剂上的物质。(http://wordnetweb.princeton.edu/perl/webwn?s=elution)
- 聚类
- 数据聚类或无监督学习的目标是在一组模式、点或对象中发现“自然”分组,而无需事先了解任何类标签。(http://dataclustering.cse.msu.edu/)
课程相关性
- 对于分析大型数据集(如蛋白质组)来说,效率高且通量高的技术是必不可少的。没有这些工具,蛋白质组的分析将过于缓慢。
Ge G, Wong GW. BMC Bioinformatics 9:275 (2008)
主要重点
为了比较几种基于决策树的机器学习算法的性能,Ge 等人对从癌前胰腺癌研究中获得的质谱数据进行了一系列统计分析。发现分类器集成技术在识别癌症生物标志物的一致性和数据分类的准确性方面优于单一算法对应方法。
总结
在本文中,Ge 等人报告称,使用决策树集成技术而不是单一算法对应方法,可以提高识别癌前胰腺癌生物标志物的性能。这些技术已被证明更有可能准确地区分疾病类别和正常类别,如接收者操作特征曲线下的较大面积所示。此外,它们实现了相对较低的均方根误差。
根据他们的方法,首先对肽质谱数据进行处理以提高数据完整性并减少由于样品加载条件差异导致的数据差异。预处理步骤包括使用组中位数进行基线调整、使用高斯核进行平滑以去除噪声,以及进行归一化以使所有数据具有可比性。之后,对数据进行随机抽样,使 90% 形成训练集,剩余的 10% 形成测试集。
训练集用于特征选择。在研究中,作者考虑了三种不同的特征选择方法。第一种方法是双样本同方差 t 检验,该检验是在所有来自正常或疾病类别的特征都服从正态分布的假设下使用的。与第一种方法不同,第二种方法基于 Wilcoxon 等级检验,该检验认为特征没有分布。最后的特征选择方法是遗传算法。
测试集用于生成单个决策树,包括决策树集成。正在研究的集成方法包括随机森林、随机树、Bagging、Logitboost、Stacking、Adaboost 和 Multiboost。它们的性能是根据每种选择方法选择的特征的分类准确性和误差来衡量的。然后,将它们与使用 C4.5 算法生成的单个决策树的性能进行比较。该过程重复十次以验证结果的性能一致性。
根据报告的结果,决策树集成无论使用哪种特征选择方法,都实现了高达 70% 的更高准确率。在生物标志物识别方面,t 检验和 Wilcoxon 等级检验都具有类似的出色性能,始终选择相同的生物标志物嫌疑特征。与前两种方法不同,遗传算法的性能明显较差。Ge 等人还注意到,70% 的准确率仍然低于预期。这可能是由于癌症癌前阶段生物标志物的天然浓度较低。此外,也可能一个数据集可能不适合所有算法,因此低估了准确性。
新术语
- 生物标志物
- 可用于区分异常过程与正常过程,或疾病与状况的生物分子。它们也可以用作特定过程(如药物相互作用)的指标。这些生物分子通常存在于血液、其他体液或组织中。( http://www.cancer.gov/dictionary/?searchTxt=biomarker )
- 接收者操作特征曲线
- 二元分类器系统对不同阈值的灵敏度与 1-特异性的图形化图。( http://en.wikipedia.org/wiki/Receiver_operating_characteristic )
- 高斯核平滑
- 通过应用高斯函数对数据点进行平均的过程。基本上,高斯函数用于生成一组用于数据点的归一化加权系数,这些系数的加权和生成一个新值。该新值将替换高斯曲线中心处的旧值。( http://imaging.mrc-cbu.cam.ac.uk/imaging/PrinciplesSmoothing )
- 同方差
- 一个随机变量序列或向量,所有随机变量具有相同的有限方差(http://en.wikipedia.org/wiki/Homoscedasticity)
- C4.5 算法
- 一种用于从一组训练数据(一组分类样本)生成决策树的算法(http://en.wikipedia.org/wiki/C4.5_algorithm)
课程相关性
- 本文介绍的特征选择方法和决策树集成方法为蛋白质组学领域的质谱数据分析提供了一种有趣的方法。
蛋白质组学中 LC/MS 数据相对定量显着性分析
[edit | edit source]Li Q, Roxas BAP. "蛋白质组学中 LC/MS 数据相对定量显着性分析" BMC 生物信息学 9:187 (2008)6
主要重点
微阵列显着性分析 (SAM) 方法通常用于 DNA 微阵列分析以识别差异基因表达,也可以用于识别差异蛋白表达。这种分析方法比通常用于此目的的传统测试更准确地识别假阳性结果。
总结
微阵列显着性分析 (SAM) 方法由斯坦福大学的研究人员开发,用于分析微阵列中的基因,以识别差异表达(统计学上)的基因并获得准确的错误发现率统计数据。在“蛋白质组学中 LC/MS 数据相对定量显着性分析” (Li 等人) 中,SAM 方法被应用于从 nanoLC/LTQ/FTMS 中获取的蛋白质组学数据,以确定生物样本中蛋白质的差异表达。SAM 也用于确定和估计错误发现率以及漏报率。然后,将 SAM 结果与从更传统的蛋白质组学分析工具(如传统 t 检验和倍数变化)获得的结果进行比较。用于测试分析技术的生物系统涉及在 pH5 和 pH7 条件下培养耻垢分枝杆菌,并寻找这两种条件下蛋白质表达的差异。他们比较了蛋白质丰度,并关注蛋白质表达的变化以及假阳性率。分析似乎表明,与 t 检验相比,SAM 方法可以更准确地“锁定”假阳性,使其成为更准确的测试,并允许以 5% 的假阳性率识别蛋白质变化。下图包含数据,显示使用 SAM 发现了更多差异表达的蛋白质,同时保持较低的假阳性率。
新术语
- nanoLC/LTQ-FTMS
- 这代表纳米液相色谱/线性离子阱-傅里叶变换质谱。这种类型的质谱分析结合了从 nanoLC 获得的高质量和可重复数据,以及线性离子阱四极杆的强大功能,以及傅里叶变换分析的准确性。这是一个非常强大的蛋白质组学工具。(https://products.appliedbiosystems.com/ab/en/US/adirect/ab?cmd=catNavigate2&catID=601452&tab=DetailInfo)
- t 检验
- 一项统计检验,涉及具有未知标准差的正态总体均值;使用小样本,基于变量 t 等于样本均值与总体均值之差除以通过将样本标准差除以样本中个体数量的平方根而获得的结果。(http://www.answers.com/topic/t-test)
- DNA 微阵列
- 分子生物学中使用的一种多重检测程序。数千个短片段的 DNA 称为寡核苷酸被放置在显微镜斑点上,然后可以暴露于探针,探针可能或可能不与它们结合,具体取决于序列。它们可用于测量 DNA 表达的变化。(http://en.wikipedia.org/wiki/DNA_microarray)
- 蛋白质表达
- 衡量生物系统中哪些蛋白质已被翻译并因此存在于细胞中。这包括翻译后修饰的蛋白质。(http://www1.qiagen.com/about/Press/Glossary.aspx)
- 生物标志物
- 发现对相关生物条件(如疾病)具有生物学意义的蛋白质。生物标志物在药物发现中非常重要。(http://www1.qiagen.com/about/Press/Glossary.aspx)
课程相关性
- 在蛋白质组学数据解释中使用微阵列显着性分析 (SAM) 方法是一种解决 LC 数据分析准确性问题的新方法。如果可以准确识别假阳性结果,那么研究人员可以专注于那些被正确表征为在两组条件之间表达发生变化的蛋白质。这将使生物标志物的发现更容易。
应用于电离辐射反应的微阵列显着性分析
[edit | edit source]Tusher VG., Tibshirani, R., Chu G., 应用于电离辐射反应的微阵列显着性分析,美国国家科学院院刊 98:5116-5121 (2001)3
主要重点
讨论了 SAM 分析方法及其对给定数据集的有效性。还讨论了该分析方法优于其他方法的优势。
总结
DNA 微阵列能够在一个实验中测量数千个基因的表达。它们经常用于识别基因在多种不同条件下的任何表达变化。鉴于这些实验产生了大量数据,必须开发系统来分析为任何实验显着性而生成的数据。“应用于电离辐射反应的微阵列显着性分析”的作者描述了一种称为 SAM 的方法。该方法根据每个基因的表达变化与重复测量的标准偏差相比,为每个基因提供一个评分。该系统还提供了错误发现率的估计。在本文中,作者解释了 SAM 方法如何得出这些评分背后的算法以及确定错误发现率背后的数学原理。SAM 在作者收集的数据集上进行了测试,其有效性通过 Northern 印迹进行了检查。作者讨论了 SAM 及其优于其他识别实验显着性方法的优势。这些方法包括识别基因,如果观察到 R 倍变化,则基因被认为发生了显着变化,并且根据在配对样本之间是否始终观察到 R 倍变化来声明表达发生了显着变化。SAM 被证明优于所讨论的其他方法3。
SAM 背后的算法根据表达数据的排列分析计算基因表达的相对差异,并为这些变化提供一个分数。它还计算错误发现率。用于根据每个基因的表达变化(如果有)计算每个基因的评分的算法如下所示
新术语
- SAM
- 微阵列显着性分析;一种用于确定基因表达变化是否具有实验显着性的统计分析。(http://en.wikipedia.org/wiki/Significance_analysis_of_microarrays)
- 错误发现率 (FDR)
- 偶然错误识别的基因百分比。(http://www-stat.stanford.edu/~tibs/SAM/pnassam.pdf)
- DNA 微阵列
- DNA 微阵列在分子生物学和医学中都有应用。它们由一系列以高度有序的方式排列的数千个 DNA 寡核苷酸斑点组成,可用于测量表达水平的变化,检测单核苷酸多态性,或重新测序突变基因。(http://en.wikipedia.org/wiki/DNA_microarray)
- Northern 印迹
- Northern 印迹是一种通常用于微生物学的技术,可以通过观察感兴趣样品中的 RNA 或分离的 mRNA 来研究基因表达。该技术允许通过确定分化、形态发生以及异常或疾病条件下的特定基因表达水平来观察细胞对结构和功能的控制。(http://en.wikipedia.org/wiki/Northern_blot)
- 电离
- 通过添加或去除带电粒子将原子或分子转化为离子的过程。(http://en.wikipedia.org/wiki/Ionization)
- 离子
- 由于添加或去除电子而带正电或负电的原子或分子。(http://en.wikipedia.org/wiki/Ion)
- R 倍变化
- 这是一个评估组均值差异的数值。(http://strimmerlab.org/software/st/html/diffmean.stat.html)
课程相关性
- 这种以前用于分析 DNA 微阵列的方法现在正被应用于蛋白质组学数据。
Kalousis A. http://cui.unige.ch/AI-group/research/massspectrometry/massspectrometry.htm (2009年3月28日)
主要重点
作者描述了在蛋白质组学数据用于生物标志物分类之前,质谱谱分析中必要的信号调节步骤。
总结
从该网站中,作者描述了用于提高质谱数据完整性和降低其高维性的信号调节步骤。这些步骤包括使用统计技术来排除处理矩阵的影响,去除噪声,最大程度地减少实验条件引起的數據变化,以及减少数据集中的冗余。
首先应用基线去除以去除由通常用于蛋白质样品结晶的处理矩阵引起的數據偏移。根据该网站,该步骤中使用了加权二次拟合。然而,并非所有矩阵的影响都能消除。有些仍然存在,并以噪声的形式与机器本身的电噪声相加。为了减轻噪声的影响,使用了降噪和平滑技术。作者报告说,为了这个目的,应用了小波分解和中值滤波。然后对光谱数据进行归一化,以将数据与实验条件分离。此过程有助于减少数据之间的差异。
在接下来的步骤中,使用峰值检测技术来消除数据的空间冗余。从概念上讲,它在两个相邻最小值之间指定范围内选择峰值强度的质荷比值来表示该范围内的數據。然后,对选定的光谱数据进行校准,使得具有相同光谱特征的数据被聚类在一起。这些聚类被称为选定特征,它们被机器学习算法用于生物标志物的分类。
新术语
- 基线去除(或基线拟合)
- 一种去除光谱数据偏移段的方法,以便可以在相同基础上对数据进行进一步分析。通常,该技术是将曲线拟合到该偏移段,然后从原始数据中减去曲线上的值。结果,新的光谱数据将具有平坦的底座。(http://www.gb.nrao.edu/~rmaddale/140ft/unipops/unipops_7.html)
- 加权二次拟合
- 一种曲线拟合技术,它使用二次函数来拟合原始数据的加权版本。通常,权重因子来自常规二次拟合产生的误差。通过考虑此误差,可以获得更好的拟合。(http://class.phys.psu.edu/p559/experiments/html/error.html)
- (正交)小波分解
- 一种信号分析技术,它使用特定的有限基函数来拟合信号,并生成一系列时变系数。分解产生一组正交信号。每个信号反映了原始信号在给定时间的局部变化。(http://www.tideman.co.nz/Salalah/OrthWaveDecomp.html)
- 中值滤波器
- 一种去除噪声或数据的标准差明显大于给定数据集的方法。考虑一个包含 2n + 1 个数据点的窗口。中值滤波器将第 (n + 1) 个数据点替换为此窗口中的中值。如果第 (n + 1) 个数据看起来像是超出范围的噪声,则此过程会将其去除。(http://fourier.eng.hmc.edu/e161/lectures/smooth_sharpen/node3.html)
- 机器学习算法
- 计算机使用的一系列指令,使计算机能够自适应地提高其预测结果的计算性能和效率,基于它正在收集的数据库。(http://en.wikipedia.org/wiki/Machine_learning)
课程相关性
- 该网站讨论了与从质谱获得的数据相关的問題,以及如何克服这些问题。它指出了为什么质谱数据需要进行处理,以及如何在数据能够用于分析之前进行处理。这为蛋白质组学课程中的质谱研究引入了另一个重要方面。
主要重点
Gilbert Chu 博士和 Robert Tibshirani 博士正在尝试创建蛋白质分析工具/程序,这些工具/程序将整合蛋白质水平和翻译后修饰以及蛋白质相互作用等变量,以从蛋白质组学数据中获得更多可用的信息。
总结
该网站提供了有关 Gilbert Chu 博士和 Robert Tibshirani 博士进行的蛋白质组学分析研究的信息。该网站包括 Chu 和 Tibshirani 的出版物(书籍和期刊文章),以及两位教授的实验室简介。概述简要介绍了分离和分析蛋白质组学数据的挑战和益处,以及如何将其与基因表达数据合并以获得有关生物系统的全新信息。网站上的软件部分提供了对四种不同类型的蛋白质组学分析软件的访问权限,包括微阵列显着性分析 (SAM)、微阵列预测分析 (PAM)、微阵列实验室统计分析和峰值概率对比 (PPC)。该网站还提供了两位教授的传记背景以及他们目前正在追求的研究兴趣。这些兴趣包括阐明一种方法,通过分析血清血样中表达的蛋白质来诊断自身免疫性疾病(例如系统性红斑狼疮)。
新术语
- PPC
- 峰值概率对比 - 这是一款用于蛋白质 MS 数据的类别预测软件。它通过获取每个类别都分配有强度水平的显着峰值列表来实现这一点。它可以比较和对比数据的强度水平以预测类别并生成假阳性率。原始光谱或提取的峰值都可以输入到此程序中。(http://proteomics.stanford.edu/chu/software.html)
- PAM
- 微阵列预测分析 - 这是一款从抗体反应数据进行样本分类的程序,以提供显着基因的列表,这些基因的表达特征化每个样本组。该软件可以与 cDNA 或寡核苷酸微阵列一起使用。(http://proteomics.stanford.edu/chu/software.html)
- cDNA
- 互补 DNA - 这是一种单链 DNA,通过使用信使 RNA 模板的反转录酶逆转录而成。它与 mRNA 互补。(http://en.wikipedia.org/wiki/Complementary_DNA)
- 自身免疫性疾病
- 当身体的免疫系统将自身的正常组织误认为外来组织时,就会发生这种情况,因此会启动免疫反应攻击该组织。已知的自身免疫性疾病超过 80 种。(http://www.medterms.com/script/main/art.asp?articlekey=2402)
- SLE
- 系统性红斑狼疮 - 这是一种自身免疫性疾病,通常被称为狼疮。自身免疫反应在包括心脏、关节、皮肤、肺、血管、肝脏、肾脏和神经系统在内的各种组织中引起炎症(急性炎症和慢性炎症)。大多数死亡原因是肾衰竭,10 年生存率为 80%。(http://www.medicinenet.com/systemic_lupus/article.htm)
课程相关性
- 该网站提供了信息和多个分析软件程序的访问权限,这些程序可用于分析蛋白质组学数据
主要重点
简要介绍 FTICR/MS 机器各部分及其与其他形式 MS 的区别。
总结
傅里叶变换质谱是一种近年来备受关注的技术,它能够提供生物分子质量和分辨率信息,其水平高于许多其他质谱形式。作为一种离子阱质谱技术,它在收集离子的技术上独树一帜,正是由于这个原因,它能够比其他质谱形式更准确地进行测量。虽然 FTICR 的主要理念最早是在 20 世纪 30 年代提出的,但直到 20 世纪 70 年代后期,傅里叶变换技术才被应用于 ICR 技术。从那时起,这种技术迅速普及,也越来越容易获得。虽然 FTMS 机器有很多种,但它们都包含四个基本部分,这些部分是其正常运行所必需的。首先是磁体,它对机器的性能有显著影响,更强的磁体可以产生更好的结果。正是由于这个原因,人们一直在努力研制更强更强的磁体。其次是用来储存离子的细胞,也是离子被检测和分析的地方。可以使用两种类型的细胞:立方细胞,由六个磁性板以立方体形状排列而成,因此得名;以及开放式圆柱形细胞,其工作原理与立方细胞类似,但使用六个电极。第三个特点是真空系统,这是所有质谱仪的必要组成部分,对于 FTMS 仪器的正常和准确运行尤为重要,但这种真空只有在离子被检测到阱中时才需要。系统的最后部分是数据系统。该系统的几个组成部分,包括一个计算机来监控和分析所有其他组件和数据,在过去的十年中都得到了质量上的提升,同时其计算机性能也得到了提高。
新术语
- 离子阱
- 能够将单个到数百万个原子离子长时间地隔离在外部世界之外的能力 (http://jila.colorado.edu/pubs/thesis/king/ch2.pdf)
课程相关性
- FTICR/MS 由于其能够准确识别肽和蛋白质产物,因此在蛋白质组学领域是一种流行的工具。
SAM:微阵列显著性分析
[edit | edit source]主要重点
该网站提供了有关斯坦福大学开发的 SAM 程序的具体信息。它包括有关下载和使用该程序的链接,以及有关其背景和算法的信息。
总结
该网站专门用于 SAM 程序。它包括有关程序工作原理(其背后的算法)以及它与其他分析程序的不同之处的信息。它提供了指向说明手册的链接。他们列出了该程序的功能,以及指向可能与该程序一起使用的其他附加功能(例如 Excel 加载项)的链接。还提供了一个常见问题解答部分,以回答最常见的问题。除了有关如何获得许可的信息(如果需要)之外,还提供指向下载 SAM 程序的链接。大多数用户只需在相应的网站 (http://www-stat-class.stanford.edu/~tibs/clickwrap/sam.html) 注册即可下载该程序,但如果 SAM 用于商业用途,则需要更正式的许可。此外,该网站会随时更新有关 SAM 的任何更改以及新版本发布的信息。
新术语
- PAM
- 微阵列预测分析;SAM 网站提供的另一个系统,用于基因表达的类别预测和生存分析,以及数据挖掘。该系统根据基因表达数据进行样本分类。( http://www-stat-stanford.edu/~tibs/PAM/index.html )
- 算法
- 通常以明确的、逐步的程序形式呈现的一组有限的指令,用于解决问题。它通常用于计算和数据处理。( http://en.wikipedia.org/wiki/Algorithm )
- 两类(非配对)组
- 两组测量值,其中两个组中的实验单位都不同。( http://www-stat-stanford.edu/~tibs/SAM/sam.pdf )
- 多类
- 有两个以上的组,每个组包含不同的实验单位。( http://www-stat-stanford.edu/~tibs/SAM/sam.pdf )
- 归一化
- 这是一种系统化的方法,用于确保数据库能够执行通用查询,并且这些查询不会因插入、更新或删除任何异常而导致不希望的结果,这些异常会导致数据质量下降。( http://en.wikipedia.org/wiki/Database_normalization )
课程相关性
该网站提供了有关 SAM 程序的更多信息,该程序现已用于蛋白质组学研究。它还提供了下载 SAM 的权限。
微阵列数据分析指南(意见)
[edit | edit source]http://www.bea.ki.se/staff/reimers/Web.Pages/Microarray.Home.htm (3/29/09)
主要重点
总体而言,该网站提供了有关微阵列数据分析中常见问题的相关信息,并提出了解决这些问题的建议。其中一些解决方案采用归一化技术的形式。
总结
该网站共分为 11 个部分,分别为:实验设计、分布和转换、归一化方法、斑点阵列的质量控制、斑点阵列的归一化、质量控制、归一化、丰度估计(将来自多个探针的数据组合在一起以获得单个估计的方法)、图形、聚类和统计显著性——这些部分解释了一些人用来解决分析微阵列数据时出现的一些问题的不同技术。前三个部分介绍了在所有类型的微阵列分析中出现的问题。该网站简要解释了所涵盖的概念,然后继续讨论它们的优缺点。接下来五个部分分别讨论了这些概念在双色 cDNA 斑点微阵列和 Affymetrix 阵列中的具体应用。在质量控制部分,该网站介绍了一些基本的控制措施,这些措施应在进行实验之前牢记,以便减少系统偏差。虽然数据的归一化将解释一些偏差,但它不一定能捕捉到所有偏差,因此最好避免引入偏差。最后一段讨论了适合微阵列数据的不同统计方法,另外两个部分讨论了人们用来可视化数据以供人工分析的不同方法。
新术语
- p 值
- 在零假设为真的情况下,从实验中获得的结果有意义的概率 (http://www.childrensmercy.org/stats/definitions/pvalue.htm)
- Bonferroni 校正
- 一种用于防止来自多个比较检验的结果被错误地认定为统计显著性的方法 (http://www.utdallas.edu/~herve/Abdi-Bonferroni2007-pretty.pdf)
- Sidak 校正
- 另一种校正方法,它比 Bonferroni 校正不那么严格,允许更大的机会将某件事认定为统计显著性 (http://www.utdallas.edu/~herve/Abdi-Bonferroni2007-pretty.pdf)
- Lowess 曲线(局部加权线性回归曲线)
- 一条通过各点绘制的平滑曲线,通过对值进行局部加权线性回归计算得出 (http://www.itl.nist.gov/div898/software/dataplot/refman1/ch3/lowess_s.pdf)
- t 检验
- 一种统计假设检验,如果零假设为真,则遵循学生 t 分布 (http://www.socialresearchmethods.net/kb/stat_t.php)
课程相关性
用于蛋白质组学的大多数归一化技术最初被发现对微阵列数据有用,因此,在进行实验设计时,了解微阵列数据分析中出现的问题可能会有用。
备注
[edit | edit source]- ↑ Ge G, Wong GW. "使用决策树集成对癌前胰腺癌质谱数据进行分类" BMC 生物信息学 9:275 (2008).
- ↑ Stephen J. Callister 等人 (2006). "Normalization Approaches for Removing Systematic Biases Associated with Mass Spectrometry and Label-Free Proteomics". J Proteome Res. 5 (2): 227–286. doi:10.1021/pr050300l. PMID 16457593.
{{cite journal}}
:|access-date=
requires|url=
(help); Explicit use of et al. in:|author=
(help)
参考文献
[edit | edit source]1 - Ge G, Wong GW. "Classification of premalignant pancreatic cancer mass-spectrometry data using decision tree ensembles" BMC Bioinformatics 9:275 (2008).
2 - Stephen J. Callister 等人 (2006). "Normalization Approaches for Removing Systematic Biases Associated with Mass Spectrometry and Label-Free Proteomics" J Proteome Res. 5(2): 227–286. (http://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=1992440)
3 - Tusher, V. G., R. Tibshirani, 等人. "Significance Analysis of Microarrays Applied to the Ionizing Radiation Response." PNAS 98:5116–5121 (2001).
4 - Kalousis A. "Mass spectrometry data mining for early diagnosis and prognosis of stroke" http://cui.unige.ch/AI-group/research/massspectrometry/massspectrometry.htm (28 March 2009)
5 - Zimmer JSD, Monroe ME, Qian WJ, Smith RD Mass Spectrom Rev. 25(3):450-482 (2006) Advances in Proteomics Data Analysis and Display Using an Accurate Mass Time Tag Approach (http://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=1829209)
6 - Li Q, Roxas BAP. "Significance Analysis of Microarray for Relative Quantitation of LC/MS Data in Proteomics" BMC Bioinformatics 9:187 (2008)