蛋白质组学/蛋白质芯片/算法

应用	蛋白质芯片	在线资源
	算法

算法

介绍

蛋白质芯片产生的大量数据需要进行分析。查看每个数据点会非常耗时，因此将统计方法应用于数据集。分析包括使用统计算法来找到蛋白质表达之间的相似性。将相似蛋白质归类在一起称为数据聚类。数据聚类是一种强大的方法，用于识别群体中的个体。

距离

聚类是通过两个数据元素之间距离的相似性来完成的。最靠近的元素将被分组到同一个聚类中。根据数据集，可能会使用不同的距离函数。在已发表的研究中，最常见的距离函数是欧氏距离函数。欧氏距离是最直接的方法。它可以与用尺子测量两点之间的直线距离相比较。欧氏距离方程可用于 n 维数据集。这使其在研究中非常通用。

n 维欧氏方程是

 : ${\sqrt {(p_{1}-q_{1})^{2}+(p_{2}-q_{2})^{2}+\cdots +(p_{n}-q_{n})^{2}}}={\sqrt {\sum _{i=1}^{n}(p_{i}-q_{i})^{2}}}.$

p_n = 点 p 的 n 维。

q_n = 点 q 的 n 维。

层次聚类

层次聚类是指使用先前定义的聚类来确定新聚类。层次算法可以是凝聚算法或分裂算法。凝聚算法从每个数据元素作为单独的聚类开始，然后使用算法将它们排序成具有相同相似性的较大聚类。分裂算法的作用完全相反。它从数据集作为单个聚类开始，然后将较大聚类划分为较小的聚类。

连接

术语连接是指两个不同聚类中两个点之间的距离。计算距离的方式决定了使用哪种连接。以下所有类型的连接都适用于层次聚类。

单连接是在层次聚类中两个不同数据聚类中最接近的成员之间的距离。

全连接与单连接相反，因为它计算两个不同聚类中两个成员之间的最大距离。这在需要紧凑的聚类时很有用。

平均连接取两个聚类之间的平均距离。它也被称为使用算术平均值(UPGMA)的非加权对组方法。这种方法是最计算密集的。

划分聚类

划分聚类一次找到所有聚类。

自组织映射

自组织映射 (SOM) 最适合用于分析高维数据。SOM 可用于降低数据的维数，以便对其进行可视化。它由一个训练部分和一个映射部分组成。训练部分使用样本输入构建地图。映射部分识别新的数据向量，并根据训练算法将其放置在地图中。SOM 由具有关联权重向量的节点组成。权重分配以小的随机值，或者可以从主成分特征向量中采样。使用特征向量会产生更好的地图，因为权重将已经具有良好的近似值。权重向量与输入向量的维数相同。通过找到与之最接近的权重向量的节点并将其节点的坐标分配给向量，来放置新的数据向量。欧氏距离用于确定最近的邻居。如果已知特定蛋白质，并且想要查看是否有任何类似的蛋白质，SOM 最适合用于蛋白质芯片分析。

自组织映射的示例。

K-means 聚类

K-means 聚类通过将 n 个对象聚类到 k 个组中来工作。组的数量 (k) 必须小于对象的数量 (n)，否则算法将无法工作。初始 n 个值使用 Lloyd 算法划分为 k 个集合，该算法通过对通用数据点进行排序来迭代数据集。然后计算每个新形成的聚类的中心，并将算法再次应用。此过程重复，直到质心不再切换聚类。除了 Lloyd 算法之外，还可以使用其他类型的算法来迭代这些点。另一种类似于 K-means 的聚类是模糊 c-means。使用模糊 c-means 聚类，这些点基于该点位于聚类中的可能性程度。如果想要分析蛋白质芯片上的特定数量的蛋白质组，K-means 聚类是合适的。

K-means 聚类的示例

神经网络

神经网络可用于确定数据之间的关系或在数据集中查找模式。它被称为神经网络，因为它与人体中枢神经系统的运作方式有关。节点或神经元在网络中连接。不同的算法可用于改变网络中连接的强度。根据正在研究的数据，会使用成本函数。神经网络需要以与自组织映射需要训练相同的方式进行训练。这被称为学习。对于不同的学习范式，有设定的算法。神经网络可用于分析统计、认知心理学和人工智能。神经网络的步骤是首先选择模型。模型的选择取决于输入数据以及正在分析的内容。接下来，需要选择一个学习算法。可以更改算法以反映数据集。可以根据成本函数和学习算法调整模型的稳健性。当分析新数据集而没有任何先验信息时，神经网络最适合用于蛋白质芯片，可以从观察到的数据中推断出函数。蛋白质芯片产生的数据的复杂性非常适合神经网络算法。

可重复性

收集到蛋白质芯片的数据后，需要对其进行分析。最常用的方法是使用聚类方法来找到相关的表达模式。这些聚类方法将丢弃不符合算法范围内的任何数据点。问题是，通过重复分析数据，每次分析可能会丢弃不同的数据点。如果正在研究特定基因表达，则会保留最接近预期结果的数据。

一项针对 37 个微阵列数据集和 8 个模拟数据集的研究表明，对于所有四个聚类算法，真实数据集的稳定性都很低。对于模拟数据集，使用了更大的数据集。结果相同，直到样本大于 n = 50。对于大样本量 (300-500)，K-means 和 CLARA 表现出更好的稳定性。

微阵列质量控制 (MAQC) 是一项旨在为微阵列分析建立标准的努力。

参考文献

1. Bhadeshia, H. K. 材料科学中的神经网络。ISIJ 国际，第 39 卷（1999 年），第 10 号，第 966-979 页。于 2008 年 4 月 20 日检索。

2. Chen, J. Hsueh, H. 等。微阵列数据的可重复性：对微阵列质量控制 (MAQC) 数据的进一步分析。BMC 生物信息学。2007；8：412。在线发布 2007 年 10 月 25 日。doi：10.1186/1471-2105-8-412。

3. Garge, N. Page, G. 等。来自微阵列研究的可重复性聚类：更白？BMC 生物信息学。2005；6（补充 2）：S10。在线发布 2005 年 7 月 15 日。doi：10.1186/1471-2105-6-S2-S10。

4. Teuvo Kohonen 的 SOM 简介。SOM 工具箱。于 2008 年 4 月 20 日检索。

5. 维基百科。组织。聚类分析

6. 维基百科。组织。 K 均值聚类

7. 维基百科。组织。神经网络

8. 维基百科。组织。自组织映射。