跳转到内容

R 中的数据挖掘算法/聚类/围绕中心点划分 (PAM)

来自维基教科书,开放的书籍,面向开放的世界

聚类是一种无监督机器学习算法,它将数据集中的实体分组,这些实体在同一个簇中具有高度相似性。如今,许多领域都在使用这些类型的算法以自动化的方式将数据集分成组,并且仍然可以获得高质量的结果。

聚类过程不是一个通用的过程,因为存在许多组数据集,对于其中的一些数据集,使用的度量类型是相关的,而对于其他数据集,代表每个簇的实体更有趣。与数据集组类似,存在许多聚类算法,每个算法都试图利用数据类型,因此,它们中的每一个都更适合特定类型的数据。

本节将更详细地解释围绕中心点划分 (PAM) 算法,展示算法的工作原理、参数以及含义、数据集示例、如何执行算法以及使用数据集作为输入的执行结果。

围绕中心点划分 (PAM) 算法

[编辑 | 编辑源代码]

PAM 算法由 Leonard Kaufman 和 Peter J. Rousseeuw 开发,该算法与 K 均值非常相似,主要是因为两者都是划分算法,换句话说,两者都将数据集分成组(簇),并且两者都试图最小化误差,但 PAM 使用中心点,中心点是代表其插入的组的数据集中的实体,而 K 均值使用中心点,中心点是人工创建的代表其簇的实体。

PAM 算法将包含 n 个对象的 数据集 分成 k 个簇,其中数据集和 k 都作为算法的输入。该算法使用不相似矩阵,其目标是最小化每个簇的代表与其成员之间的总体不相似性。该算法使用以下模型来解决问题:

受制于

其中 F(x) 是要最小化的主要函数,d(i,j) 是实体 i 和 j 之间的不相似性度量,而 zij 是一个确保仅计算来自同一簇的实体之间的不相似性的变量。其他表达式是约束条件,它们具有以下功能:(1.) 确保每个实体都分配给一个且仅一个簇,(2.) 确保实体分配给代表该簇的中心点,(3.) 确保恰好有 k 个簇,以及 (4.) 允许决策变量仅取 0 或 1 的值。

PAM 算法可以处理两种类型的输入,第一个是代表每个实体及其变量值的矩阵,第二个是直接的不相似矩阵,在后一种情况下,用户可以直接提供不相似性作为算法的输入,而不是代表实体的数据矩阵。无论哪种方式,该算法都能够找到问题的解决方案,在一般的分析中,该算法按照以下方式进行

构建阶段

1. 选择 k 个实体作为中心点,或者如果这些实体已提供,则将它们用作中心点;
2. 如果未提供,则计算不相似矩阵;
3. 将每个实体分配到其最近的中心点;

交换阶段

4. 对于每个簇,搜索该簇中的任何实体是否可以降低平均不相似系数,如果可以,则选择最能降低该系数的实体作为该簇的中心点;
5. 如果至少一个中心点已更改,则转到 (3),否则结束算法。

这并没有描述“PAM”算法。这是一种使用中心点的 K 均值变体,而不是具有其特征构建和交换阶段的 PAM。

PAM 算法的伪代码如下所示

算法 1:PAM 算法 输入: E = {e1,e2,...en}(要聚类的 数据集 或不相似矩阵)

k(簇的数量)
度量(在不相似矩阵上使用的度量类型)
diss(指示 E 是否是不相似矩阵的标志)

输出: M = {m1,m2,...,mk}(簇中心点的向量)

L = {l(e) | e = 1,2,...,n}(E 的簇标签集)

foreach mi € M do

mi ← ej € E;(例如,随机选择)

end if diss ≠ true

不相似性 ← 计算不相似矩阵(E, 度量);

else

不相似性 ← E;

end repeat

foreach ei € E do
l(ei) ← argminDissimilarity(ei, 不相似性, M);
end
已更改 ← false;
foreach mi € M do
Mtmp ← 选择最佳簇中心点(E, 不相似性, L);
end
if Mtmp ≠ M
M ← Mtmp;
已更改 ← true;
end

until 已更改 = true;

在 R 编程语言中,PAM 算法在 cluster 包中可用,可以通过以下命令调用

pam(x, k, diss, metric, medoids, stand, cluster.only, do.swap, keep.diss, keep.data,
trace.lev)

其中参数为

x:代表数据集实体的数值数据矩阵,或者可以是不相似矩阵,它取决于 diss 参数的值。如果 x 是数据矩阵,则每行都是一个实体,每列都是一个变量,在这种情况下,只要每对实体至少有一个不缺失的情况,就可以允许缺失值。如果 x 是不相似矩阵,则不允许缺失值。

k:数据集将被划分的簇的数量,其中 0 < k < n,其中 n 是实体的数量。

diss:逻辑标志,如果它是 TRUE,则 x 被用作不相似矩阵,如果它是 FALSE,则 x 将被视为数据矩阵。

度量:一个字符串,指定将使用两个度量标准中的每一个来计算不相似矩阵,度量变量可以是“欧几里得”以使用欧几里得距离,也可以是“曼哈顿”以使用曼哈顿距离。

stand:逻辑标志,如果它是 TRUE,则在计算不相似性之前对 x 中的测量值进行标准化。通过减去列的平均值并除以变量的平均绝对偏差,对每列进行标准化测量。如果 x 是不相似矩阵,则忽略此参数。

cluster.only:逻辑标志,如果它是 TRUE,则仅计算并返回聚类。

do.swap:逻辑标志,指示是否应执行交换阶段 (TRUE) 还是不执行 (FALSE)。

keep.diss: 逻辑标志,指示是否在结果中保留差异(TRUE)或不保留(FALSE)。

keep.data: 逻辑标志,指示是否在结果中保留输入数据 x(TRUE)或不保留(FALSE)。

trace.lev: 一个数值参数,指定在算法的构建和交换阶段打印诊断信息的跟踪级别。默认值为 0,不打印任何内容。

PAM 算法返回一个 pam 对象,其中包含有关算法执行结果的信息。

可视化

[编辑 | 编辑源代码]

在 R 中,有两种方法可以查看 PAM 算法的结果:第一种方法是打印算法返回的对象,第二种方法是绘制对象中的数据,创建一个结果图形。第一种可视化信息的方法理解起来稍微复杂一些,但它提供了更完整和准确的信息,而第二种方法则容易理解得多,让用户能够更好地查看信息并添加对他而言相关的其他信息。

要以文本方式查看 PAM 算法执行结果的数据,有两种方法:一种比较简单,提供有关对象的更简洁的信息;另一种更详细,提供更完整的信息。在下面列出的两个命令中,第一个命令以简洁的方式打印信息,而第二个命令则以更完整的方式打印信息。

print (result)
summary (result)

可视化算法执行结果数据的另一种方法是使用图形,可以通过以下命令来实现。

plot (result)

示例:为了展示算法的使用示例及其执行结果,使用了一个包含少量实体和维度的简单数据集,如以下表格所示。

表 1:简单数据集

对象 属性 x 属性 y
1 1 1
2 2 3
3 1 2
4 2 2
5 10 4
6 11 5
7 10 6
8 12 5
9 11 6

正如我们所见,数据被分成两个聚类,因此我们将使用 k = 2。PAM 算法可以按以下方式执行。

#load the table from a file
x <- read.table(“table.txt”)

#execute the pam algorithm with the dataset created for the example
result <- pam(x, 2, FALSE, "euclidean")

#print the results data in the screen
summary(result)

#plot a graphic showing the clusters and the medoids of each cluster
plot(result$data, col = result$clustering)
points(result$medoids, col = 1:2, pch = 4)

打印执行结果将得到

Medoids:
 ID  x y
4  4  2 2
6  6 11 5
Clustering vector:
1 2 3 4 5 6 7 8 9 
1 1 1 1 2 2 2 2 2 
Objective function:
  build     swap 
1.255618 0.915849 

Numerical information per cluster:
    size max_diss   av_diss diameter separation
[1,]    4 1.414214 0.8535534 2.236068   8.062258
[2,]    5 1.414214 0.9656854 2.236068   8.062258

Isolated clusters:
 L-clusters: character(0)
 L*-clusters: [1] 1 2

Silhouette plot information:
 cluster neighbor sil_width
3       1        2 0.8898942
4       1        2 0.8788422
1       1        2 0.8549629
2       1        2 0.8297000
6       2        1 0.8790384
9       2        1 0.8631441
8       2        1 0.8425790
7       2        1 0.8232848
5       2        1 0.7747713
Average silhouette width per cluster:
[1] 0.8633498 0.8365635
Average silhouette width of total data set:
[1] 0.8484685

36 dissimilarities, summarized :
  Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
1.0000  1.4142  8.3951  6.1559  9.9362 11.7050 
Metric :  euclidean 
Number of objects : 9

Available components:
 [1] "medoids"    "id.med"     "clustering" "objective"  "isolation"  "clusinfo"
   "silinfo"    "diss"       "call"      
[10] "data"

而绘制将得到

Hgrandrade example

案例研究

[编辑 | 编辑源代码]

在本节中,我们将使用 PAM 来进行案例研究。

在本案例研究中,我们使用了 R 包 datasets 中提供的 iris 数据库的一部分。这个著名的(费舍尔或安德森)虹膜数据集给出了 3 个虹膜种类的 50 朵花的萼片长度和宽度以及花瓣长度和宽度的测量值(单位为厘米)。这 3 个种类分别是山鸢尾(Iris setosa)、变色鸢尾(versicolor)和维吉尼亚鸢尾(virginica)。利用此数据集提供的数据,很自然地会想到验证三种虹膜的每一种花的其他同类花是否真的相似。因此,在本案例研究中,我们将使用萼片和花瓣的长度和宽度将数据集聚类成 3 组,然后验证这些聚类是否真的与花卉种类相匹配。

在本案例研究中使用的数据集包含以下列

  • Flower: 花的 ID;
  • Sepal.Length: 萼片长度的数值(单位为厘米);
  • Sepal.Width: 萼片宽度的数值(单位为厘米);
  • Petal.Length: 花瓣长度的数值(单位为厘米);
  • Petal.Width: 花瓣宽度的数值(单位为厘米);
  • Species: 用于识别花的种类。

输入数据

[编辑 | 编辑源代码]

输入数据是一个表格,包含原始 iris 数据集的 50%(75 个实体),原始数据集包含 150 朵花,每个花有 5 个属性。因此,在本案例研究中使用的数据集由以下表格表示。

表 2:从 iris 数据集中抽取的样本

Flower Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 5.0 3.6 1.4 0.2 setosa
6 5.4 3.9 1.7 0.4 setosa
7 4.6 3.4 1.4 0.3 setosa
8 5.0 3.4 1.5 0.2 setosa
9 4.4 2.9 1.4 0.2 setosa
10 4.9 3.1 1.5 0.1 setosa
11 5.4 3.7 1.5 0.2 setosa
12 4.8 3.4 1.6 0.2 setosa
13 4.8 3.0 1.4 0.1 setosa
14 4.3 3.0 1.1 0.1 setosa
15 5.8 4.0 1.2 0.2 setosa
16 5.7 4.4 1.5 0.4 setosa
17 5.4 3.9 1.3 0.4 setosa
18 5.1 3.5 1.4 0.3 setosa
19 5.7 3.8 1.7 0.3 setosa
20 5.1 3.8 1.5 0.3 setosa
21 5.4 3.4 1.7 0.2 setosa
22 5.1 3.7 1.5 0.4 setosa
23 4.6 3.6 1.0 0.2 setosa
24 5.1 3.3 1.7 0.5 setosa
25 4.8 3.4 1.9 0.2 setosa
51 7.0 3.2 4.7 1.4 versicolor
52 6.4 3.2 4.5 1.5 versicolor
53 6.9 3.1 4.9 1.5 versicolor
54 5.5 2.3 4.0 1.3 versicolor
55 6.5 2.8 4.6 1.5 versicolor
56 5.7 2.8 4.5 1.3 versicolor
57 6.3 3.3 4.7 1.6 versicolor
58 4.9 2.4 3.3 1.0 versicolor
59 6.6 2.9 4.6 1.3 versicolor
60 5.2 2.7 3.9 1.4 versicolor
61 5.0 2.0 3.5 1.0 versicolor
62 5.9 3.0 4.2 1.5 versicolor
63 6.0 2.2 4.0 1.0 versicolor
64 6.1 2.9 4.7 1.4 versicolor
65 5.6 2.9 3.6 1.3 versicolor
66 6.7 3.1 4.4 1.4 versicolor
67 5.6 3.0 4.5 1.5 versicolor
68 5.8 2.7 4.1 1.0 versicolor
69 6.2 2.2 4.5 1.5 versicolor
70 5.6 2.5 3.9 1.1 versicolor
71 5.9 3.2 4.8 1.8 versicolor
72 6.1 2.8 4.0 1.3 versicolor
73 6.3 2.5 4.9 1.5 versicolor
74 6.1 2.8 4.7 1.2 versicolor
75 6.4 2.9 4.3 1.3 versicolor
101 6.3 3.3 6.0 2.5 virginica
102 5.8 2.7 5.1 1.9 virginica
103 7.1 3.0 5.9 2.1 virginica
104 6.3 2.9 5.6 1.8 virginica
105 6.5 3.0 5.8 2.2 virginica
106 7.6 3.0 6.6 2.1 virginica
107 4.9 2.5 4.5 1.7 virginica
108 7.3 2.9 6.3 1.8 virginica
109 6.7 2.5 5.8 1.8 virginica
110 7.2 3.6 6.1 2.5 virginica
111 6.5 3.2 5.1 2.0 virginica
112 6.4 2.7 5.3 1.9 virginica
113 6.8 3.0 5.5 2.1 virginica
114 5.7 2.5 5.0 2.0 virginica
115 5.8 2.8 5.1 2.4 virginica
116 6.4 3.2 5.3 2.3 virginica
117 6.5 3.0 5.5 1.8 virginica
118 7.7 3.8 6.7 2.2 virginica
119 7.7 2.6 6.9 2.3 virginica
120 6.0 2.2 5.0 1.5 virginica
121 6.9 3.2 5.7 2.3 virginica
122 5.6 2.8 4.9 2.0 virginica
123 7.7 2.8 6.7 2.0 virginica
124 6.3 2.7 4.9 1.8 virginica
125 6.7 3.3 5.7 2.1 virginica

该过程按以下步骤进行

#import data
data <- read.table(“sampleiris.txt”)

#execution
result <- pam(data[1:4], 3, FALSE, “euclidean”)

#print results
summary(result)

#plot clusters
plot (data, col = result$clustering)
#add the medoids to the plot
points(result$medoids, col = 1:3, pch = 4)

执行结果中打印了以下数据。

Medoids:
    ID Sepal.Length Sepal.Width Petal.Length Petal.Width
8    8          5.0         3.4          1.5         0.2
64  39          6.1         2.9          4.7         1.4
103 53          7.1         3.0          5.9         2.1
Clustering vector:
  1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17  18  19  20  21  22
  23  24  25  51  52  53  54  55  56 
  1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1
   1   1   1   2   2   2   2   2   2 
 57  58  59  60  61  62  63  64  65  66  67  68  69  70  71  72  73  74  75 101 102 103
 104 105 106 107 108 109 110 111 112 
  2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   3   2   3
   3   3   3   2   3   3   3   2   2 
113 114 115 116 117 118 119 120 121 122 123 124 125 
  3   2   2   3   3   3   3   2   3   2   3   2   3 
Objective function:
    build      swap 
0.7148339 0.6990539 

Numerical information per cluster:
     size max_diss   av_diss diameter separation
[1,]   25 1.236932 0.5137400 2.042058  1.9000000
[2,]   34 1.951922 0.8085343 2.727636  0.3741657
[3,]   16 1.284523 0.7559609 2.147091  0.3741657 

Isolated clusters:
 L-clusters: [1] 1
 L*-clusters: character(0)

Silhouette plot information:
    cluster neighbor   sil_width
1         1        2  0.84941732
5         1        2  0.84830238
8         1        2  0.84812593
18        1        2  0.84784555
12        1        2  0.83221128
22        1        2  0.82890349
20        1        2  0.82456328
3         1        2  0.82337894
7         1        2  0.81910409
10        1        2  0.81662688
11        1        2  0.80769429
2         1        2  0.80592613
13        1        2  0.80278163
4         1        2  0.79810574
23        1        2  0.79482977
24        1        2  0.78999596
17        1        2  0.78539723
21        1        2  0.78454015
25        1        2  0.77452963
6         1        2  0.75995941
9         1        2  0.74605493
14        1        2  0.74277337
19        1        2  0.72082914
15        1        2  0.71581750
16        1        2  0.66155611
68        2        3  0.60036142
56        2        3  0.59753885
62        2        3  0.59698924
72        2        3  0.59691421
70        2        3  0.59514179
54        2        3  0.58507022
67        2        3  0.56989428
60        2        1  0.56350914
63        2        3  0.55592514
75        2        3  0.54720666
74        2        3  0.53971473
64        2        3  0.53757677
69        2        3  0.51098390
65        2        1  0.50762488
107       2        3  0.48295375
55        2        3  0.46851074
52        2        3  0.46827948
59        2        3  0.44164146
66        2        3  0.42147865
71        2        3  0.41421605
73        2        3  0.41282512
122       2        3  0.40891392
120       2        3  0.40207904
57        2        3  0.39510378
114       2        3  0.37176468
124       2        3  0.34854822
102       2        3  0.33532624
61        2        1  0.32662688
58        2        1  0.20142024
51        2        3  0.19024422
115       2        3  0.16320750
53        2        3  0.11554863
112       2        3 -0.07433144
111       2        3 -0.07748205
103       3        2  0.59622203
106       3        2  0.59241159
108       3        2  0.58027197
110       3        2  0.56716967
123       3        2  0.56182697
121       3        2  0.55568135
119       3        2  0.53242285
118       3        2  0.52551154
125       3        2  0.51206488
105       3        2  0.49243542
101       3        2  0.45749953
113       3        2  0.44409513
109       3        2  0.37181492
117       3        2  0.26375026
116       3        2  0.21777715
104       3        2  0.21412781
Average silhouette width per cluster:
[1] 0.7931708 0.4153331 0.4678177
Average silhouette width of total data set:
[1] 0.5524757

2775 dissimilarities, summarized :
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.1000  1.1136  2.5080  2.6329  3.9006  7.0852 
Metric :  euclidean 
Number of objects : 75

Available components:
 [1] "medoids"    "id.med"     "clustering" "objective"  "isolation"  "clusinfo"
   "silinfo"    "diss"       "call"      
[10] "data"

同时生成了以下图形。

HgrandradeIris

在执行算法并分析数据后,我们可以得出结论:聚类分组良好,与每朵花的种类相关。数据中共有 75 个元素,25 个属于Setosa 种类,25 个属于Versicolor 种类,25 个属于Virginica 种类,算法将Setosa 的元素聚类为集群 1,将Versicolor 的元素聚类为集群 2,将Virginica 的元素聚类为集群 3。在验证结果后,我们发现 75 个元素中,有 66 个被正确地聚类,误差率为 12%——这是一个非常好的结果。

参考文献

[编辑 | 编辑源代码]
  1. R 开发核心团队,R:一种统计计算语言和环境。
  2. Kaufman, L., Rousseeuw, P. J., 中位数聚类。
华夏公益教科书