R 中的数据挖掘算法/包/CCMtools/CCM

描述

此函数对两个匹配的数据集（例如，每日本地和大型大气数据）进行同时聚类，以便每个聚类最大化两个数据集之间的相关性。此聚类基于规范相关分析 (CCA) 的混合。

用法

CCM(Nc, NS, DataA.tbc,DataS.tbc,NN, DataStation, init="block", ITmax=15, rq=0)

参数

Nc 所需的聚类数。

NS 本地尺度时间序列的位置数（即气象站）。

DataA.tbc 对应于要聚类的大尺度数据集。这是一个矩阵

M*NN，其中M对应于大尺度位置的数量（例如，GCM 或 RCM 网格单元），NN 对应于时间序列的长度（例如，天数）。请注意，此矩阵在 CCM 中使用时没有任何转换。例如，如果必须执行主成分分析 (PCA)，则必须在输入 CCM 之前进行。

DataS.tbc 对应于要聚类的本地尺度（站点）数据集。这是一个

NS*NN 矩阵。与 DataA.tbc 类似，请注意此矩阵在 CCM 中使用时没有任何转换，并且如果必须执行 PCA，则必须在输入 CCM 之前进行。

NN 时间序列的长度（例如，每日时间序列的天数）。

DataStation 将计算信息准则的本地尺度（站点）数据集。

它通常与 DataS.tbc 相同，但根据应用程序（例如，DataS.tbc 是 PCA 的结果）或要达成的目标而有所不同。

init 聚类的初始化方法。有六种方法可用

- "block"：块初始化（默认值） - "12345"：每天交替分配到一个聚类（例如，如果需要 3 个聚类，则第 1 天进入 C1，第 2 天进入 C2，第 3 天进入 C3，第 4 天进入 C1，第 5 天进入 C2，依此类推） - "Kmeans"：通过 k 均值算法进行初始化 - "Mixtn"：与 "12345" 相同，但长度为 12（而不是长度为 1） - "EMw"：通过对从在 DataA.tbc 和 DataS.tbc 之间执行的 CCA 得到的 w（即大尺度）规范变量应用 EM 聚类算法进行初始化 - "EMvw"：与 "EMw" 相同，但 EM 应用于 v（本地）和 w（大尺度）规范变量。

ITmax 最大迭代次数（默认为 15）是算法不收敛的情况。

CWGLI 3

rq 计算信息准则

(IC) 的本地尺度变量（感兴趣的变量）的值（默认为 rq=0）。rq 可以是数据的第 90 个百分位数。在这种情况下，CCM 将尝试找到极值得到良好区分的聚类。高 IC 表示聚类之间（在本地尺度变量方面）的良好区分。

细节

有关 CCM 方法的详细信息，请参见下面的参考文献。M. Vrac、P. Yiou。“为局部降水建模设计的天气状况：在地中海盆地的应用”。JGR-大气，doi:10.1029/2009JD012871，2010

作者(s)

M. Vrac (mathieu.vrac@lsce.ipsl.fr))

参见

信息准则