R 中的数据挖掘算法/包/CCMtools/CCM
此函数对两个匹配的数据集(例如,每日本地和大型大气数据)进行同时聚类,以便每个聚类最大化两个数据集之间的相关性。此聚类基于规范相关分析 (CCA) 的混合。
CCM(Nc, NS, DataA.tbc,DataS.tbc,NN, DataStation, init="block", ITmax=15, rq=0)
- Nc 所需的聚类数。
- NS 本地尺度时间序列的位置数(即气象站)。
- DataA.tbc 对应于要聚类的大尺度数据集。这是一个矩阵
M*NN,其中M对应于大尺度位置的数量(例如,GCM 或 RCM 网格单元),NN 对应于时间序列的长度(例如,天数)。请注意,此矩阵在 CCM 中使用时没有任何转换。例如,如果必须执行主成分分析 (PCA),则必须在输入 CCM 之前进行。
- DataS.tbc 对应于要聚类的本地尺度(站点)数据集。这是一个
NS*NN 矩阵。与 DataA.tbc 类似,请注意此矩阵在 CCM 中使用时没有任何转换,并且如果必须执行 PCA,则必须在输入 CCM 之前进行。
- NN 时间序列的长度(例如,每日时间序列的天数)。
- DataStation 将计算信息准则的本地尺度(站点)数据集。
它通常与 DataS.tbc 相同,但根据应用程序(例如,DataS.tbc 是 PCA 的结果)或要达成的目标而有所不同。
- init 聚类的初始化方法。有六种方法可用
- "block":块初始化(默认值) - "12345":每天交替分配到一个聚类(例如,如果需要 3 个聚类,则第 1 天进入 C1,第 2 天进入 C2,第 3 天进入 C3,第 4 天进入 C1,第 5 天进入 C2,依此类推) - "Kmeans":通过 k 均值算法进行初始化 - "Mixtn":与 "12345" 相同,但长度为 12(而不是长度为 1) - "EMw":通过对从在 DataA.tbc 和 DataS.tbc 之间执行的 CCA 得到的 w(即大尺度)规范变量应用 EM 聚类算法进行初始化 - "EMvw":与 "EMw" 相同,但 EM 应用于 v(本地)和 w(大尺度)规范变量。
- ITmax 最大迭代次数(默认为 15)是算法不收敛的情况。
CWGLI 3
- rq 计算信息准则
(IC) 的本地尺度变量(感兴趣的变量)的值(默认为 rq=0)。rq 可以是数据的第 90 个百分位数。在这种情况下,CCM 将尝试找到极值得到良好区分的聚类。高 IC 表示聚类之间(在本地尺度变量方面)的良好区分。
有关 CCM 方法的详细信息,请参见下面的参考文献。M. Vrac、P. Yiou。“为局部降水建模设计的天气状况:在地中海盆地的应用”。JGR-大气,doi:10.1029/2009JD012871,2010
M. Vrac ([email protected]))