跳至内容

最佳分类/Rypka 方法

来自维基教科书,开放世界中的开放书籍

Rypka 的方法

[编辑 | 编辑源代码]

Rypka[1]方法[2]使用理论和经验分离方程(如下所示)来执行最佳分类任务。该方法找到最少属性的最佳顺序,这些属性组合定义了元素的有界类。

该方法的应用从在真值表[3]或电子表格形式中构建属性值系统开始,其中元素在第二行开始的左most列中列出。特征[4]在第二列开始的第一行中列出,属性标题在左most单元格中。通常,数据的文件名被赋予元素类别的标题。将连接每个特征与每个元素的值放置在交叉单元格中。选择所有元素都共有的特征可能是创建能够利用此方法的数据库中最困难的部分。

首先按照它们的真值表值对元素进行排序,该值是根据每个元素的现有特征序列和值计算的。降序。整个有界类的重复真值表值或多重集表明要么需要消除重复元素,要么需要包含额外的特征。

为集合中的每个特征计算一个经验分离值,并将具有最大经验分离值的特征与占据最显著属性位置的特征交换。

接下来,通过计算每个剩余特征与第一个特征的组合的经验分离值,找到第二重要的特征。产生最大分离值的特征随后与占据第二显著属性位置的特征交换。

接下来,通过计算每个剩余特征与第一和第二个特征的组合的经验分离值,找到第三重要的特征。产生最大经验分离值的特征随后与占据第三显著属性位置的特征交换。此过程可以继续进行,直到所有特征都被处理,或者直到元素的百分之百分离得到实现。

较大的基数将允许通过排除每个特征的更高百分比的元素来更快地识别。例如,二进制基数只排除每个特征的百分之五十的元素,而五进制基数则排除每个特征的百分之八十的元素。[5]以下是矩阵和分离方程的解释。[6]

  1. 真值表大小相关的方程
  2. 分离方程
    1. 元素相关的方程
    2. 特征相关的方程
      1. 理论分离
      2. 经验分离
        1. 目标集真值表值
        2. 分离阶段
  1. 计算示例
  2. 应用示例

注释和参考文献

[编辑 | 编辑源代码]
  1. :Eugene Weston Rypka 于 2006 年 4 月 27 日去世。Gene 于 1925 年 5 月 6 日出生于明尼苏达州奥瓦托纳,父母是 Charles Frederick 和 Ethel Marie Rypka。他在二战期间作为一名医务兵在硫磺岛服役,并获得了多个奖章和嘉奖。1958 年,Gene 获得了斯坦福大学的医学微生物学博士学位。他拥有漫长而杰出的职业生涯,包括与洛夫莱斯医疗中心和新墨西哥大学的俄罗斯科学家合作。自行车比赛是他一生的爱好和职业,在后来的几年里,他还学习了武术。
  2. 主要参考文献: 由 R.J. Pankhurst 编辑的生物识别与计算机,英国博物馆(自然历史)伦敦,英国,1973 年 9 月 27 日和 28 日在剑桥国王学院举行的系统学协会特别卷号 7 会议的论文集,由学术出版社于 1975 年出版,其中提到了 Eugene W. Rypka 的工作,洛夫莱斯健康科学中心微生物学系,新墨西哥州阿尔伯克基,"模式识别与微生物识别"。ISBN 0125448503
  3. 特征和属性可以互换使用。
  4. 参见主要参考文献第 158 页的表格 II。
  5. 应查阅主要参考文献以获得该方法更详细和深入的解释。
华夏公益教科书