R语言数据挖掘算法
外观
R语言数据挖掘算法
使用R探索数据集
一般来说,数据挖掘 包含从大型数据集中确定有趣模式的技术和算法。目前有数百种算法可用于执行诸如频繁模式挖掘、聚类和分类等任务。理解这些算法的工作原理以及如何有效地使用它们是数据挖掘分析师、研究人员和实践者持续面临的挑战,特别是因为算法行为和它提供的模式可能会随着其参数的变化而发生显著变化。在实践中,大多数数据挖掘文献对于算法的实际使用过于抽象,而参数调整通常是一项令人沮丧的任务。另一方面,有大量的实现可用,例如R项目中的实现,但它们的文档主要关注实现细节,而没有对与每个实现相关的参数相关权衡进行很好的讨论。
本维基教科书旨在通过为每种技术整合三部分信息来填补这一空白:描述和基本原理、实现细节以及用例。每种技术的描述和基本原理为理解实现并将其实用于实际场景提供了必要的背景。实现细节不仅展示了算法设计,而且还根据先前提供的基本原理解释了其参数。最后,用例提供了在合成数据集和真实数据集上使用算法的经验。
选择R项目作为与本维基教科书相关的计算平台源于其流行程度(因此具有临界质量)、易于编程、良好的性能以及在生物信息学和金融等多个领域中日益增长的使用。
如果您想学习如何在R语言中编程,请阅读《R 编程》这本书。