计算机革命/数据库/数据挖掘
外观
< 计算机革命
数据挖掘是一种利用关联规则收集大量数据的过程。它结合了统计学、数据收集以及模式和趋势的识别。当今最常见的数据挖掘类型是在程序中使用记录计算机习惯、访问的网站以及有关用户和计算机的更多信息的程序。对数据的分析提供了由各种组织使用的配置文件。通常,用于执行数据挖掘的程序包含在购买的软件和下载的软件中。但是,它也经常通过使用病毒、蠕虫或其他恶意工具安装在计算机上。
数据挖掘本身并不存在任何内在的危险。最令人担忧的是信息的利用。当此类技术可以包括信用卡号和银行账户等信息时,数据使用存在明显的令人担忧的可能性。所谓的“无内在危险”是指软件数据挖掘收集不会损坏计算机,它只是记录计算机正在做什么。
收集如此大量信息的主要原因之一是转售。不同的在线商家想知道每个在线购物者在何时何地消费。然后,他们可以使用这些信息将营销和时间安排到更专门的市场。
被挖掘或收集的数据可以来自各种来源。如上所述,最常见的数据挖掘形式是感染计算机。它也可以从 POS(销售点)交易、各种数据库、在线资源、文章等中提取。虽然这是一种简单的信息收集方式,但也有脱机来源和数据库可以通过传统的手动数据输入包含在内。
公司必须过滤收到的所有信息,以找到其消费者需要的信息。公司希望只有一种类型的信息,这可能需要时间来破译所有信息,并查看例如谁购买了 Huggies 品牌尿布。所有这些信息都将被融合在一起并清理。许多这些数据源都存在问题,例如不一致或质量差。必须清理这些问题并检查格式的一致性。
元数据是关于数据的描述信息;它描述了特定数据集是如何、何时以及由谁收集的,以及它的格式。元数据对于理解存储在数据仓库中的信息至关重要。
数据仓库是一个专门的数据库,存储着清理过的数据和元数据。数据和元数据都将发送到数据仓库。