大数据
外观
规范覆盖范围
|
大数据 - 指大量或复杂的数据集,难以存储和分析。
大数据是用来描述规模巨大或结构复杂、难以存储、处理和分析的数据集的通用术语。大数据的三个主要特征是
- 体量: 数据量非常大。
- 多样性: 收集的数据类型广泛多样,可能难以分类。
- 速度: 数据变化快,可能包括不断变化的数据源。
大数据缺乏结构性被认为是造成最大困难的因素。因此,传统的数据分析和组织方法,例如关系数据库或 SQL,在处理大数据时不再有效。然而,当将正确的技术应用于大数据时,可以揭示大量有用的信息。处理大数据使数据科学家等专业人员能够发现和分析隐藏的模式和关系,这些模式和关系在以前难以解释。
大数据用于不同的目的。在某些情况下,它用于记录事实数据,例如银行交易。但是,它越来越多地用于分析趋势,并试图根据数据中的关系和相关性进行预测。大数据在生活的许多不同领域不断生成。例如:
- 科学研究
- 零售
- 银行
- 政府
- 移动网络
- 安全
- 实时应用
- 互联网。
延迟 - 设备之间传输数据时发生的延迟时间。
延迟在这里至关重要,可以描述为将原始数据转换为有意义的信息所需的时间。对于大数据,由于访问和操作大量记录所需的时间,可能存在很大程度的延迟。
结构化数据 - 适合标准数据库结构(列和行,即字段和记录)的数据。
非结构化数据 - 不适合标准数据库结构(列和行,即字段和记录)的数据。
大多数数据库基于数据将落入列和行(即字段和记录)中的模型。这使得数据易于组织和存储,因为它们可以输入到相应的字段中。当分析数据时,执行搜索和排序以查询数据相对容易。某些数据不适合此模型。数据可以定义为结构化或非结构化。
- 结构化数据: 可以使用传统数据库技术(使用字段和记录)定义的数据。
- 非结构化数据: 无法在列和行中定义的数据。这些可能包括多媒体数据、网页以及电子邮件、文档、演示文稿的内容。这种类型的数据更难分析。