商业智能/文档框架数据源
- 目的:识别框架和相关数据源的数据位置
- 输入:KPI、维度和预算列表
- 活动:识别填充仪表板和报告数据所需的数据源
- 输出:维度、事实和预算列表
- 文档:输出是框架数据源的文档
此步骤需要从概念(KPI、维度)转换到度量(数据)。直接测量概念很难,甚至不可能。如何测量收入?毛收入还是净收入?目标不是找到正确的度量,而是根据驱动战略的理论找到最合适的度量。因此,需要在数据库和数据仓库中搜索近似概念的度量。最后一步是确定数据源中的最低分析级别。这完成了 KPI(概念)和事实(度量)之间的联系。
请注意,完成此目标的难易程度取决于元数据目录完整性的程度。元数据目录“是承载所有描述数据仓库的数据的数据库 (Poe et al. 1997)”。它很难实现,因为对于数据仓库项目,“流程就是交付品 (Poe et al. 1997)”。理想情况下,数据架构和元数据目录将易于访问。如果不是这样,找到度量将变得更加困难。
此阶段还将需要数据仓库管理员的输入。采访管理员应该提供有关架构的知识,这将证明在理解如何将概念与度量匹配方面非常宝贵。
记录框架的数据源需要
- 了解企业数据仓库架构
- 获取数据源元数据
- 将概念与适当的数据库或数据仓库列匹配
首先,我们需要识别数据仓库架构的组成部分。这些包括 (Poe et al. 1997)
- 从源系统、数据库、文件等提取数据。
- 源系统中的数据在加载到数据仓库之前被整合。
- 数据仓库是一个专为决策支持设计的只读数据库。
- 用于访问数据仓库的前端工具或应用程序。
因此,企业数据架构包括用于填充数据仓库的所有数据源、数据仓库的结构、从数据仓库到数据中心的提取数据,以及如何提取这些数据并由用户或业务部门使用。
Poe 等人 (1997) 涵盖数据仓库架构并提供示例图表。借鉴他们的作品,第一个企业数据架构在图中展示,该图展示了“数据仓库供应数据中心”。请注意,数据库可以是任何类型的数据源。目标是识别公司中的所有数据源。这是因为每个数据源都可能包含列,在数据库样式数据存储的情况下,这些列可以测量 KPI。这些可能存在于数据中心、数据仓库或数据库中。请注意,从数据仓库或数据中心结构中提取必要数据比从数据库中提取数据要容易得多。
另一种数据仓库架构在图中展示,该图描述了没有企业数据仓库的情况。这种结构存在一些困难,因为它不太可能在易于提取的结构中,在数据库之外存在度量和数据。这种情况在大型组织中通常很少见。
最后,有一个案例,即集成数据库供应数据仓库。在这种情况下,业务用户或业务部门都提取数据用于报告目的,也更新数据。无论源类型如何,重要的是获取企业数据仓库架构,特别是每个数据源的元数据。
元数据是关于数据的数据。它提供有关以下方面的信息
- 数据结构
- 数据库内部或之间数据结构之间的关系
对于数据仓库,有两种类型的元数据
- 集成元数据显示源系统和仓库之间的关联
- 转换元数据将数据从仓库映射到最终用户的前端工具
转换元数据很重要,因为它包含业务名称和层次结构。
最后,有必要识别与概念密切匹配的数据库列。例如,如果准时出发是我们想要测量的 KPI,目标是找到对此概念的充分度量。运营数据库或数据仓库应该有一列识别火车计划离开的日期和时间以及实际离开的日期和时间。
另一个活动是识别将用于分析事实的维度。例如,商品组合是一个重要的维度。每磅货物费率是否因商品组合而异?平均费率是多少?是否值得针对特定客户以增加该商品组合的货物?