从数据到洞察
一位维基教科书用户认为此页面应该拆分为更小的页面,每个页面包含更窄的子主题。 您可以通过将此大型页面拆分为更小的页面来提供帮助。请确保遵循命名策略。将书籍分成更小的部分可以提供更多焦点,并允许每个部分做好一件事,这对每个人都有益。 |
“...一本没有插图的书有什么用,”爱丽丝想,“……”
本书教授将数据转化为洞察力的原则
- 所有数据都代表以下三个维度之一:什么 | 何时 | 何地?
- 每个数据图表都可视化了维度之间的关系。
- 每种关系都有一个合适的可视化。
- 可视化应该有效地设计。
- 设计应该揭示洞察力。
一种常见的处理数据的方法是将它们置于层次结构的底部
- 智慧
- 知识
- 信息
- 数据
较低级别的数据更“密集”且“有用性”更低,而较高级别的数据更“简化”且抽象。本书主要处理最低三个级别:如何通过可视化将数据转化为关于世界如何运作的洞察力知识。
我们从可枚举(可计数)的离散对象的概念开始,这些对象可以产生单个数字,但可能以多种方式进行测量。在下文中,这些对象不会被分割成它们的组成部分。
如展品所示,基本的数据区别在于数字和可以称为标签的内容。
最简单的数字类型是整数 **I**,用于计数对象。当对象数量变大(例如 > 100)时,它们计数之间的差异变得相对较小,因此这些计数变得几乎连续。真正的连续数字 - 实数 **R**1 - 可以取所有可能的数值。
标签(有时称为名义值或因子)用于区分对象,而不测量数量或任何特定的数值特征,尽管标签可以排序(“不喜欢”、“无所谓”、“喜欢”)。当数值较小时,计数可以充当标签的角色(例如,单人家庭与 2 人家庭与 >2 人家庭)。组合学 研究了如何使用标签将对象收集到各种“箱子”中,这些“箱子”的计数将在数据 描述 中讨论。
了解所处理的测量类型非常重要,因为每种类型都有相应的描述性和关系性方法。让我们检查一些例子,在本例中来自环境分析领域。
- 样方 中的树木数量是一个整数,范围从 0 到无穷小。
- 土壤样品的重量是一个大于 0 的实数(尽管样品可以有零重量,但问题在于它是否真的是样品,如果是,是否因此存在无限多的此类样品)。
- 水样中硝酸盐的比例用百万分之一表示,是一个实数,它是除法的结果。
- 地震的震级是一个实数,但由于这些数字来自 长尾分布,因此经常使用对数。
- 土地覆盖类别(“森林”、“水”、“耕地”、“城市”)是一个没有数字的标签,尽管每个类别都可以分配一个任意整数(例如 2、4、1、3)。有时整数用于标记测量值,但这些数字(有时在数据库术语中称为“键”)是标识符,不能进一步描述;此外,它们应该是 数据矩阵 的第一列。
一种特别复杂类型的测量导致各种类型的类别,这需要复杂的分析技术。一个例子是将人类患者分配到患有 西尼罗河病毒 的患者类别,这可以被认为是一种解剖学状况(脑炎)、一种由特定黄病毒感染或一系列症状(发烧等)。测量问题 - 可靠性和保密性问题 - 是流行病学数据描述如此具有挑战性的原因之一。探索实数处理中出现的一些不寻常的情况是有用的。
- 零出现在没有要计数的东西时(例如在没有树木的区域或没有接收光子的图像像素中),或者作为时间瞬间的长度(“2011-11-24 13:02:36.032 EST”,其中只显示毫秒)。
- 负数在例如空间数据中用于显示海平面以下的高度或赤道以下的角度,在时间数据中用于显示现在之前的年份,或在现象中用于显示冰点以下的温度。
- 如果已知一些标准值,则“速率”最简单地通过将测量值除以该标准值来计算,例如整个比例或百分比增长。
- 最后,通常会出现不寻常的情况,其中测量值缺失(NA = 不可用或不适用)或无穷大(由零除产生的比率)。
描述数据至关重要的一点是了解它们的行为方式。展品显示,基本连续统是在离散测量和连续测量之间;如果一个人跟踪给定测量值在此连续统上的位置,则相应描述方法应该更加清晰。
虽然本书的大部分内容将讨论如何可视化不同类型测量值之间的关系,但分析的大部分内容都与简单描述有关。我们从基本数据矩阵开始,如下表所示
ID NOMINAL REGULAR INTEGER RATIONAL
-------------------------------------------
Sigma D 28 2 9.1
Gamma B 29 7 9.7
Delta B 30 6 7.6
Kappa C 31 8 7.5
Mu D 32 8 9.8
Beta A 33 3 4.2
Pi D 34 6 4.7
Epsilon D 35 4 4.8
Tau C 36 8 4.2
Lambda C 37 10 2.0
Alpha A 38 9 5.8
Rho A 39 1 4.2
这是一个 12 x 5 的测量值矩阵,说明了迄今为止讨论的关键区别
- ID 变量是一个唯一的标签,用于识别每一行。
- NOMINAL 是一个不一定唯一的标签,由单个字母字符组成,尽管它可以很容易地是一个数字或更长的名称。
- REGULAR 是一个以单位步长递增的变量,因此它可以是索引(第二行可以是第 29 个“案例”)或时间戳(1928 年)。
- INTEGER 是一个非唯一的整数,可能在计数某些东西。
- RATIONAL 是一个实数,是一个真实的测量值,例如以节为单位的风速(请注意,“节每小时”是不正确的,除非您是指加速度!)。
上面的表格是数据可视化起点的有用说明。它可能是你想要在报告中呈现的完整数据矩阵(尽管 12 行不是很多),在这种情况下,这是一个清晰的模板。或者矩阵可能只是完整数据集的样本;并且——只要指示了这种采样——该格式也很有用。最后,该表格可能正在呈现 12 个变量的统计数据。在所有这些情况下,我都提供了一个简单且组织清晰的模板。显然,了解数据并完全清楚数据矩阵代表什么非常重要,特别是:行和列的数量、每列的作用以及它代表什么。一旦清楚了这一点,你就可以转向描述每列或每个变量的问题。每种测量方式都有其自己的一组描述性统计数据。描述性统计数据提供了有关数据的基本事实。它们分为两种类型:非参数和参数,它们易于理解。
范围是对数据的最简单描述:获得的最小值和最大值是多少?对于上面数据的第 3 列,很容易看出 REGULAR 的范围是 28 到 39,INTEGER 的范围是 1 到 10,RATIONAL FROM 的范围是 2.0 到 9.8。对于更大的数据集,你可以对数字进行排序并选择最小值和最大值。这些数字将有助于确定绘制的任何图表的轴。下一个要检查的统计数据是众数,即列表中最常见的数值。在条形图(最合适的可视化)中,众数将具有最长的条形。
上面的图表是关于 NOMINAL 变量的最简单的视觉描述。请注意,垂直轴显示按频率排序的数值,因此你可以很容易地看到哪些数值最常见,哪些数值最不常见。