统计/不同类型的数据
数据是将值分配给事件和对象的观察结果。它们可以根据其编码属性以及其域和范围的特征进行分类。
当给定的数据集本质上是数值型时,有必要仔细区分被量化的变量的实际性质。统计检验通常针对处理的数据类型。
识别应用于非“度量”属性的数字的真实性质通常是直接的和明显的。日常使用中的例子包括道路、汽车、房屋、书籍和电话号码。一个简单的测试是询问将数字重新分配到集合中是否会改变集合的性质。例如,如果汽车的牌照号码被更改了,它在现实中仍然是同一辆车。
序数尺度是一个有等级的尺度。这些等级只有在其排序时才有意义,这就是它成为序数尺度的原因。[等级n]减去[等级n-1]不保证等于[等级n-1]减去[等级n-2],但是对于所有n,[等级n]将大于[等级n-1],就像[等级n-1]大于[等级n-2],其中[等级n],[等级n-1]和[等级n-2]存在。序数尺度的等级可以用带有数字或名称的系统以及约定的顺序表示。
我们可以用一个常见的例子来说明这一点:李克特量表。考虑对一个问题有五种可能的回答,比如我们的总统是一位伟人,答案在这个量表上
回复 | 强烈反对 | 反对 | 既不同意也不反对 | 同意 | 强烈同意 |
---|---|---|---|---|---|
代码: | 1 | 2 | 3 | 4 | 5 |
这里答案是一个等级量表,反映在选择的数字代码中。然而,在强烈同意和同意之间的距离与强烈反对和反对之间的距离相同这一点上,并没有意义。
数值等级数据应该与测量数据区分开来。
数值测量存在两种形式,计数型和连续型,并且可以呈现三种类型的尺度:间隔尺度、比率尺度和循环尺度。
计数型或离散变量通常是计数,并且只能取离散值。通常用自然数表示。植物学家在象限中发现的植物数量就是一个例子。(注意,如果象限的边缘部分覆盖了一株或多株植物,研究人员可以选择将它们包括为一半,但数据仍然是计数型的,因为将总数加倍将消除任何分数)。
连续变量是指其测量精度仅受研究人员及其设备限制的变量。植物学家用尺子测量的叶子的长度将不如用千分尺测量的精度高。(理论上,至少,叶子可以用带有格尺的显微镜测量得更精确)。
间隔尺度在间隔尺度上测量的变量具有差异统一且有意义,但比率却没有意义。经常被引用的例子是摄氏温标。5°和10°之间的差异相当于10°和15°之间的差异,但15°和5°之间的比率并不意味着前者是后者的三倍温暖。
比率尺度比率尺度上的变量有一个有意义的零点。为了保持与上述例子的一致性,可以引用开尔文温标。因为有一个绝对零度,所以可以说400°K是200°K的两倍温暖,尽管应该带着开玩笑的态度说。一个更好的日常例子是说一个180公斤的相扑运动员比他60公斤的妻子重三倍。
循环尺度当人们测量年度日期、钟表时间以及其他一些形式的数据时,就会使用循环尺度。在这种情况下,变量的差异或比率可能都没有意义,并且需要对这种数据使用特殊方法。