统计/不同类型的数据

介绍
不同类型的数据
1. 原始数据和二手数据
2. 定量数据和定性数据
数据收集方法
数据分析
1. 数据清洗
2. 移动平均
汇总统计
1. 集中趋势的度量
  1. 平均值、中位数和众数
  2. 几何平均数
  3. 调和平均数
  4. 算术平均数、几何平均数和调和平均数之间的关系
  5. 几何中位数
2. 离散程度的度量
数据展示
1. 条形图
2. 比较条形图
3. 直方图
4. 散点图
5. 箱线图
6. 饼图
7. 比较饼图
8. 象形图
9. 折线图
10. 频率多边形
概率
分布
1. 离散分布
2. 连续分布
检验统计假设
点估计 (12:07, 28 March 2007 (UTC))
1. 无偏性
2. 优良性的度量
3. UMVUE
4. 完备性
5. 充分性和最小充分性
6. 辅助性
练习题
数值方法
时间序列分析
多元数据分析
特定数据集的分析
1. 结核病分析
附录
1. 作者
2. 词汇表
3. 索引
4. 链接

数据是将值分配给事件和对象的观察结果。它们可以根据其编码属性以及其域和范围的特征进行分类。

识别数据类型

当给定的数据集本质上是数值型时，有必要仔细区分被量化的变量的实际性质。统计检验通常针对处理的数据类型。

名义（或分类）尺度上的数据

识别应用于非“度量”属性的数字的真实性质通常是直接的和明显的。日常使用中的例子包括道路、汽车、房屋、书籍和电话号码。一个简单的测试是询问将数字重新分配到集合中是否会改变集合的性质。例如，如果汽车的牌照号码被更改了，它在现实中仍然是同一辆车。

序数尺度上的数据

序数尺度是一个有等级的尺度。这些等级只有在其排序时才有意义，这就是它成为序数尺度的原因。[等级n]减去[等级n-1]不保证等于[等级n-1]减去[等级n-2]，但是对于所有n，[等级n]将大于[等级n-1]，就像[等级n-1]大于[等级n-2]，其中[等级n]，[等级n-1]和[等级n-2]存在。序数尺度的等级可以用带有数字或名称的系统以及约定的顺序表示。

我们可以用一个常见的例子来说明这一点：李克特量表。考虑对一个问题有五种可能的回答，比如我们的总统是一位伟人，答案在这个量表上

回复	强烈反对	反对	既不同意也不反对	同意	强烈同意
代码:	1	2	3	4	5

这里答案是一个等级量表，反映在选择的数字代码中。然而，在强烈同意和同意之间的距离与强烈反对和反对之间的距离相同这一点上，并没有意义。

数值等级数据应该与测量数据区分开来。

测量数据

数值测量存在两种形式，计数型和连续型，并且可以呈现三种类型的尺度：间隔尺度、比率尺度和循环尺度。

计数型或离散变量通常是计数，并且只能取离散值。通常用自然数表示。植物学家在象限中发现的植物数量就是一个例子。（注意，如果象限的边缘部分覆盖了一株或多株植物，研究人员可以选择将它们包括为一半，但数据仍然是计数型的，因为将总数加倍将消除任何分数）。

连续变量是指其测量精度仅受研究人员及其设备限制的变量。植物学家用尺子测量的叶子的长度将不如用千分尺测量的精度高。（理论上，至少，叶子可以用带有格尺的显微镜测量得更精确）。

间隔尺度在间隔尺度上测量的变量具有差异统一且有意义，但比率却没有意义。经常被引用的例子是摄氏温标。5°和10°之间的差异相当于10°和15°之间的差异，但15°和5°之间的比率并不意味着前者是后者的三倍温暖。

比率尺度比率尺度上的变量有一个有意义的零点。为了保持与上述例子的一致性，可以引用开尔文温标。因为有一个绝对零度，所以可以说400°K是200°K的两倍温暖，尽管应该带着开玩笑的态度说。一个更好的日常例子是说一个180公斤的相扑运动员比他60公斤的妻子重三倍。

循环尺度当人们测量年度日期、钟表时间以及其他一些形式的数据时，就会使用循环尺度。在这种情况下，变量的差异或比率可能都没有意义，并且需要对这种数据使用特殊方法。

另请参见

数据科学：入门/数据定义