跳转到内容

统计/不同类型的数据

来自维基教科书,开放的书籍,开放的世界

统计


  1. 介绍
    1. 什么是统计?
    2. 现代统计学中的主题
    3. 为什么我应该学习统计? 0% developed
    4. 学习统计需要了解什么?
  2. 不同类型的数据
    1. 原始数据和二手数据
    2. 定量数据和定性数据
  3. 数据收集方法
    1. 实验
    2. 抽样调查
    3. 观察性研究
  4. 数据分析
    1. 数据清洗
    2. 移动平均
  5. 汇总统计
    1. 集中趋势的度量
      1. 平均值、中位数和众数
      2. 几何平均数
      3. 调和平均数
      4. 算术平均数、几何平均数和调和平均数之间的关系
      5. 几何中位数
    2. 离散程度的度量
      1. 数据的范围
      2. 方差和标准差
      3. 四分位数和四分位数间距
      4. 分位数
  6. 数据展示
    1. 条形图
    2. 比较条形图
    3. 直方图
    4. 散点图
    5. 箱线图
    6. 饼图
    7. 比较饼图
    8. 象形图
    9. 折线图
    10. 频率多边形
  7. 概率
    1. 组合学
    2. 伯努利试验
    3. 贝叶斯分析入门
  8. 分布
    1. 离散分布
      1. 均匀分布
      2. 伯努利分布
      3. 二项分布
      4. 泊松分布
      5. 几何分布
      6. 负二项分布
      7. 超几何分布
    2. 连续分布
      1. 均匀分布
      2. 指数分布
      3. 伽马分布
      4. 正态分布
      5. 卡方分布
      6. 学生t分布
      7. F分布
      8. 贝塔分布
      9. 威布尔分布
  9. 检验统计假设
    1. 统计检验的目的
    2. 使用的形式
    3. 不同类型的检验
    4. 单个均值的z检验
    5. 两个均值的z检验
    6. 单个均值的t检验
    7. 两个均值的t检验
    8. 配对t检验用于比较均值
    9. 单因素方差分析F检验
    10. 单个比例的z检验
    11. 两个比例的z检验
    12. 在Microsoft Excel中检验比例A是否大于比例B
    13. 斯皮尔曼等级相关系数
    14. 皮尔逊积矩相关系数
    15. 卡方检验
      1. 多个比例的卡方检验
      2. 列联表的卡方检验
    16. 分布的近似
  10. 点估计100% developed  as of 12:07, 28 March 2007 (UTC) (12:07, 28 March 2007 (UTC))
    1. 无偏性
    2. 优良性的度量
    3. UMVUE
    4. 完备性
    5. 充分性和最小充分性
    6. 辅助性
  11. 练习题
    1. 汇总统计问题
    2. 数据展示问题
    3. 分布问题
    4. 数据检验问题
  12. 数值方法
    1. 基本线性代数和格拉姆-施密特正交化
    2. 无约束优化
    3. 分位数回归
    4. 统计软件的数值比较
    5. Excel中的数值
    6. 统计/数值方法/随机数生成
  13. 时间序列分析
  14. 多元数据分析
    1. 主成分分析
    2. 度量数据的因子分析
    3. 序数数据的因子分析
    4. 典型相关分析
    5. 判别分析
  15. 特定数据集的分析
    1. 结核病分析
  16. 附录
    1. 作者
    2. 词汇表
    3. 索引
    4. 链接

编辑此框


数据是将值分配给事件和对象的观察结果。它们可以根据其编码属性以及其域和范围的特征进行分类。

识别数据类型

[编辑 | 编辑源代码]

当给定的数据集本质上是数值型时,有必要仔细区分被量化的变量的实际性质。统计检验通常针对处理的数据类型。

名义(或分类)尺度上的数据

[编辑 | 编辑源代码]

识别应用于非“度量”属性的数字的真实性质通常是直接的和明显的。日常使用中的例子包括道路、汽车、房屋、书籍和电话号码。一个简单的测试是询问将数字重新分配到集合中是否会改变集合的性质。例如,如果汽车的牌照号码被更改了,它在现实中仍然是同一辆车。

序数尺度上的数据

[编辑 | 编辑源代码]

序数尺度是一个有等级的尺度。这些等级只有在其排序时才有意义,这就是它成为序数尺度的原因。[等级n]减去[等级n-1]不保证等于[等级n-1]减去[等级n-2],但是对于所有n,[等级n]将大于[等级n-1],就像[等级n-1]大于[等级n-2],其中[等级n],[等级n-1]和[等级n-2]存在。序数尺度的等级可以用带有数字或名称的系统以及约定的顺序表示。

我们可以用一个常见的例子来说明这一点:李克特量表。考虑对一个问题有五种可能的回答,比如我们的总统是一位伟人,答案在这个量表上

回复 强烈反对 反对 既不同意也不反对 同意 强烈同意
代码: 1 2 3 4 5

这里答案是一个等级量表,反映在选择的数字代码中。然而,在强烈同意同意之间的距离与强烈反对反对之间的距离相同这一点上,并没有意义。

数值等级数据应该与测量数据区分开来。

测量数据

[编辑 | 编辑源代码]

数值测量存在两种形式,计数型和连续型,并且可以呈现三种类型的尺度:间隔尺度、比率尺度和循环尺度。

计数型离散变量通常是计数,并且只能取离散值。通常用自然数表示。植物学家在象限中发现的植物数量就是一个例子。(注意,如果象限的边缘部分覆盖了一株或多株植物,研究人员可以选择将它们包括为一半,但数据仍然是计数型的,因为将总数加倍将消除任何分数)。

连续变量是指其测量精度仅受研究人员及其设备限制的变量。植物学家用尺子测量的叶子的长度将不如用千分尺测量的精度高。(理论上,至少,叶子可以用带有格尺的显微镜测量得更精确)。

间隔尺度在间隔尺度上测量的变量具有差异统一且有意义,但比率却没有意义。经常被引用的例子是摄氏温标。5°和10°之间的差异相当于10°和15°之间的差异,但15°和5°之间的比率并不意味着前者是后者的三倍温暖。

比率尺度比率尺度上的变量有一个有意义的零点。为了保持与上述例子的一致性,可以引用开尔文温标。因为有一个绝对零度,所以可以说400°K是200°K的两倍温暖,尽管应该带着开玩笑的态度说。一个更好的日常例子是说一个180公斤的相扑运动员比他60公斤的妻子重三倍。

循环尺度当人们测量年度日期、钟表时间以及其他一些形式的数据时,就会使用循环尺度。在这种情况下,变量的差异或比率可能都没有意义,并且需要对这种数据使用特殊方法。

另请参见

[编辑 | 编辑源代码]
华夏公益教科书