跳转至内容

统计学/概要/范围

来自维基教科书,开放世界中的开放书籍

统计学


  1. 介绍
    1. 什么是统计学?
    2. 现代统计学主题
    3. 为什么我要学习统计学? 0% 开发完成
    4. 我需要知道什么才能学习统计学?
  2. 不同类型的数据
    1. 初级和次级数据
    2. 定量和定性数据
  3. 数据收集方法
    1. 实验
    2. 抽样调查
    3. 观察研究
  4. 数据分析
    1. 数据清洗
    2. 移动平均
  5. 汇总统计量
    1. 集中趋势的度量
      1. 平均数、中位数和众数
      2. 几何平均数
      3. 调和平均数
      4. 算术平均数、几何平均数和调和平均数之间的关系
      5. 几何中位数
    2. 离散程度的度量
      1. 数据范围
      2. 方差和标准差
      3. 四分位数和四分位距
      4. 分位数
  6. 数据显示
    1. 条形图
    2. 比较条形图
    3. 直方图
    4. 散点图
    5. 箱线图
    6. 饼图
    7. 比较饼图
    8. 象形图
    9. 折线图
    10. 频数多边形
  7. 概率
    1. 组合学
    2. 伯努利试验
    3. 贝叶斯分析入门
  8. 分布
    1. 离散分布
      1. 均匀分布
      2. 伯努利分布
      3. 二项分布
      4. 泊松分布
      5. 几何分布
      6. 负二项分布
      7. 超几何分布
    2. 连续分布
      1. 均匀分布
      2. 指数分布
      3. 伽马分布
      4. 正态分布
      5. 卡方分布
      6. 学生t分布
      7. F分布
      8. 贝塔分布
      9. 威布尔分布
  9. 检验统计假设
    1. 统计检验的目的
    2. 使用的形式主义
    3. 不同类型的检验
    4. 单样本z检验
    5. 双样本z检验
    6. 单样本t检验
    7. 双样本t检验
    8. 配对样本t检验
    9. 单因素方差分析F检验
    10. 单样本比例z检验
    11. 双样本比例z检验
    12. 在 Microsoft Excel 中检验比例 A 是否大于比例 B
    13. 斯皮尔曼等级相关系数
    14. 皮尔逊积矩相关系数
    15. 卡方检验
      1. 多样本比例卡方检验
      2. 列联表卡方检验
    16. 分布的近似
  10. 点估计100% 开发完成  截至 2007 年 3 月 28 日 12:07 (UTC) (2007 年 3 月 28 日 12:07 (UTC))
    1. 无偏性
    2. 优良性指标
    3. UMVUE
    4. 完备性
    5. 充分性与最小充分性
    6. 辅助性
  11. 练习题
    1. 汇总统计量问题
    2. 数据显示问题
    3. 分布问题
    4. 数据检验问题
  12. 数值方法
    1. 基本线性代数和格拉姆-施密特正交化
    2. 无约束优化
    3. 分位数回归
    4. 统计软件的数值比较
    5. Excel 中的数值
    6. 统计学/数值方法/随机数生成
  13. 时间序列分析
  14. 多元数据分析
    1. 主成分分析
    2. 度量数据的因子分析
    3. 序数数据的因子分析
    4. 典型相关分析
    5. 判别分析
  15. 特定数据集的分析
    1. 结核病分析
  16. 附录
    1. 作者
    2. 词汇表
    3. 索引
    4. 链接

编辑此框

数据范围

[编辑 | 编辑源代码]

样本(数据集)的范围只是数据中可能的最大差异,即最大值和最小值之间的差异。更准确的术语是“范围宽度”,通常用字母 R 或 w 表示。这两个单独的值(最大值和最小值)称为“范围限”。通常这些术语会被混淆,学生应该注意使用正确的术语。

例如,在一个样本中,值分别为 2 3 5 7 8 11 12,则范围是 11(|12|-|2|+1=11),范围限是 2 和 12。

范围是理解数据离散程度(散布)最简单、最容易理解的度量,虽然它在日常生活中被广泛使用,但对于严肃的统计工作来说太粗略了。它不是一个“稳健”的度量,因为显然在总体中找到最大值和最小值的可能性很大程度上取决于我们从总体中选择的样本大小,因此它的值可能在一个样本到另一个样本之间有很大的差异。此外,它不是数据的令人满意的描述符,因为它仅依赖于样本中的两个项目,而忽略了所有其他项目。离散程度的一个好得多的度量是标准差(s),它考虑了所有数据。它不仅比范围更稳健和“有效”,而且还适用于更广泛的统计操作。然而,范围仍然广泛用于对数据的简单描述,以及在质量控制图中。

然而,一组数据的平均范围是一个相当有效的度量(统计量),可以用作计算s的简便方法。在这种情况下,我们所做的是将数据细分为几个成员组,计算它们的平均范围,,并将其除以一个取决于 n 的系数(来自表格)。例如,在化学实验室中,分析样本通常是成对进行的,因此它们有大量现成数据来计算s

(使用的系数 k 在标准差下给出。)

例如:如果我们有一个大小为 40 的样本,我们可以将其细分为 10 个子样本,每个子样本的大小为 n=4。如果我们发现它们的平均范围是,比如说,3.1,那么包含 40 个项目的父样本的标准差大约为 3.1/2.059 = 1.506。

现在有简单的电子计算器可用,它们只需按一下键就可以直接计算s,因此不再需要这样的权宜之计,尽管统计学学生应该熟悉它们。

{tBookCat}

华夏公益教科书