跳转到内容

统计/摘要/范围

来自维基教科书,开放的书籍,面向开放的世界
(重定向自 统计:摘要/范围)

统计


  1. 介绍
    1. 什么是统计学?
    2. 现代统计学中的主题
    3. 为什么我应该学习统计学? 0% developed
    4. 学习统计学需要了解什么?
  2. 不同类型的数据
    1. 原始数据和二手数据
    2. 定量数据和定性数据
  3. 数据收集方法
    1. 实验
    2. 抽样调查
    3. 观察性研究
  4. 数据分析
    1. 数据清洗
    2. 移动平均
  5. 汇总统计
    1. 集中趋势测量
      1. 平均数、中位数和众数
      2. 几何平均数
      3. 调和平均数
      4. 算术、几何和调和平均数之间的关系
      5. 几何中位数
    2. 离散程度测量
      1. 数据范围
      2. 方差和标准差
      3. 四分位数和四分位数范围
      4. 分位数
  6. 数据展示
    1. 条形图
    2. 比较条形图
    3. 直方图
    4. 散点图
    5. 箱线图
    6. 饼图
    7. 比较饼图
    8. 象形图
    9. 折线图
    10. 频率多边形
  7. 概率
    1. 组合学
    2. 伯努利试验
    3. 贝叶斯分析入门
  8. 分布
    1. 离散分布
      1. 均匀分布
      2. 伯努利分布
      3. 二项分布
      4. 泊松分布
      5. 几何分布
      6. 负二项分布
      7. 超几何分布
    2. 连续分布
      1. 均匀分布
      2. 指数分布
      3. 伽马分布
      4. 正态分布
      5. 卡方分布
      6. 学生t分布
      7. F分布
      8. 贝塔分布
      9. 威布尔分布
  9. 检验统计假设
    1. 统计检验的目的
    2. 使用的形式主义
    3. 不同类型的检验
    4. 单样本z检验
    5. 双样本z检验
    6. 单样本t检验
    7. 双样本t检验
    8. 配对t检验用于比较均值
    9. 单因素方差分析F检验
    10. 单样本比例z检验
    11. 双样本比例z检验
    12. 在 Microsoft Excel 中检验比例 A 是否大于比例 B
    13. 斯皮尔曼等级相关系数
    14. 皮尔逊积矩相关系数
    15. 卡方检验
      1. 多个比例的卡方检验
      2. 列联表的卡方检验
    16. 分布的近似值
  10. 点估计100% developed  as of 12:07, 28 March 2007 (UTC) (12:07, 28 March 2007 (UTC))
    1. 无偏性
    2. 优良性测量
    3. UMVUE
    4. 完备性
    5. 充分性和最小充分性
    6. 辅助性
  11. 练习题
    1. 汇总统计问题
    2. 数据展示问题
    3. 分布问题
    4. 数据检验问题
  12. 数值方法
    1. 基本线性代数和格拉姆-施密特正交化
    2. 无约束优化
    3. 分位数回归
    4. 统计软件的数值比较
    5. Excel 中的数值
    6. 统计/数值方法/随机数生成
  13. 时间序列分析
  14. 多元数据分析
    1. 主成分分析
    2. 度量数据的因子分析
    3. 序数数据的因子分析
    4. 典型相关分析
    5. 判别分析
  15. 特定数据集的分析
    1. 结核病分析
  16. 附录
    1. 作者
    2. 词汇表
    3. 索引
    4. 链接

编辑此框

数据范围

[编辑 | 编辑源代码]

样本(数据集)的范围仅仅是数据中可能的最大差异,即最大值和最小值之间的差异。一个更准确的术语是“范围宽度”,通常用字母 R 或 w 表示。这两个单独的值(最大值和最小值)被称为“范围限制”。通常这些术语会混淆,学生应该注意使用正确的术语。

例如,在一个样本中,值分别为 2 3 5 7 8 11 12,范围是 11 (|12|-|2|+1=11),范围限制是 2 和 12。

范围是数据集中离散程度(分布)最简单、最容易理解的测量,尽管它在日常生活中被广泛使用,但对于严肃的统计工作来说,它过于粗糙。它不是一个“稳健”的度量,因为显然,从总体中找到最大值和最小值的概率很大程度上取决于我们从总体中选择样本的大小,因此它的值很可能在不同的样本之间有很大的差异。此外,它不是一个令人满意的描述符,因为它只依赖于样本中的两个项目,忽略了所有其他项目。一个更好的离散程度测量是标准差(s),它考虑了所有数据。它不仅比范围更稳健、更“有效”,而且也更容易进行更广泛的统计操作。然而,范围在对数据的简单描述以及质量控制图表中仍然经常使用。

然而,一组数据的平均范围是一个非常有效的度量(统计量),可以用作计算s的简便方法。在这种情况下,我们将数据细分为几组,计算它们的平均范围,,并将其除以一个系数(来自表格),该系数取决于 n。例如,在化学实验室中,非常普遍的做法是对样本进行重复分析,因此他们拥有大量现成数据来计算s

(要使用的系数 k 在标准差下给出)

例如:如果我们有一个大小为 40 的样本,我们可以将其分为 10 个 n=4 的子样本。如果我们然后发现它们的平均范围为 3.1,那么 40 个项目的母样本的标准差约为 3.1/2.059 = 1.506。

现在,随着简单的电子计算器的出现,它们可以通过按一个键直接计算s,因此不再需要这种权宜之计,尽管统计学学生应该熟悉它们。

{tBookCat}}

华夏公益教科书