跳转到内容

统计/摘要/四分位数

来自维基教科书,开放书籍,开放世界

统计学


  1. 简介
    1. 什么是统计学?
    2. 现代统计学中的学科
    3. 为什么我应该学习统计学? 0% developed
    4. 我需要了解什么才能学习统计学?
  2. 不同类型的数据
    1. 原始数据和二手数据
    2. 定量数据和定性数据
  3. 数据收集方法
    1. 实验
    2. 抽样调查
    3. 观察性研究
  4. 数据分析
    1. 数据清洗
    2. 移动平均
  5. 汇总统计
    1. 集中趋势的度量
      1. 平均数、中位数和众数
      2. 几何平均数
      3. 调和平均数
      4. 算术平均数、几何平均数和调和平均数之间的关系
      5. 几何中位数
    2. 离散程度的度量
      1. 数据的范围
      2. 方差和标准差
      3. 四分位数和四分位间距
      4. 分位数
  6. 数据显示
    1. 条形图
    2. 比较条形图
    3. 直方图
    4. 散点图
    5. 箱线图
    6. 饼图
    7. 比较饼图
    8. 象形图
    9. 折线图
    10. 频率多边形
  7. 概率
    1. 组合学
    2. 伯努利试验
    3. 贝叶斯分析入门
  8. 分布
    1. 离散分布
      1. 均匀分布
      2. 伯努利分布
      3. 二项分布
      4. 泊松分布
      5. 几何分布
      6. 负二项分布
      7. 超几何分布
    2. 连续分布
      1. 均匀分布
      2. 指数分布
      3. 伽马分布
      4. 正态分布
      5. 卡方分布
      6. 学生t分布
      7. F分布
      8. 贝塔分布
      9. 威布尔分布
  9. 统计假设检验
    1. 统计检验的目的
    2. 使用的形式化
    3. 不同类型的检验
    4. 单个均值的z检验
    5. 两个均值的z检验
    6. 单个均值的t检验
    7. 两个均值的t检验
    8. 配对t检验用于比较均值
    9. 单因素方差分析F检验
    10. 单个比例的z检验
    11. 两个比例的z检验
    12. 在Microsoft Excel中检验比例A是否大于比例B
    13. 斯皮尔曼等级相关系数
    14. 皮尔逊积矩相关系数
    15. 卡方检验
      1. 多个比例的卡方检验
      2. 列联表的卡方检验
    16. 分布的近似
  10. 点估计100% developed  as of 12:07, 28 March 2007 (UTC) (12:07, 28 March 2007 (UTC))
    1. 无偏性
    2. 优良性的度量
    3. UMVUE
    4. 完备性
    5. 充分性和最小充分性
    6. 辅助性
  11. 练习题
    1. 汇总统计问题
    2. 数据显示问题
    3. 分布问题
    4. 数据检验问题
  12. 数值方法
    1. 基本线性代数和格拉姆-施密特正交化
    2. 无约束优化
    3. 分位数回归
    4. 统计软件的数值比较
    5. Excel中的数值计算
    6. 统计/数值方法/随机数生成
  13. 时间序列分析
  14. 多元数据分析
    1. 主成分分析
    2. 度量数据的因子分析
    3. 序数数据的因子分析
    4. 典型相关分析
    5. 判别分析
  15. 特定数据集的分析
    1. 结核病分析
  16. 附录
    1. 作者
    2. 词汇表
    3. 索引
    4. 链接

编辑此框

四分位数

[编辑 | 编辑源代码]

数据集的四分位数是由中位数两侧的两个边界形成的,它们将数据集分成四个相等的部分。最低的 25% 的数据位于第一个四分位数值以下,也称为下四分位数 (Q1)。中位数或第二个四分位数将数据集分成两个相等的部分。最低的 75% 的数据集应该位于第三个四分位数以下,也称为上四分位数 (Q3)。这三个数字是数据离散程度的度量,而平均数、中位数和众数是集中趋势的度量。

给定集合 {1, 3, 5, 8, 9, 12, 24, 25, 28, 30, 41, 50},我们将找到第一个和第三个四分位数如下

该集合中有 12 个元素,所以 12/4 给我们集合的每个四分之一有三个元素。

因此第一个或最低的四分位数是:5,第二个四分位数是中位数12,第三个或最高的四分位数是28

但是,有些人当遇到具有偶数元素(值)的集合时,仍然想要真正的中位数(或中间值),在中位数的两侧有相同数量的数据值(而不是 12,它有 5 个值小于它,6 个值大于它)。然后,该值是 12 和 24 的平均值,得出 18 作为真正中位数(它更接近平均值 19 2/3)。然后将相同的过程应用于较低的和较高的四分位数,得到6.51829。这只有在数据包含偶数个元素且有偶数个相等分割的部分,或者奇数个元素且有奇数个相等分割的部分时才是一个问题。

四分位间距

[编辑 | 编辑源代码]

四分位间距是一个统计量,它提供有关数据集的扩展信息,并通过从第三个四分位数中减去第一个四分位数来计算,从而得到数据集中间一半的范围,修剪掉最低和最高的四分位数。由于 IQR 完全不受数据中异常值的影响,因此它是比范围更稳健的离散程度度量。

IQR = Q3 - Q1

另一个有用的分位数是五分位数,它将数据分成五个相等的部分。五分位数的优点是它有一个中心部分,它在中位数的两侧都有边界,可以用作平均组。在正态分布中,五分位数的边界在均值(或中位数)的两侧有±0.253*s 和±0.842*s 的边界,其中 s 是样本标准差。请注意,在正态分布中,均值、中位数和众数重合。

其他常用的分位数是十分位数(10 个相等的部分)和百分位数(100 个相等的部分)

华夏公益教科书