跳转到内容

统计学/导论/需要了解的知识

来自维基教科书,为开放世界提供开放书籍

统计学


  1. 导论
    1. 什么是统计学?
    2. 现代统计学中的学科
    3. 为什么我应该学习统计学? 0% developed
    4. 学习统计学需要了解哪些知识?
  2. 不同类型的数据
    1. 原始数据和二手数据
    2. 定量数据和定性数据
  3. 数据收集方法
    1. 实验
    2. 抽样调查
    3. 观察研究
  4. 数据分析
    1. 数据清洗
    2. 移动平均
  5. 汇总统计
    1. 集中趋势的度量
      1. 平均值、中位数和众数
      2. 几何平均数
      3. 调和平均数
      4. 算术平均数、几何平均数和调和平均数之间的关系
      5. 几何中位数
    2. 离散程度的度量
      1. 数据的范围
      2. 方差和标准差
      3. 四分位数和四分位数范围
      4. 分位数
  6. 数据显示
    1. 条形图
    2. 比较条形图
    3. 直方图
    4. 散点图
    5. 箱线图
    6. 饼图
    7. 比较饼图
    8. 象形图
    9. 折线图
    10. 频率多边形
  7. 概率
    1. 组合学
    2. 伯努利试验
    3. 贝叶斯分析入门
  8. 分布
    1. 离散分布
      1. 均匀分布
      2. 伯努利分布
      3. 二项分布
      4. 泊松分布
      5. 几何分布
      6. 负二项分布
      7. 超几何分布
    2. 连续分布
      1. 均匀分布
      2. 指数分布
      3. 伽马分布
      4. 正态分布
      5. 卡方分布
      6. 学生t分布
      7. F分布
      8. 贝塔分布
      9. 威布尔分布
  9. 检验统计假设
    1. 统计检验的目的
    2. 使用形式
    3. 不同类型的检验
    4. 单样本z检验
    5. 双样本z检验
    6. 单样本t检验
    7. 双样本t检验
    8. 配对样本t检验比较均值
    9. 单因素方差分析F检验
    10. 单样本比例z检验
    11. 双样本比例z检验
    12. 在Microsoft Excel中检验比例A是否大于比例B
    13. 斯皮尔曼秩相关系数
    14. 皮尔逊积矩相关系数
    15. 卡方检验
      1. 多样本比例卡方检验
      2. 列联表卡方检验
    16. 分布的近似
  10. 点估计100% developed  as of 12:07, 28 March 2007 (UTC) (12:07, 28 March 2007 (UTC))
    1. 无偏性
    2. 优良性的度量
    3. UMVUE
    4. 完备性
    5. 充分性和最小充分性
    6. 辅助性
  11. 练习题
    1. 汇总统计练习题
    2. 数据显示练习题
    3. 分布练习题
    4. 数据检验练习题
  12. 数值方法
    1. 基本线性代数和格拉姆-施密特正交化
    2. 无约束优化
    3. 分位数回归
    4. 统计软件的数值比较
    5. Excel中的数值
    6. 统计学/数值方法/随机数生成
  13. 时间序列分析
  14. 多元数据分析
    1. 主成分分析
    2. 度量数据的因子分析
    3. 序数数据的因子分析
    4. 典型相关分析
    5. 判别分析
  15. 特定数据集的分析
    1. 结核病分析
  16. 附录
    1. 作者
    2. 词汇表
    3. 索引
    4. 链接

编辑此框


统计学是一个多元化的学科,因此所需数学知识取决于我们所研究的统计学类型。大多数多元统计学需要扎实的线性代数基础,但对于入门统计学来说则不是必需的。无论研究哪个统计学分支,微积分基础知识都是很有用的。

最低限度,学生应该掌握代数中教授的基本概念,并且对“移动事物”和求解未知数感到舒适。这里大多数统计学都源于一些基本的事物,读者应该熟悉这些事物。

绝对值

[编辑 | 编辑源代码]


如果数字是零或正数,则该数字的绝对值就是该数字本身。如果数字是负数,则去掉负号即可得到绝对值。

  • |42| = 42
  • |-5| = 5
  • |2.21| = 2.21

阶乘是在概率中经常使用的一种计算。它只针对大于或等于零的整数定义,如下所示:

简而言之,这意味着:

0! = 1 = 1
1! = 1 · 1 = 1
2! = 2 · 1 = 2
3! = 3 · 2 · 1 = 6
4! = 4 · 3 · 2 · 1 = 24
5! = 5 · 4 · 3 · 2 · 1 = 120
6! = 6 · 5 · 4 · 3 · 2 · 1 = 720

求和(也称为级数)在统计学中应用非常广泛,几乎比任何其他技术都多。它是一种表示对大量值的加法的方法,无需在每个加号后面加上加号。我们使用大写西格玛符号 ∑ 来表示求和。

例子

[edit | edit source]

在统计学中,我们经常对一组相关的变量进行求和。

这里,我们正在对所有 x 变量进行求和(希望在计算时,所有 x 变量都具有值)。∑ 下面的表达式(本例中为 i=0)代表索引变量及其起始值(i 的起始值为 0),而 ∑ 上面的数字代表变量将递增到的值(步长为 1,因此 i = 0, 1, 2, 3, 然后 4)。另一个例子:

请注意,我们可以通过将 2 移到求和符号之外来获得相同的值(先执行求和,然后再乘以 2,而不是将求和的每个组成部分都乘以 2)。

无穷级数

[edit | edit source]

当然,级数并不一定要以任何确定的值或有限值进行计数——它可以无限地继续下去。这些级数被称为“无穷级数”,有时它们甚至可以收敛到一个有限值,当级数中的项数接近无穷大 (∞) 时,最终会等于该值。

例子

[edit | edit source]

这个例子是著名的几何级数。请注意,该级数趋于 ∞(无穷大,这意味着它不会停止),并且它只对变量 r 的某些值有效。这意味着如果 r 在 -1 和 1 之间 (-1 < r < 1),那么当级数扩展得越远时,求和将越来越接近(即收敛到)1 / 1-r

线性逼近

[edit | edit source]
v / α 0.20 0.10 0.05 0.025 0.01 0.005
40 0.85070 1.30308 1.68385 2.02108 2.42326 2.70446
50 0.84887 1.29871 1.67591 2.00856 2.40327 2.67779
60 0.84765 1.29582 1.67065 2.00030 2.39012 2.66028
70 0.84679 1.29376 1.66691 1.99444 2.38081 2.64790
80 0.84614 1.29222 1.66412 1.99006 2.37387 2.63869
90 0.84563 1.29103 1.66196 1.98667 2.36850 2.63157
100 0.84523 1.29007 1.66023 1.98397 2.36422 2.62589
学生 t 分布在不同自由度下,对应不同临界值。


假设您正在查看一个值表,例如上面的值表。您想要近似(获得对 63 处值的良好估计),但您的表中没有这些值。这里一个好的解决方案是使用线性逼近来获得一个可能接近您真正想要的值,而无需经历计算表中额外步骤的所有麻烦。

这仅仅是将直线方程应用于数据表。xi 表示您想要了解的数据点, 是您想要了解的点下方已知数据点,而 是您想要了解的点上方已知数据点。

例子

[edit | edit source]

使用上面的表格,找到 0.05 列中 63 处的值。

首先,我们在上面的表中确认我们需要对该值进行近似。如果我们准确地知道它,那么实际上就没有必要对它进行近似。就目前而言,它将位于表中 60 和 70 之间的位置。其他一切都可以从表中获得。

 

 

使用软件,我们计算出 *f*(63) 的实际值为 1.669402,与之相差约 0.00013。对于我们的目的来说,这已经足够接近了。

华夏公益教科书