跳转到内容

统计学/概率

来自维基教科书,开放的书籍,开放的世界

统计学


  1. 简介
    1. 什么是统计学?
    2. 现代统计学中的学科
    3. 为什么我应该学习统计学? 0% developed
    4. 学习统计学需要哪些知识?
  2. 不同类型的数据
    1. 原始数据和二手数据
    2. 定量数据和定性数据
  3. 数据收集方法
    1. 实验
    2. 抽样调查
    3. 观察性研究
  4. 数据分析
    1. 数据清洗
    2. 移动平均
  5. 汇总统计量
    1. 集中趋势度量
      1. 平均数、中位数和众数
      2. 几何平均数
      3. 调和平均数
      4. 算术平均数、几何平均数和调和平均数之间的关系
      5. 几何中位数
    2. 离散程度度量
      1. 数据的极差
      2. 方差和标准差
      3. 四分位数和四分位距
      4. 分位数
  6. 数据显示
    1. 条形图
    2. 比较条形图
    3. 直方图
    4. 散点图
    5. 箱线图
    6. 饼图
    7. 比较饼图
    8. 象形图
    9. 线形图
    10. 频率多边形
  7. 概率
    1. 组合学
    2. 伯努利试验
    3. 贝叶斯分析入门
  8. 分布
    1. 离散分布
      1. 均匀分布
      2. 伯努利分布
      3. 二项分布
      4. 泊松分布
      5. 几何分布
      6. 负二项分布
      7. 超几何分布
    2. 连续分布
      1. 均匀分布
      2. 指数分布
      3. 伽马分布
      4. 正态分布
      5. 卡方分布
      6. 学生t分布
      7. F分布
      8. 贝塔分布
      9. 威布尔分布
  9. 检验统计假设
    1. 统计检验的目的
    2. 使用的形式
    3. 不同类型的检验
    4. 单个均值的z检验
    5. 两个均值的z检验
    6. 单个均值的t检验
    7. 两个均值的t检验
    8. 配对t检验,用于比较均值
    9. 单因素方差分析F检验
    10. 单个比例的z检验
    11. 两个比例的z检验
    12. 在Microsoft Excel中检验比例A是否大于比例B
    13. 斯皮尔曼等级相关系数
    14. 皮尔逊积矩相关系数
    15. 卡方检验
      1. 多个比例的卡方检验
      2. 列联表的卡方检验
    16. 分布的近似
  10. 点估计100% developed  as of 12:07, 28 March 2007 (UTC) (12:07, 28 March 2007 (UTC))
    1. 无偏性
    2. 优良性度量
    3. UMVUE
    4. 完备性
    5. 充分性与最小充分性
    6. 辅助性
  11. 练习题
    1. 汇总统计量问题
    2. 数据显示问题
    3. 分布问题
    4. 数据检验问题
  12. 数值方法
    1. 基本线性代数和格拉姆-施密特正交化
    2. 无约束优化
    3. 分位数回归
    4. 统计软件的数值比较
    5. Excel中的数值
    6. 统计学/数值方法/随机数生成
  13. 时间序列分析
  14. 多元数据分析
    1. 主成分分析
    2. 度量数据的因子分析
    3. 序数据的因子分析
    4. 典型相关分析
    5. 判别分析
  15. 特定数据集的分析
    1. 结核病分析
  16. 附录
    1. 作者
    2. 词汇表
    3. 索引
    4. 链接

编辑此框


掷两个骰子,它们的和等于7的概率是多少?

概率与一些不可预测性有关。我们知道可能出现哪些结果,但不能确定具体是哪一个。所有可能结果的集合起着基本作用。我们称之为样本空间,并用S表示。S的元素称为结果。掷骰子的样本空间为S = {1,2,3,4,5,6}。我们不仅谈论结果,还谈论事件,结果的集合(或样本空间的子集)。例如,掷骰子时,我们可以询问结果是否为偶数,这意味着询问“偶数”事件= E = {2,4,6}。在结果数量有限的简单情况下,我们为每个结果s (∈ S) 指定其概率(出现概率)p(s)(用小写p表示),它是一个介于0和1之间的数。这是一个非常简单的函数,称为概率函数,其唯一其他属性是所有概率的总和为1。我们也讨论事件A的概率P(A)(用大写P表示),它只是A中所有结果的概率之和。对于一个公平的骰子,p(s) = 1/6,对于每个结果s,P(“偶数”) = P(E) = 1/6+1/6+1/6 = 1/2。

非有限样本空间的概率的一般概念稍微复杂一些,尽管它建立在相同的想法之上。

为什么在统计学教科书中要学习概率?

[编辑 | 编辑源代码]

数学中很少有真正自包含的东西。许多数学分支相互接触和相互作用,概率和统计领域也不例外。对概率的基本理解对于理解基本统计学至关重要,而概率在没有统计学来确定“现实世界”概率的情况下在很大程度上是抽象的。

本节并非旨在对概率进行全面讲授,而是简单地触及本课程所需的概率基础,涵盖贝叶斯分析的基础知识,以供那些寻求更有趣内容的学生使用。这些知识对于尝试理解各种分布的数学原理将非常宝贵,这些分布将在后面介绍。

集合概念

[编辑 | 编辑源代码]

集合是一组对象。我们通常用大写字母表示集合,例如,A是这个房间里所有女性的集合。

  • 集合A的成员称为A的元素,例如,帕特里夏是A的一个元素(帕特里夏∈ A);帕特里克不是A的一个元素(帕特里克∉ A)。
  • 全集U是所考虑的所有对象的集合,例如,U是这个房间里所有人的集合。
  • 空集或空集∅没有任何元素,例如,这个房间里身高超过2.8米的男性集合是一个空集。
  • 集合A的补集Ac是U中不在A中的所有元素的集合,即,x ∈ Ac 当且仅当 x ∉ A。
  • 设A和B为2个集合。如果A的每个元素也是B的元素,则A是B的子集。写成A ⊂ B,例如,这个房间里戴金属框眼镜的女性集合 ⊂ 戴眼镜的女性集合 ⊂ 这个房间里的女性集合。

• 两个集合A和B的交集A ∩ B是共同元素的集合。即,x ∈ A ∩ B 当且仅当 x ∈ A 且 x ∈ B。

• 两个集合A和B的并集A ∪ B是A或B中所有元素的集合。即,x ∈ A ∪ B 当且仅当 x ∈ A 或 x ∈ B。

韦恩图和符号

[编辑 | 编辑源代码]

韦恩图以视觉方式对定义的事件进行建模。每个事件用一个圆圈表示。具有共同结果的事件将重叠,被称为事件的交集。

韦恩图。


概率公理

[编辑 | 编辑源代码]

计算概率

[编辑 | 编辑源代码]

否定是一种表达“非A”的方式,因此表示A的补集已经发生。注意:事件A的补集可以表示为A'或Ac
例如:“六面骰子落在1上的概率是多少?”(六分之五,或p = 0.833)

事件的补集

或者,更口语化地说,“‘非X’的概率加上‘X’的概率等于1或100%。”

相对频率描述了成功次数与总结果次数之比。例如,如果抛硬币50次,其中29次正面朝上,那么相对频率是


两个事件的并集是指你想知道事件A或事件B。
这与“和”不同。“和”是交集,而“或”是事件的并集(两个事件合在一起)。


在上面的事件示例中,你会注意到...

事件A是星星和钻石。

事件B是三角形、五边形和星星。
(A ∩ B) = (A 和 B) = A 与 B 的交集,只有星星
但 (A ∪ B) = (A 或 B) = A 与 B 的并集,是所有东西。三角形、五边形、星星和钻石
注意,事件A和事件B都有星星作为共同点。但是,当你列出事件的并集时,你只列出星星一次!
事件A = 星星,钻石 事件B = 三角形,五边形,星星
当你将它们组合在一起时,你得到(星星+钻石)+(三角形+五边形+星星),但是等等!星星被列出了两次,所以需要从列表中减去多余的星星。
你应该注意到,是交集被列出了两次,所以你必须减去重复的交集。

事件并集的公式:P(A ∪ B) = P(A) + P(B) - P(A ∩ B)

示例
设 P(A) = 0.3,P(B) = 0.2,P(A ∩ B) = 0.15。求 P(A ∪ B)。
P(A ∪ B) = (0.3) + (0.2) - (0.15) = 0.35

示例
设 P(A) = 0.3,P(B) = 0.2,P(A ∩ B) = 0。求 P(A ∪ B)。
注意:由于事件的交集为空集,那么你便知道事件是分离的或互斥的。
P(A ∪ B) = (0.3) + (0.2) - (0) = 0.5

全概率定理

[编辑 | 编辑源代码]

全概率定理[1] 是一个定理,在离散情况下,它表明如果 {\displaystyle \left\{{B_{n}:n=1,2,3,\ldots }\right\}}\left\{{B_{n}:n=1,2,3,\ldots }\right\} 是样本空间的一个有限或可数无限划分(换句话说,一组两两不相交的事件,它们的并集是整个样本空间),并且每个事件 {\displaystyle B_{n}}B_{n} 是可测的,那么对于同一个概率空间的任意事件 {\displaystyle A}A

{\displaystyle P(A)=\sum _{n}P(A\cap B_{n})}{\displaystyle P(A)=\sum _{n}P(A\cap B_{n})} 或者,另一种说法是[1]

{\displaystyle P(A)=\sum _{n}P(A\mid B_{n})P(B_{n}),}{\displaystyle P(A)=\sum _{n}P(A\mid B_{n})P(B_{n}),} 其中,对于任何 {\displaystyle n}n,如果 {\displaystyle P(B_{n})=0}{\displaystyle P(B_{n})=0},这些项将被简单地从求和中省略,因为 {\displaystyle P(A\mid B_{n})}{\displaystyle P(A\mid B_{n})} 是有限的。

条件概率

[编辑 | 编辑源代码]

给定另一个事件发生的情况下,一个事件的概率是多少?例如,给定老鼠找到了迷宫的房间,那么它找到迷宫尽头的概率是多少?

这用以下方式表示

或“给定B的情况下,A的概率”。

如果AB彼此独立,例如抛硬币或生育孩子,那么

因此,“给定上一个孩子是男孩,那么下一个孩子是男孩的概率是多少?”

这也可叠加,其中A的概率有几个“给定”。

或“给定B1、B2和B3为真,那么A的概率是多少?”

-->


结论:综合起来

[编辑 | 编辑源代码]
华夏公益教科书