统计学/简介/统计学主题

简介
不同类型的资料
1. 初级和次级资料
2. 量化资料和定性资料
资料收集方法
资料分析
1. 资料清洗
2. 移动平均
汇总统计
1. 集中趋势度量
  1. 平均数、中位数和众数
  2. 几何平均数
  3. 调和平均数
  4. 算术平均数、几何平均数和调和平均数之间的关系
  5. 几何中位数
2. 离散度量
资料展示
1. 条形图
2. 比较条形图
3. 直方图
4. 散点图
5. 箱线图
6. 饼图
7. 比较饼图
8. 象形图
9. 线形图
10. 频率多边形
概率
分布
1. 离散分布
2. 连续分布
统计假设检验
点估计 (2007年3月28日 (UTC) 12:07)
1. 无偏性
2. 优良性度量
3. 一致最小方差无偏估计
4. 完备性
5. 充分性和最小充分性
6. 辅助性
练习题
数值方法
时间序列分析
多元资料分析
特定资料集的分析
1. 结核病的分析
附录
1. 作者
2. 词汇表
3. 索引
4. 链接

今天大量的现代统计学来自20世纪初R.A. 费希尔的原创工作。虽然该领域有许多令人眼花缭乱的小学科，但有一些基本的基础研究。

统计学初学者会根据他们的兴趣对某个主题更感兴趣。以下列出了一些统计学的主要分支。

概率论与数理统计

我们这些纯粹主义者和哲学家可能对纯粹数学和世界的混乱现实之间的交集感兴趣。对概率（尤其是概率分布和误差分布）的严格研究可以帮助我们理解所有这些统计程序和方程式来自哪里。虽然这种严谨性可能会阻碍心理学家（例如）有效地学习和使用统计学，但如果一个人想在该领域进行严肃的（即研究生水平）工作，它是必不可少的。

话虽如此，所有学生都应该对所有这些“统计技术和方程式”来自哪里有一个基本的理解！如果我们能理解我们为什么要使用某种工具，我们就会更善于使用它。挑战在于将这些重要的想法传达给非数学家，而不会让学生的双眼发呆。可以更进一步地争论说，大量的学生实际上永远不会使用t检验——他或她永远不会将这些数字代入计算器并进行一些深奥的方程式运算——但通过对这种检验有一个基本的理解，他或她将能够理解（并质疑）其他人发现的结果。

实验设计

统计学中最被忽视的方面之一——也许也是统计学家喝酒的最大原因——是实验设计。科学家经常将重要实验的结果带给统计学家，并寻求帮助进行分析，结果却发现实验设计中的缺陷导致结果毫无用处。统计学家经常遇到研究人员前来寻求帮助，希望我们能够以某种方式神奇地“挽救”他们的实验。

一位朋友给了我一个关于此的经典例子。在他的心理学课上，他被要求进行一项实验并总结其结果。他决定研究音乐是否会对解决问题产生影响。他让大量的受试者（包括我自己）先在安静的环境中解决一个谜题，然后在听古典音乐时解决，最后在听摇滚乐时解决，最后在安静的环境中解决。他测量了完成每项任务所需的时间，然后总结了结果。

我的朋友没有考虑到的问题是，结果受到他未考虑到的学习效应的很大影响。第一个谜题总是需要更长的时间，因为受试者首先要学习如何解决谜题。到了第三次尝试（在听摇滚乐时），受试者已经非常擅长解决谜题了，因此实验结果似乎表明，人们在听摇滚乐时更擅长解决问题！

简单地随机化测试的顺序就可以隔离“学习效应”，事实上，一个设计良好的实验可以让他测量每种音乐类型的影响和学习的影响。相反，他的结果毫无意义。仔细的实验设计可以帮助保存实验的结果，事实上，一些设计可以节省大量的时间和金钱，最大限度地提高实验的结果，有时还会产生研究人员从未考虑过的额外信息！

抽样

与实验设计类似，抽样研究可以帮助我们找到最有效的统计设计，该设计可以最大限度地提高我们收集的信息量，同时最小化工作量。然而，抽样与实验设计有很大的不同。在实验室里，我们可以设计实验并从头到尾控制它。但很多时候我们想研究实验室之外的东西，对这些东西我们没有多少控制权。

如果我们想测量某种有害甲虫的数量及其对树木的影响，我们将不得不进入森林，进行观察，例如：测量不同地点甲虫的数量，记录它们侵染的树木，测量这些树木的健康状况和大小等。

抽样设计涉及到诸如“我需要进行多少测量？”或“我如何选择测量地点？”等问题。如果没有对这些问题进行规划，研究人员可能会花费大量时间和金钱，结果却发现他们实际上需要对十倍多的点进行采样才能获得有意义的结果，或者他们的一些采样点位于甲虫大量繁殖或树木生长得更好的地貌（如沼泽地）中。

现代回归

回归模型以线性方式将变量相互关联。例如，如果您记录了几个人的身高和体重，并将它们绘制在一起，您会发现随着身高的增加，体重也往往会增加。您可能还会发现，穿过数据的直线是您能找到的最佳近似关系的方式，尽管该直线会有一些可变性。这种线性模型可能是统计学家可用的最重要的工具。它们有着悠久的历史，许多更详细的理论方面是在 1970 年代发现的。拟合此类模型的常用方法是使用“最小二乘法”估计，尽管还有其他方法可用，并且通常更合适，尤其是在数据不符合正态分布时。

但是，如果关系不是直线怎么办？如何将曲线拟合到数据中？这个问题有很多答案。一个简单的解决方案是拟合二次关系，但实际上这种曲线往往不够灵活。此外，如果您有很多变量，并且它们之间的关系不同且复杂怎么办？

现代回归方法旨在解决这些问题。广义加性模型、投影追踪回归、神经网络和 boosting 等方法允许解释变量和响应变量之间存在非常一般化的关系，而现代计算能力使这些方法成为许多应用的实用选择。

分类

有些事物与其他事物不同。为什么？也就是说，对象如何被归类到各自的组中？考虑一家希望向客户贷款的银行。一些借钱的客户将无法或不愿偿还，尽管大多数客户将按期还款。在决定向哪些客户贷款时，银行如何将客户归类到这两个组中？

这个问题的答案无疑受到许多因素的影响，包括客户的收入、信用历史、资产、已有的债务、年龄和职业。可能还有其他有影响力的、可衡量的特征可用于预测特定个体是什么样的客户。银行应该如何决定哪些特征很重要，以及应该如何将这些信息整合到一条规则中，这条规则告诉它是否应该借钱？

这是一个分类问题的例子，统计分类是一个大型领域，包含线性判别分析、分类树、神经网络和其他方法。

时间序列

许多类型的研究都会查看随时间收集的数据，其中今天进行的观察可能与明天进行的观察存在某种相关性。金融（股票市场）和大气科学是这两个领域的突出例子。

我们都见过股票价格随时间上下波动的折线图。投资者有兴趣预测哪些股票可能会继续上涨（即何时买入）以及他们投资组合中的股票何时会下跌。突然出现的好消息或简单的“市场调整”很容易让人误以为是其中之一正在发生，从而错误地推断出其中之一正在发生！

在气象学中，科学家们关注着预测天气的悠久科学。无论是试图预测明天是否晴朗，还是确定我们是否正在经历真正的气候变化（即全球变暖），分析随时间推移的天气数据都非常重要。

生存分析

假设一家制药公司正在研究一种新药，希望这种药能让人们活得更长（无论是通过治愈癌症，降低血压或胆固醇，从而降低患心脏病的风险，还是通过其他机制）。该公司将招募患者参加临床试验，给一些患者服用药物，给其他患者服用安慰剂，并跟踪他们，直到他们积累了足够的数据来回答新药是否以及延长了多少寿命的问题。

此类数据给分析带来了问题。有些患者比其他患者死得早，而且通常有些患者在临床试验结束之前不会死亡。显然，活得更长的患者提供了关于药物延长寿命能力（或无能力）的信息数据。那么应该如何分析这些数据呢？

生存分析提供了这个问题的答案，并为统计学家提供了必要的工具，以充分利用可用数据来正确解释治疗效果。

分类分析

在实验室中，我们可以测量植物结出的水果的重量或化学反应的温度。这些数据点可以使用尺子或温度计轻松测量，但是人的眼睛的颜色或她对西兰花味道的态度呢？心理学家不能用尺子测量某人的愤怒程度，但他们可以询问患者是否感到“非常愤怒”或“有点愤怒”或“无动于衷”。从这些实验中，必须使用完全不同的方法来进行统计分析。分类分析在无数地方都有应用，从政治民意调查到人口普查数据的分析，再到遗传学和医学。

临床试验

在美国，FDA 要求制药公司进行严格的程序，称为临床试验和统计分析，以确保公众安全，然后才能允许销售或使用新药。事实上，制药行业雇佣的统计学家比任何其他行业都多！

进一步阅读