社会研究方法/统计分析

简介

• 统计学是数学的应用分支，特别适合各种研究分析。

描述性统计

• 描述性统计用于总结研究中的数据。一些描述性统计总结了单个变量上属性的分布；其他总结了变量之间的关联。

• 总结变量之间关系的描述性统计称为关联度量。

• 许多关联度量基于误差比例减少 (PRE) 模型。该模型基于对以下内容的比较：1. 在尝试猜测研究中每个案例中给定变量的属性时，我们会犯多少错误——如果我们除了该变量上属性的分布外什么都不知道——以及 2. 如果我们知道整体联合分布，并且每次要求我们猜测另一个变量的属性时，都会告诉我们每个案例中一个变量的属性，那么我们会犯多少错误。这些度量包括 _lambda_，它适用于分析两个名义变量；_gamma_，它适用于分析两个有序变量；以及 _皮尔逊积矩相关_，它适用于分析两个区间或比率变量。

• _回归分析_ 以方程式的形式表示变量之间的关系，这些方程式可用于根据一个或多个自变量的值预测因变量的值。

• 回归方程是在回归线的基础上计算的：几何线代表了散点图中点实际位置的最小偏差。

• 回归分析的类型包括线性回归分析、多元回归分析、偏回归分析和曲线回归分析。

推论统计

• 推论统计用于估计从样本分析中得出的发现对所选样本的更大总体的一般性。一些推论统计估计总体的单变量特征；另一些——统计显著性检验——估计总体中变量之间的关系。

• 关于总体某些特征的推论必须表明置信区间和置信水平。置信水平和区间的计算基于概率论，并假设研究中采用了传统的概率抽样技术。

• 关于样本中发现的变量之间关联对总体的普遍性推论涉及统计显著性检验，这些检验估计在总体中变量之间不存在关联的情况下，观察到的关联程度可能仅仅是由正常抽样误差导致的可能性。统计显著性检验也基于概率论，并假设研究中采用了传统的概率抽样技术。

• 观察到的关联的显著性水平以关联仅仅是由抽样误差产生的概率形式报告。说关联在 0.05 水平上是显著的，就是说关联程度与观察到的关联一样大，不能预期仅仅由于抽样误差而出现超过 100 次中的 5 次。

• 社会研究人员倾向于在与统计显著性检验相关的特定显著性水平集使用：0.05、0.01 和 0.001。但这仅仅是一种惯例。

• 表格数据中经常使用的一种统计显著性检验是卡方检验。

• _t 检验_ 是一个经常用于比较均值的统计显著性检验。

• 统计显著性不应与实质性显著性混淆，后者意味着观察到的关联是强烈的、重要的、有意义的，或者值得写信告诉你的母亲。

• 严格来说，统计显著性检验对数据和方法做出了假设，这些假设几乎从未完全满足于实际的社会研究。尽管如此，这些检验仍然可以为数据的分析和解释提供有用的功能。

其他多元技术

• _路径分析_ 是一种图形化呈现多个变量之间因果关系网络的方法。它说明了自变量导致因变量的主要“路径”。路径系数代表变量之间的偏关系。

• _时间序列分析_ 是对变量（如犯罪率）随时间变化的分析。

• _因子分析_ 只能通过计算机实现，是一种分析方法，用于发现由一组实际变量所代表的总体维度。这些总体维度或因子是计算出的假设维度，它们不能完全由任何正在研究的经验变量代表，但与经验变量组高度相关。因子负荷表示给定经验变量与给定因子之间的关联程度。

• _方差分析_ (ANOVA) 基于比较组之间和组内的变化，并确定组间差异是否可以合理地发生在简单随机抽样中，或者它们是否可能代表所涉及变量之间的真实关系。

• _判别分析_ 试图解释某个因变量的变化。它得到一个方程，根据该假设维度对人们进行评分，并允许我们预测他们在因变量上的值。

• _对数线性模型_ 提供了一种方法来分析多个名义变量之间复杂的相互关系，每个名义变量都具有两个以上的属性。

• _地理信息系统_ (GIS) 绘制描述地理单元的定量数据以进行图形显示。

关键词 对于理解统计分析很重要。

• 方差分析 (ANOVA)：分析方法，其中研究中的案例被组合成代表自变量的组，并且组之间差异的程度是根据某个因变量进行分析的。然后，比较组间差异的程度与随机分布的标准。

• 曲线回归分析：一种回归分析形式，允许变量之间的关系用曲线几何线而不是直线来表示。

• 描述性统计：描述样本特征或样本中变量之间关系的统计计算。描述性统计仅仅总结了一组样本观察结果，而推论统计则超越了对特定观察结果的描述，对样本观察结果所来自的更大总体进行推断。

• 判别分析：一种类似于多元回归的分析方法，除了因变量可以是名义变量。

• 因子分析：一种复杂代数方法，用于确定一组具体观察结果中存在的总体维度或因子。

• 地理信息系统 (GIS)：分析技术，其中研究人员绘制描述地理单元的定量数据以进行图形显示。

• 推论统计：与从基于样本观察结果的发现推断到更大总体相关的统计计算的集合。

• 显著性水平：在统计显著性检验的背景下，观察到的经验关系可能是由于抽样误差造成的可能性。如果关系仅仅是抽样误差函数的可能性不超过 100 次中的 5 次，则关系在 0.05 水平上是显著的。

• 线性回归分析：一种统计分析形式，它寻找最能描述两个比率变量之间关系的直线方程。

• 对数线性分析：数据分析技术，基于指定描述变量之间相互关系的模型，然后比较预期和观察到的表格单元频率。

• 多元回归分析：一种统计分析形式，它寻找表示两个或多个自变量对单个因变量的影响的方程。

• 非抽样误差：数据质量的那些缺陷，是由于除抽样误差以外的因素造成的。例如，受访者对问题的误解、访谈员和编码员的错误记录以及穿孔错误。

• 偏回归分析：一种回归分析形式，其中一个或多个变量的影响被保持不变，类似于阐述模型的逻辑。

• 路径分析：一种多元分析形式，其中变量之间的因果关系以图形格式呈现。

• 误差比例减少 (PRE)：一种逻辑模型，用于通过询问知道一个变量的值将减少我们猜测另一个变量的值的错误程度来评估关系的强度。例如，如果我们知道人们受教育程度，我们可以提高我们估计他们收入的能力，从而表明这两个变量之间存在关系。

• 回归分析：一种数据分析方法，其中变量之间的关系以方程的形式表示，称为回归方程。

• 统计显著性：一个一般术语，指的是观察到的样本关系可能是由于抽样误差造成的可能性。

• 统计显著性检验：一类统计计算，表明观察到的样本变量之间关系可能是由于抽样误差造成的可能性。

• 时间序列分析：对变量（如犯罪率）随时间变化的分析。