统计学基础/参数和非参数方法
外观
< 统计学基础
在查看一些统计数据之前,我们应该注意到统计检验中这种重要的区别。当我们在下面讨论推断时,它变得至关重要,但我在这里介绍它是因为描述性统计的相关性。
术语参数和非参数指的是统计方法。参数方法对你的数据集做出假设——特别是关于值是如何分布的。非参数方法对数据做出的假设相对较少。因此,参数方法在对数据进行推理时,比非参数方法拥有更多信息。如果参数方法可用,它们会更强大;非参数方法(通常被称为保守的)没有那么强大。
这些假设是关于数据集的参数(因此得名)。这些参数涵盖了值的位置;值在度量上的离散程度;值的频率分布的形状,也就是说集中趋势、范围、方差、偏度和峰度。
通常使用高斯或正态分布作为这些参数的参考点,并描述其他与之偏离的分布。
在你分析数据之前,你需要确定感兴趣的变量是否具有正态分布评分,或者至少接近正态分布,从而确定是否使用参数方法或非参数方法。
如果需要,你有时可以转换变量,使其值服从正态分布,但我在这里不会讨论这种转换——这种转换超出了紧急指南的范围。
你可以使用Q-Q图来检查数据是否服从正态分布。
Q-Q图将一个数据集的分位数与另一个数据集的分位数进行比较——通常与已知分布进行比较。因此,为了达到目前的目的,你将你的数据与正态分布的变量进行比较。如果这两个变量都服从正态分布,那么这些点应该强烈地收敛到直线x=y周围。你也可以使用Kolmogorov-Smirnov检验来检查正态性。这是一个非参数检验,其中零假设是你的数据代表一个正态分布的随机变量,因此如果该检验的结果不显著,你可以假设你的数据服从正态分布。