跳转到内容

统计/数值方法/分位数回归

来自维基教科书,开放的书籍,为开放的世界

分位数回归由 Koenker 和 Bassett (1978) 提出,旨在补充经典的线性回归分析。核心在于将“位置模型中的普通分位数扩展到更一般的线性模型类别,其中条件分位数具有线性形式”(Buchinsky (1998), p. 89)。在普通最小二乘法(OLS)中,主要目标是确定随机变量 的条件均值,给定一些解释变量 ,得到期望值 。分位数回归超越了这一点,使人们能够在条件分布函数的任何分位数上提出这样的问题。以下旨在向读者介绍分位数回归背后的思想。首先,讨论了分位数 的问题,然后简要概述了最小二乘估计器,重点是普通最小二乘法。最后,介绍了分位数回归,并利用波士顿房价数据集提供了一个例子。

为分位数回归做准备

[编辑 | 编辑源代码]

什么是分位数

[编辑 | 编辑源代码]

Gilchrist (2001, p.1) 将分位数描述为“只是与人口(排序)样本中指定比例相对应的值”。例如,一个非常常用的分位数是中位数 ,它等于排序数据中 0.5 的比例。这对应于概率为 0.5 的分位数。分位数由此标记了大小相等、连续的子集的边界。(Gilchrist,2001)

更正式地说,设 是具有分布函数 的连续随机变量,使得

这表明对于分布函数 ,可以确定给定值 出现的概率 。现在,如果处理分位数,则需要执行相反的操作,即想要确定给定概率 的样本数据集对应的值 。一个 分位数是指样本数据中对应于值 的概率

用数学方法表达 分位数的另一种形式如下

是函数 的反函数,概率为

请注意,存在两种可能的情况。一方面,如果分布函数 单调递增,则对每个 都能很好地定义分位数。但是,如果分布函数 不是严格单调递增,则对于某些 ,无法定义唯一的分位数。在这种情况下,使用给定概率 可以采用的最小值

这两种情况,无论是否具有严格单调递增函数,都可以用以下方法描述

也就是说, 等于函数 的逆函数,而这反过来又等于 的下确界,使得分布函数 大于或等于给定的概率 ,即 分位数。(Handl (2000))

然而,一个经常出现的问题是经验分布函数是一个阶梯函数。Handl (2000) 描述了这个问题的解决方案。第一步,用观察值 来替换分布函数 中的连续随机变量 ,重新构建公式 4,从而得到经验分布函数 。这给出了以下等式

经验分布函数可以通过观察值的数量 分割成大小相等、连续的子集。这将导致以下步骤

其中 ,并且 是排序后的观察值。因此, 的取值范围仅受观察值 及其性质的限制。但是,如果想要实现不同的子集,即不同的分位数,但这些分位数可以从观察值的数量 推导出来呢?

因此,解决阶跃函数问题所需的进一步步骤是通过用连续线性函数 替换经验分布函数来平滑它。为了做到这一点,有一些可用的算法,Handl(2000)对它们进行了很好的描述,Hyndman 和 Fan(1996)则更详细地介绍了不同算法的评估及其在计算机软件包中的效率。只有这样,才能将数据集划分为适合分析目的的任何分位数。(Handl (2000))

普通最小二乘法

[edit | edit source]

在回归分析中,研究人员感兴趣的是分析给定一组解释变量 中包含的信息时,因变量 的行为。普通最小二乘法是一种标准方法,用于指定线性回归模型并通过最小化平方误差之和来估计其未知参数。这导致对因变量条件分布的均值函数的近似。如果满足以下四个假设,OLS 就可以实现 BLUE 属性,即最佳线性无偏估计量:

1. 解释变量 是非随机的

2. 误差项 的期望值为零,即

3. 同方差性 - 误差项 的方差是恒定的,即

4. 没有自相关,即

然而,这些假设中经常会违反一个或多个,导致 OLS 不再是最优线性无偏估计量。分位数回归可以解决以下问题:(i)误差项在分布中并不总是恒定的,从而违反了同方差性的公理。(ii)通过关注均值作为位置度量,会丢失关于分布尾部的信息。(iii)OLS 对极端异常值很敏感,极端异常值会显著扭曲结果。(Montenegro (2001))

分位数回归

[edit | edit source]

方法

[edit | edit source]

分位数回归本质上是通过将条件分布函数切分成多个片段,将其转换为条件分位数函数。这些片段描述了给定解释变量 时,条件因变量 的累积分布,使用方程 4 中定义的分位数。

对于给定解释变量 和固定 ,给定因变量 的条件分位数函数定义为条件分布函数 的第 分位数 。为了估计条件分布函数的位置,条件中位数 可以用作条件均值的替代方法。(Lee (2005))

将分位数回归与OLS进行比较,可以很好地说明分位数回归。在OLS中,用参数函数 对随机样本 () 的条件分布函数进行建模,其中 表示自变量, 表示相应的估计值,而 表示条件均值,那么我们得到以下最小化问题

由此,我们得到条件期望函数 。现在,以类似的方式,我们可以进行分位数回归。中心特征由此变为 ,它充当检查函数。

该检验函数确保了

1. 所有 都是正数

2. 比例与概率 相符

处理 L1 距离时,必须使用这种具有两个支撑点的函数,因为 L1 距离可能为负数。

在分位数回归中,现在将最小化以下函数

这里,与 OLS 相反,最小化是在由 定义的每个子部分进行的,其中 -分位数函数的估计值是通过参数函数 获得的。(Koenker 和 Hallock (2001))

以下特征描述了分位数回归,并将其与其他回归方法区分开来

1. 可以通过 的不同值来表征因变量 的整个条件分布

2. 可以检测异方差

3. 如果数据存在异方差,则中位数回归估计量可能比均值回归估计量更有效

4. 如方程 9 所示的最小化问题可以通过线性规划方法有效地解决,从而使估计变得容易

5. 分位数函数也对单调变换等变。也就是说 ,对于任何函数

6. 分位数对于异常值是稳健的 (Lee (2005))

分位数回归的图形说明

[edit | edit source]

在进行数值示例之前,以下小节旨在以图形方式说明分位数回归的概念。首先,作为该说明的起点,请考虑图1。对于给定的解释变量值,条件依赖变量的密度由气球的大小表示。气球越大,密度越高,对于给定的,最大的气球即为模式,即密度最高的点。分位数回归本质上连接了跨不同值的等大小气球,即概率,从而可以关注解释变量与因变量在不同分位数之间的相互关系,如可以在图2中看到。这些子集由分位数线标记,反映了给定时因变量的概率密度。

图1:单个解释变量的出现概率

图2中使用的示例最初来自Koenker 和 Hallock (2000),它说明了一个经典的经验应用,即恩格尔 (1857) 对家庭食品支出(作为因变量)与家庭收入(作为解释变量)之间关系的调查。在分位数回归中, 的条件函数被 - 分位数分割。在分析中, - 分位数,由细蓝色线表示,这些线将不同的颜色部分隔开,叠加在数据点上。条件中位数 () 用粗深蓝色线表示,条件均值用浅黄色线表示。因此,颜色部分表示由分位数生成的數據子集。

图2:恩格尔曲线,其中中位数用深蓝色突出显示,均值用黄色突出显示

图2 可以理解为表示三维图的等高线图,其中食品支出和收入分别位于 y 轴和 x 轴。第三个维度来自相应值的概率密度。因此,值的密度由蓝色阴影的深浅表示,颜色越深,出现的概率越高。例如,在边界处,蓝色非常浅,给定数据集的概率密度相对较低,因为它们由分位数 0.05 到 0.1 和 0.9 到 0.95 标记。重要的是要注意,图2 代表每个子集的个体出现概率,但是,分位数使用条件函数的累积概率。例如, 为 0.05 表示预计有 5 的观测值将低于这条线,例如, 为 0.25 表示预计有 25 的观测值预计将低于这条线和 0.1 线。

图 2 中的图形表明,误差方差在整个分布中并不恒定。随着家庭收入的增加,食品支出的离散程度也随之增加。此外,数据向左偏斜,这从分位数线的间距在中位数以上减小以及中位数位于平均数之上可以看出。这表明等方差性公理被违反,而 OLS 依赖于该公理。因此,统计学家最好采用其他分析方法,例如分位数回归,它实际上可以处理异方差性。

分位数回归分析

[编辑 | 编辑源代码]

为了给出分位数回归分析能力的数值示例,并在统计应用的边界内将其与 OLS 进行比较,下一节将分析在 md-base 网站上可用的波士顿房价数据集的一些选定变量。这些数据最初由 Belsley、Kuh 和 Welsch(1980)进行分析。原始数据包含来自波士顿都会区的 14 个变量的 506 个观测值。

本分析使用自住房屋的中位数价值(一个度量变量,缩写为 H)作为因变量,并研究表 1 所示的 4 个自变量的影响。选择这些变量是因为它们最能说明 OLS 和分位数回归之间的差异。为了简化分析,目前忽略了处理与找到参数模型的正确规范相关的潜在困难。因此,假设了一个简单的线性回归模型。关于渐近标准误差的估计,例如,参见 Buchinsky(1998),它说明了设计矩阵自举估计量,或者也可以参见 Powell(1986),用于基于核的渐近标准误差估计。

表 1:解释变量
名称 简写 含义 类型
非零售尾部 T 非零售商业用地比例 度量
房间数 O 每栋房屋的平均房间数 度量
年龄 A 1940 年之前自建房屋的比例 度量
师生比 P 师生比 度量

接下来,首先估计了 OLS 模型。在表中指示了小数点后三位数字,因为一些估计结果非常小。

通过 XploRe 计算,得到以下表中所示的结果。

表 2:OLS 估计值
36,459 0,021 38,010 0,001 -0,953


通过分位数回归分析此数据集,利用 分位数 ,模型的特征如下

仅仅为了说明目的,并为了进一步促进读者对分位数回归的理解,简要说明了 分位数的方程,所有其他分位数的方程都遵循类似的模式

表 3: 分位数回归估计
0,1 23,442 0,087 29,606 -0,022 -0,443
0,3 15,7130 -0,001 45,281 -0,037 -0,617
0,5 14,8500 0,022 53,252 -0,031 -0,737
0,7 20,7910 -0,021 50,999 -0,003 -0,925
0,9 34,0310 -0,067 51,353 0,004 -1,257

现在,如果将表 2 中 OLS 估计的结果与表 3 中分位数回归的结果进行比较,会发现后者可以对解释变量对因变量的影响做出更加细致的推断。特别值得关注的是,对于同一个估计,分位数估计与其他分位数相比相对差异较大。

可能最有趣的结果,也是最能说明分位数回归机制和与 OLS 区别的是关于非零售商业用地比例独立变量的结果 。OLS 表明,该变量对因变量,即房屋价值,有积极影响,其估计值为 ,也就是说,在波士顿房价数据中,房屋价值随着非零售商业用地比例 的增加而增加。

观察分位数回归提供给我们的输出,我们会发现一个更差异化的图像。对于 0.1 分位数,我们发现估计值为 ,这表明对于这个低分位数,这种影响似乎比 OLS 所示的影响更强烈。在这里,当非零售商业比例 上升时,房价也会上升。然而,考虑到其他分位数,这种影响并没有那么强烈,对于 0.7 分位数和 0.9 分位数,这种影响似乎甚至被参数 所表明,在这些分位数中,房价受到非零售商业面积 增加的负面影响。非零售商业面积 对房价这个因变量的影响似乎非常模棱两可,取决于你查看哪个分位数。OLS 的一般建议是,如果非零售商业面积 增加,房价也会增加,显然不能推广。因此,基于 OLS 估计的政策建议可能极具误导性。

直观上,人们会认为房屋平均房间数 对房价有积极影响,这一点是正确的。OLS 估计值为 ,也支持了这一点。现在,分位数回归也证实了这一说法,但它也允许得出更细致的结论。0.1 分位数与其他分位数(尤其是 0.9 分位数)之间似乎存在显著差异。对于最低分位数,估计值为 ,而对于 0.9 分位数,估计值为 。观察其他分位数,可以发现波士顿房价数据集与 0.9 分位数类似,估计值为 ,以及 。因此,对于最低分位数,额外房间数 对房价的影响似乎远小于其他所有分位数。

另一个说明性例子是分析建于 1940 年之前的自住单元比例 及其对房价的影响。虽然 OLS 表明这个变量几乎没有影响,估计值为 ,但从分位数回归来看,情况却截然不同。对于 0.1 分位数,房龄对房价有负面影响,估计值为 。将此与最高分位数进行比较,最高分位数的估计值为 ,可以发现房价现在突然受到房龄的积极影响。因此,除了最高分位数 0.9 分位数以外,所有其他分位数都证实了负面影响。

最后但并非最不重要的是,看看师生比例及其对房屋价值的影响,人们发现OLS以的估值表明的趋势也反映在分位数回归分析中。然而,在分位数回归中,人们可以观察到师生比例对房价的影响随着不同分位数的增加而逐渐增加,从第0.1个分位数的估计值为到第0.9个分位数的估值值为

这种分析清楚地表明,与OLS相比,使用分位数回归时,分位数回归允许人们做出更具差异化的陈述。有时OLS估计甚至会误导解释变量和因变量之间的真实关系,因为对样本的不同子集,效应可能非常不同。

对于分布函数,可以为给定的值确定发生概率。现在分位数恰恰相反。也就是说,人们希望为样本数据集的给定概率确定相应的值。在OLS中,主要目标是确定随机变量的条件均值,给定一些解释变量。分位数回归超越了这一点,它使我们能够在条件分布函数的任何分位数上提出这样的问题。它关注于给定分位数的因变量与其解释变量之间的相互关系。因此,分位数回归克服了OLS面临的各种问题。通常,误差项在整个分布中并不恒定,从而违反了同方差性公理。此外,通过将平均值作为位置度量,会丢失有关分布尾部的信息。最后但并非最不重要的是,OLS 对极端异常值很敏感,这会显著扭曲结果。正如波士顿住房数据的小例子所表明的那样,有时基于OLS分析的政策可能无法产生预期结果,因为人口的某个子集对该政策的反应并不强烈,或者更糟糕的是,以OLS没有表明的负面方式做出反应。


参考文献

[编辑 | 编辑源代码]

Abrevaya, J. (2001): “The effects of demographics and maternal behavior on the distribution of birth outcomes,” in Economic Application of Quantile Regression, ed. by B. Fitzenberger, R. Koenker, and J. A. Machade, pp. 247–257. Physica-Verlag Heidelberg, New York.

Belsley, D. A., E. Kuh, and R. E. Welsch (1980): Applied Multivariate Statistical Analysis. Regression Diagnostics, Wiley.

Buchinsky, M. (1998): “Recent Advances in Quantile Regression Models: A Practical Guidline for Empirical Research,” Journal of Human Resources, 33(1), 88–126.

Cade, B.S. and B.R. Noon (2003): A gentle introduction to quantile regression for ecologists. Frontiers in Ecology and the Environment 1(8): 412-420. http://www.fort.usgs.gov/products/publications/21137/21137.pdf

Cizek, P. (2003): “Quantile Regression,” in XploRe Application Guide, ed. by W. Härdle, Z. Hlavka, and S. Klinke, chap. 1, pp. 19–48. Springer, Berlin.

Curry, J., and J. Gruber (1996): “Saving Babies: The Efficacy and Costs of Recent Changes in the Medicaid Eligibility of Pregnant Women,” Journal of Political Economy, 104, 457–470.

Handl, A. (2000): “Quantile,” available at http://www.wiwi.uni-bielefeld.de/~frohn/Lehre/Datenanalyse/Skript/daquantile.pdf

Härdle, W. (2003): Applied Multivariate Statistical Analysis. Springer Verlag, Heidelberg. Hyndman, R. J., and Y. Fan (1996): “Sample Quantiles in Statistical Packages,” The American Statistician, 50(4), 361 – 365.

Jeffreys, H., and B. S. Jeffreys (1988): Upper and Lower Bounds. Cambridge University Press.

Koenker, R., and G. W. Bassett (1978): “Regression Quantiles,” Econometrica, 46, 33–50.

Koenker, R., and G. W. Bassett (1982): “Robust tests for heteroscedasticity based on Regression Quantiles,” Econometrica, 61, 43–61.

Koenker, R. 和 K. F. Hallock (2000): “分位数回归简介”,可在 http://www.econ.uiuc.edu/~roger/research/intro/intro.html 获取。

Koenker, R. 和 K. F. Hallock (2001): “分位数回归”,《经济学视角杂志》,15(4),143–156。

Lee, S. (2005): “MECT1 分位数回归讲义”,可在 http://www.homepages.ucl.ac.uk/~uctplso/Teaching/MECT/lecture8.pdf 获取。

Lewit, E. M., L. S. Baker, H. Corman 和 P. Shiono (1995): “低出生体重直接成本”,《儿童的未来》,5,35–51。

mdbase (2005): “统计方法学和交互式数据分析”,可在 http://www.quantlet.org/mdbase/ 获取。

Montenegro, C. E. (2001): “智利工资分布:性别重要吗?分位数回归方法”,世界银行发展研究小组工作论文系列 20。

Powell, J. (1986): “删失回归分位数”,《计量经济学杂志》,32,143– 155。

Scharf, F. S., F. Juanes 和 M. Sutherland (1998): “从散点图边缘推断生态关系:回归技术的比较”,《生态学》,79(2),448–460。

XploRe (2006): “XploRe”,可在 http://www.xplore-stat.de/index_js.html 获取。

华夏公益教科书