统计/数值方法/分位数回归
分位数回归是由 Koenker 和 Bassett (1978) 提出,旨在补充传统的线性回归分析。 关键在于将“位置模型中的普通分位数扩展到更一般的线性模型类别,其中条件分位数具有线性形式”(Buchinsky (1998),第 89 页)。 在普通最小二乘法 (OLS) 中,主要目标是确定随机变量 的条件均值,给定一些解释变量 ,得到期望值 。 分位数回归超越了这一点,使人们能够在条件分布函数的任何分位数处提出这样的问题。 以下旨在向读者介绍分位数回归背后的思想。 首先,讨论了 分位数 的问题,然后简要概述了最小二乘估计,重点介绍了普通最小二乘法。 最后,介绍了分位数回归,并提供了一个使用波士顿房价数据集的示例。
Gilchrist (2001,第 1 页) 将分位数描述为“对应于总体(有序)样本中特定比例的值”。 例如,一个非常常用的分位数是 中位数 ,它等于有序数据中 0.5 的比例。 这对应于概率为 0.5 的分位数。 分位数标记了大小相等、连续子集的边界。(Gilchrist,2001)
更正式地说,令 是一个具有分布函数 的连续随机变量,使得
它指出对于分布函数 ,可以确定给定值 的出现概率 。 现在,如果处理分位数,则需要做相反的事情,即需要确定样本数据集中给定概率 对应的值 。 在样本数据中, 分位数是指值 的概率 。
用数学公式表达 分位数的另一种形式如下
是对于概率 ,构成函数 的逆函数的值。
注意,这里存在两种情况。一方面,如果分布函数 单调递增,则对于每个 ,分位数是明确定义的。然而,如果分布函数 不是严格单调递增,那么对于某些 ,无法定义唯一的量化。在这种情况下,我们将使用 可以取的最小值,作为给定概率 的分位数。
两种情况,即具有严格单调递增函数和不具有严格单调递增函数的情况,都可以用以下方式描述:
也就是说, 等于函数 的逆,而这反过来等于所有 的下确界,使得分布函数 大于或等于给定的概率 ,即第 分位数。(Handl (2000))
然而,一个经常出现的问题是,经验分布函数是一个阶梯函数。Handl(2000)描述了这个问题的解决方案。第一步,人们用一个这样的方式重新表述方程式 4,即用 (观测值)来代替分布函数 中的连续随机变量 。这将导致经验分布函数 。这给出了以下等式
经验分布函数可以通过观察次数 分割成大小相等、连续的子集。这将引导人们进行以下步骤
当 且 是排序后的观测值。因此, 可以取值的范围仅受观测值 及其性质的限制。但是,如果想要实现不同的子集,即不同的分位数,但这些分位数可以从观测值 中推导出来,该怎么办呢?
因此,解决阶梯函数问题的进一步步骤是通过用连续线性函数 替换经验分布函数来平滑经验分布函数。为了做到这一点,有几种可用的算法,这些算法在 Handl (2000) 中有很好的描述,并且在 Hyndman 和 Fan (1996) 中更详细地描述了不同算法及其在计算机包中的效率评估。只有这样才能将数据集划分为适合分析目的的分位数。(Handl (2000))
普通最小二乘法
[edit | edit source]在回归分析中,研究人员对分析给定一组解释变量 中包含的信息时,因变量 的行为感兴趣。普通最小二乘法是一种标准方法,用于指定线性回归模型并通过最小化平方误差之和来估计其未知参数。这导致对因变量条件分布的均值函数的近似。OLS 在满足以下四个假设时,具有 BLUE 属性,即最佳线性无偏估计:
1. 解释变量 是非随机的
2. 误差项 的期望值为零,即
3. 同方差性 - 误差项 的方差是恒定的,即
4. 无自相关,即 ,
然而,通常这些假设中的一项或多项会被违反,导致OLS不再是最优的线性无偏估计量。因此,分位数回归可以解决以下问题:(i) 错误项通常在分布中并不总是恒定的,从而违反了同方差性公理。 (ii) 通过将均值作为位置度量,分布尾部的信息会丢失。 (iii) OLS 对极端异常值敏感,这些异常值会显著扭曲结果。(蒙特内哥罗 (2001))
分位数回归本质上是通过将条件分布函数切分成多个片段,将其转化为条件分位数函数。这些片段描述了给定解释变量的条件依赖变量的累积分布。利用方程4中定义的分位数,可以实现这一点。
对于给定解释变量且固定,的条件依赖变量,条件分位数函数定义为条件分布函数的分位数。为了估计条件分布函数的位置,可以使用条件中位数作为条件均值的替代方案。(李 (2005))
当将分位数回归与OLS进行比较时,可以很好地说明分位数回归。在OLS中,用参数函数对随机样本()的条件分布函数进行建模,其中表示自变量,表示相应的估计值,而表示条件均值,则得到以下最小化问题
由此得到条件期望函数。现在,以类似的方式,人们可以在分位数回归中进行。因此,中心特征变成了,它充当校验函数。
该校验函数确保
1. 所有 都是正数
2. 比例取决于概率
如果处理 L1 距离,则必须使用具有两个支撑点的函数,因为 L1 距离可能变为负数。
在分位数回归中,现在最小化以下函数
这里,与 OLS 相反,最小化是在由 定义的每个子部分进行的,其中 分位数函数的估计值是通过参数函数 获得的。(Koenker and Hallock (2001))
区分分位数回归与其他回归方法的特征如下:
1. 可以通过 的不同值来描述因变量 的整个条件分布。
2. 可以检测异方差性。
3. 如果数据是异方差的,则中位数回归估计量可能比均值回归估计量更有效。
4. 等式 9 中所示的最小化问题可以通过线性规划方法有效地解决,从而使估计变得容易。
5. 分位数函数也对单调变换具有等变性。也就是说,对于任何函数。
6. 分位数对异常值具有鲁棒性(Lee (2005))。
在进行数值示例之前,以下小节试图用图形来阐述分位数回归的概念。首先,作为该说明的起点,请参考图 1。对于给定的解释变量值,条件依赖变量的密度由气球的大小表示。气球越大,密度越高,对于给定的,其密度最大处即为众数,对应着最大的气球。分位数回归本质上是在解释变量的不同值之间连接着大小相同的气球,即概率,从而使人们能够关注解释变量和依赖变量在不同分位数上的相互关系,如在图 2 中所示。这些由分位数线标记的子集反映了给定的情况下,依赖变量的概率密度。
图 2 中使用的示例最初来自 Koenker 和 Hallock(2000 年),并说明了经典的实证应用,即恩格尔(1857 年)对家庭食品支出(作为因变量)与家庭收入(作为自变量)之间关系的研究。在分位数回归中,的条件函数被分位数分割。在分析中,分位数(由将不同颜色区域分隔开来的细蓝色线表示)叠加在数据点上。条件中位数()由粗深的蓝色线表示,条件均值由浅黄色的线表示。因此,颜色区域代表由分位数生成的子集数据。
图 2 可以理解为表示 3D 图形的等高线图,其中食品支出和收入分别位于 y 轴和 x 轴上。第三个维度来自相应值的概率密度。因此,值的密度由蓝色阴影的深浅表示,颜色越深,出现的概率越高。例如,在蓝色的外边界,概率密度对于给定的数据集相对较低,因为它们由分位数 0.05 到 0.1 和 0.9 到 0.95 标记。重要的是要注意,图 2 代表每个子集的个体出现概率,但是,分位数利用了条件函数的累积概率。例如,为 0.05 表示预计有 5的观察值落在该线下方,例如,为 0.25 表示预计有 25的观察值落在该线和 0.1 线下方。
图 2 中的图形表明,误差方差在整个分布中并不恒定。随着家庭收入的增加,食品支出的离散程度也随之增加。此外,数据向左倾斜,这从分位数线在中位数以上间距缩小以及中位数位于平均数上方可以看出。这表明同方差性公理被违反,而 OLS 依赖于此公理。因此,统计学家最好采用另一种分析方法,例如分位数回归,该方法实际上能够处理异方差性。
为了给出分位数回归分析能力的数值示例,并在统计应用的范围内将其与 OLS 进行比较,下一节将分析 md-base 网站上可用的波士顿住房数据集的一些选定变量。该数据最初由 Belsley、Kuh 和 Welsch (1980) 分析。原始数据包括来自波士顿大都市区的 14 个变量的 506 个观测值。
本分析使用自有住房的中位数价值(一个度量变量,缩写为 H)作为因变量,并调查表 1 中所示的 4 个自变量的影响。选择这些变量是因为它们最能说明 OLS 和分位数回归之间的差异。为了简化分析,目前忽略了处理与找到参数模型的正确规格相关的潜在困难。因此假设了一个简单的线性回归模型。有关渐近标准误差的估计,请参见例如 Buchinsky (1998),它说明了设计矩阵引导估计器,或者选择 Powell (1986) 来进行基于核的渐近标准误差估计。
名称 | 简写 | 是什么 | 类型 |
---|---|---|---|
非零售尾部 | T | 非零售商业用地比例 | 度量 |
房间数 | O | 平均每套住房的房间数 | 度量 |
年龄 | A | 1940 年之前自建房屋的比例 | 度量 |
师生比 | P | 师生比 | 度量 |
下面首先估计了 OLS 模型。由于一些估计值非常小,所以在表格中显示了小数点后三位数字。
通过 XploRe 计算,得到以下表格所示的结果。
36,459 | 0,021 | 38,010 | 0,001 | -0,953 |
通过分位数回归分析该数据集,使用 分位数 ,该模型的特征如下:
仅出于说明目的,为了进一步增进读者对分位数回归的理解,简要说明了 分位数的方程,所有其他分位数都遵循类似的方程
0,1 | 23,442 | 0,087 | 29,606 | -0,022 | -0,443 |
0,3 | 15,7130 | -0,001 | 45,281 | -0,037 | -0,617 |
0,5 | 14,8500 | 0,022 | 53,252 | -0,031 | -0,737 |
0,7 | 20,7910 | -0,021 | 50,999 | -0,003 | -0,925 |
0,9 | 34,0310 | -0,067 | 51,353 | 0,004 | -1,257 |
现在,如果将表 2 中 OLS 估计结果与表 3 中的分位数回归估计结果进行比较,就会发现后者可以对解释变量对因变量的影响做出更细致的推断。特别是那些与同一估计中其他分位数相比,差异相对较大的分位数估计结果。
可能最有趣的结果,也是最能说明分位数回归工作机制并指出其与 OLS 差异的结果,是关于非零售商业用地面积比例的独立变量 的结果。OLS 表明,该变量对因变量(房屋价值)有正向影响,估计值为 ,也就是说,房屋价值随着非零售商业用地面积比例 在波士顿住房数据中增加而增加。
从分位数回归提供的输出结果来看,我们发现了一个更具差异性的图景。对于 0.1 分位数,我们发现估计值为 ,这表明对于这个低分位数,其影响似乎比 OLS 所示的更强烈。这里,当非零售企业的比例 上升时,房价也会上升。然而,考虑到其他分位数,这种影响就不那么明显了,对于 0.7 和 0.9 分位数,这种影响似乎甚至被参数 和 所示,反转了。这些值表明,在这些分位数中,房价受到非零售商业用地 增加的负面影响。非零售商业用地 对房价因变量的影响似乎非常模糊,取决于观察哪个分位数。OLS 的一般建议是,如果非零售商业用地比例 增加,房价就会上涨,显然不能被推广。因此,基于 OLS 估计的政策建议可能会产生严重的误导。
直观地,我们可以认为房屋平均房间数对房价有正向影响。这也可以通过OLS得到证实,估计值为。而分位数回归也证实了这一说法,但它也允许我们得出更细致的结论。在0.1分位数与其他分位数(尤其是0.9分位数)之间存在显著差异。对于最低分位数,估计值为,而对于0.9分位数,估计值为。观察其他分位数,我们可以发现波士顿房价数据集中其他分位数的估计值与0.9分位数的估计值相似,分别为、和。因此,对于最低分位数,额外房间数对房价的影响似乎明显小于其他所有分位数。
另一个说明性的例子是分析1940年之前建造的业主自住单元的比例及其对房价的影响。OLS表明该变量几乎没有影响,估计值为。但分位数回归则给出了不同的看法。对于0.1分位数,房龄对房价有负面影响,估计值为。与最高分位数(估计值为)相比,我们发现房价现在突然受到房龄的正向影响。因此,除了最高分位数(0.9分位数)外,所有其他分位数都证实了房价的负向影响。
最后但并非最不重要的是,观察师生比例 及其对房价的影响,发现 OLS 所指示的趋势,其值为 ,也反映在分位数回归分析中。然而,在分位数回归中,我们可以看到师生比例 对房价的影响在不同的分位数上逐渐增加,从估计值为 的 0.1 分位数到估计值为 的 0.9 分位数。
这一分析清楚地表明,与 OLS 相比,分位数回归允许我们使用分位数回归进行更细致的陈述。有时 OLS 估计甚至可能误导了解释变量和因变量之间真实关系的理解,因为对样本的不同子集的影响可能会有很大差异。
结论
[edit | edit source]对于一个分布函数 ,我们可以确定对于一个给定的值 ,出现的概率 。现在分位数恰恰相反。也就是说,我们希望确定对于样本数据集的给定概率 ,对应于该概率的值 。在 OLS 中,我们的主要目标是确定随机变量 的条件均值,给定一些解释变量 ,。分位数回归超越了这一点,它使我们能够在条件分布函数的任何分位数上提出这样的问题。它关注的是因变量与其解释变量在给定分位数上的相互关系。因此,分位数回归克服了 OLS 面临的各种问题。通常,误差项在整个分布中并不恒定,从而违反了同方差性公理。此外,通过将均值作为位置度量,关于分布尾部的信息会丢失。最后但并非最不重要的是,OLS 对极端异常值很敏感,这会严重扭曲结果。如波士顿房价数据的示例所示,有时基于 OLS 分析的政策可能无法取得预期效果,因为特定的人口子集对该政策的反应并不强烈,或者更糟的是,以 OLS 未指示的负面方式做出反应。
参考文献
[edit | edit source]Abrevaya, J. (2001): “The effects of demographics and maternal behavior on the distribution of birth outcomes,” in Economic Application of Quantile Regression, ed. by B. Fitzenberger, R. Koenker, and J. A. Machade, pp. 247–257. Physica-Verlag Heidelberg, New York.
Belsley, D. A., E. Kuh, and R. E. Welsch (1980): Applied Multivariate Statistical Analysis. Regression Diagnostics, Wiley.
Buchinsky, M. (1998): “Recent Advances in Quantile Regression Models: A Practical Guidline for Empirical Research,” Journal of Human Resources, 33(1), 88–126.
Cade, B.S. and B.R. Noon (2003): A gentle introduction to quantile regression for ecologists. Frontiers in Ecology and the Environment 1(8): 412-420. http://www.fort.usgs.gov/products/publications/21137/21137.pdf
Cizek, P. (2003): “Quantile Regression,” in XploRe Application Guide, ed. by W. Härdle, Z. Hlavka, and S. Klinke, chap. 1, pp. 19–48. Springer, Berlin.
Curry, J. 和 J. Gruber (1996): “拯救婴儿:最近医疗补助计划中孕妇资格变化的有效性和成本,”《政治经济学杂志》,104, 457–470。
Handl, A. (2000): “分位数,”可在以下网址获得:http://www.wiwi.uni-bielefeld.de/~frohn/Lehre/Datenanalyse/Skript/daquantile.pdf
Härdle, W. (2003): 应用多元统计分析。施普林格出版社,海德堡。Hyndman, R. J. 和 Y. Fan (1996): “统计软件包中的样本分位数,”《美国统计学家》,50(4), 361 – 365。
Jeffreys, H. 和 B. S. Jeffreys (1988): 上下界。剑桥大学出版社。
Koenker, R. 和 G. W. Bassett (1978): “回归分位数,”《计量经济学》,46, 33–50。
Koenker, R. 和 G. W. Bassett (1982): “基于回归分位数的异方差稳健检验,”《计量经济学》,61, 43–61。
Koenker, R. 和 K. F. Hallock (2000): “分位数回归简介,”可在以下网址获得:http://www.econ.uiuc.edu/~roger/research/intro/intro.html
Koenker, R. 和 K. F. Hallock (2001): “分位数回归,”《经济学视角》,15(4), 143–156。
Lee, S. (2005): “MECT1 分位数回归讲义,”可在以下网址获得:http://www.homepages.ucl.ac.uk/~uctplso/Teaching/MECT/lecture8.pdf
Lewit, E. M., L. S. Baker, H. Corman 和 P. Shiono (1995): “低出生体重的直接成本,”《儿童的未来》,5, 35–51。
mdbase (2005): “统计方法和交互式数据分析,”可在以下网址获得:http://www.quantlet.org/mdbase/
Montenegro, C. E. (2001): “智利工资分配:性别重要吗?分位数回归方法,”世界银行发展研究小组工作论文系列 20。
Powell, J. (1986): “截断回归分位数,”《计量经济学》,32, 143– 155。
Scharf, F. S., F. Juanes 和 M. Sutherland (1998): “从散点图边缘推断生态关系:回归技术比较,”《生态学》,79(2), 448–460。
XploRe (2006): “XploRe,”可在以下网址获得:http://www.xplore-stat.de/index_js.html