结核病统计/分析
结核病(TB)是一种常见且致命的传染病,近年来正在复发。 WHO 估计,目前世界上超过三分之一的人口体内携带这种细菌。艾滋病毒感染者感染结核分枝杆菌的风险要高得多,因为他们的免疫系统受到艾滋病毒的损害。其他可能导致结核病流行的指标包括营养不良、卫生条件差以及缺乏医疗措施。
结核病长期以来被忽视,在世界许多地区已达到大流行的程度。导致这种蔓延的原因是什么?如上所述,人们似乎对有利于这种疾病的大多数因素达成共识。然而,关于结核病流行与某些因素之间关系的新假设必须通过统计方法进行量化,这些方法使用统计软件进行。
因此,根据孔子的名言,我们分析的目标是“道”,更准确地说,是评估和处理多元数据集的方法。然而,在分析过程中,我们将对变量之间的关系提出一些假设。有关快速了解情况,请查看有关 多元分析 及其子部分的章节。
用于此分析的程序是 MDTech XploRe 软件。分析的所有主要步骤都可以通过本研究中提供的程序代码轻松地重现(通常与图像空间中的图形一起)。您只需要名为“datest.csv”的原始数据,该数据可在 http://www.quantlet.org/mdbase/ 上获取,以及 XploRe 软件的免费学术版本。
该分析基于名为“datest.csv”的数据集,该数据集可在 MD*Base 的主页上获取。
原始数据集中出现的缺失值(datorg.csv)已使用不同的方法替换为估计值,例如相邻国家的平均值、线性回归和其他技术。由于这些数据是来自联合国收集的,您可以在 联合国统计司 的主页上仔细查看每个变量的定义。
该数据集包含 163 个观测值和 16 个变量。第一个变量是一个文本变量,显示每个国家的名称,第二个变量将每个国家分配到一个大陆,因此是名义上的(从 1 到 6)。所有其他变量都在下表中描述
编号 | 标题 | 类型 | 备注 |
---|---|---|---|
1. | 国家 | 文本 | 每个国家的名称 |
2. | 洲 | 名义上的 | 1:亚洲,2:北美,3:南美,4:非洲,5:欧洲,6:澳大利亚和海洋 |
3. | 人口 | 公制 | 每个国家的总人口 |
4. | 避孕套使用率 | 公制 | 避孕套的使用率与女性使用的其他避孕方式有关,以百分比表示 |
5. | 艾滋病估计死亡人数 | 公制 | 艾滋病相关死亡总数(估计) |
6. | 疟疾 | 公制 | 总患病率 |
7. | 结核病 | 公制 | 每 100,000 人的患病率 |
8. | 药物 | 公制 | 获得基本药物的比例(根据世界卫生组织的清单),以百分比表示 |
9. | 教育 | 公制 | 按相关年龄组划分的入学率,分为四组 < 50%、50 – 80%、80 – 95%、> 95% |
10. | 识字率 | 公制 | 以百分比表示 |
11. | 卫生 | 公制 | 获得基本卫生设施的比例,以百分比表示 |
12. | 水 | 公制 | 获得改良饮用水的比例,以百分比表示 |
13. | CO2 | 公制 | 以吨/人计算 |
14. | 互联网 | 公制 | 互联网接入总数 |
15. | 个人电脑用户 | 公制 | 总数 |
16. | 电话 | 公制 | 总数 |
从表 1 可以看出,变量的测量单位不同。结核病的测量单位是每 100,000 人,而例如估计的艾滋病相关死亡人数是以总人口数表示的。因此,我们分析的第一步是重新排列数据集,使其更清晰地排序并以更合适的方式进行缩放。
下面的程序用于
- 在数据集中添加一个包含国家代码的列
- 将所有三种疾病的规模标准化为“每 100,000 人”
- 将互联网接入总数、个人电脑数和电话线路数更改为相对数
- 重新排列变量的顺序,使
- 前三列分别包含国家代码、大陆代码和人口
- 第四到第六列分别包含艾滋病估计死亡人数、疟疾患病率和结核病患病率的标准化值
- 变量“避孕套使用”出现在第八列,之后是其他变量,按照原始顺序排列
该程序将加载原始数据并创建两个 CSV 文件,这些文件包含重新排列的数据集(包括国家名称)和仅包含国家名称的数据集。在运行程序之前,请确保您已从 MD*Base 的主页下载了原始数据“datest.csv” 到已知的目录。
library("xplore") library("stats") ; ----- Reading data ---------------------------------------------------------------------------- choose = "Read from:" | "Save as:" | "Save country info as:" defaults1 = "C:\Dokumente und Einstellungen\All Users\Desktop\datest.csv" defaults2 = "C:\Dokumente und Einstellungen\All Users\Desktop\UN_data_ordered.csv" defaults3 = "C:\Dokumente und Einstellungen\All Users\Desktop\country.csv" defaults = defaults1 | defaults2 | defaults3 v = readvalue(choose, defaults) ; ----- Transformation -------------------------------------------------------------------------- x=readcsvm(v[1]) num=1:163 data=num~x.double country=x.text pop=data[,3] x=(data[,5|6]/pop)*100000 y=data[,14|15|16]/pop data=data[,1:3]~x~data[,7|4|8:13]~y l=list(country, data) ; ----- Saving ---------------------------------------------------------------------------------- writecsv(l,v[2]) writecsv(country,v[3])
首先,我们想概述一些关于解释变量的描述性数据,包括五数概括、偏度和峰度。偏度 和峰度 分别衡量偏度和偏离正态分布的程度
;
对于以为对称中心的分布,偏度应该接近 0。对于类似正态分布的分布,峰度应该接近 3。
变量 | 最小值 | 25% 四分位数 | 中位数 | 平均值 | 75% 四分位数 | 最大值 | 偏度 | 峰度 |
---|---|---|---|---|---|---|---|---|
避孕套使用率 | 0 | 4.25 | 6.8 | 10.13 | 12.95 | 77.6 | 2.88 | 18.17 |
药物 | 50 | 80 | 80 | 81.47 | 95 | 100 | -0.78 | 2.42 |
教育 | 13.9 | 73.5 | 91.1 | 83.63 | 97.3 | 109.5 | -1.33 | 4.22 |
识字率 | 24.5 | 83.4 | 95.6 | 88.34 | 99.3 | 100 | -1.64 | 5.12 |
卫生 | 8 | 62 | 87 | 76.56 | 98 | 100 | -0.96 | 2.71 |
水 | 24 | 71.5 | 87 | 81.06 | 98 | 100 | -0.99 | 2.97 |
二氧化碳 | 0.02 | 0.41 | 1.97 | 4.67 | 6.26 | 90.74 | 6.52 | 61.37 |
互联网 | 0 | 0 | 0.03 | 0.1 | 0.1 | 0.58 | 1.73 | 4.7 |
个人电脑用户 | 0 | 0 | 0.03 | 0.1 | 0.11 | 0.60 | 2.02 | 6.23 |
电话 | 0 | 0.03 | 0.22 | 0.4 | 0.55 | 1.61 | 1.16 | 3.01 |
箱线图、直方图和分位数-分位数图
[edit | edit source]现在,我们将使用传统的单变量分析机制来查看我们后面模型中所有感兴趣的变量。为了获得综合概述,我们首先关注包含多个变量信息的多种图形显示。
让我们看一下 图形 1和 图形 2,我们在其中计算了我们数据中疾病的箱线图和直方图,即结核病、疟疾和艾滋病。
如上所述,所有三个变量都被转换为每 100,000 人的比例。为了在 图形 1中更好地可视化,我们标准化了 x 轴,否则结核病和疟疾的箱线图将过于压缩。对于所有三个变量,我们观察到向右倾斜,尽管异常值分布的特征差异很大。因此,对于结核病,我们只识别了一个异常值(柬埔寨),而对于艾滋病死亡人数,总共显示了 38 个异常值,其中 24 个是中等程度的(圆圈)和 14 个是更明显的(十字)。我们决定识别这些异常值,事实证明,大约 90% 的异常值是非洲国家,因此约 72% 的非洲国家是异常值。是否应该排除整个大陆?绝对不应该,但这为数据中可能存在的子组提供了一个线索。
图形 3 到 5 为我们提供了对可能解释变量对我们因变量结核病的单变量分析结果。
在 图形 3中,我们看到了上述变量的箱线图。请注意,我们在不同的比例尺上显示了箱线图。上面的五个箱线图是以百分比衡量的,而我们决定标准化下面箱线图的 y 轴。关于药物获取箱线图需要做的一点重要说明:虽然看起来只有一个异常值,但事实证明,这个“点”实际上是落在 0% 到 50% 类别的 37 个国家。
数据偏度也可以预测,并在 图形 4中得到证实,我们在其中显示了平均偏移曲线和直方图。再次值得注意的是,除了药物获取之外,上面的变量都向左倾斜,而下面的变量向右倾斜。这意味着大多数国家在上面部分显示的变量中具有相对较高的值,而在下面部分显示的变量中具有相对较低的值。 图形 5显示了分位数-分位数图,用于将每个变量与正态分布进行比较。显然,我们与 45° 线有明显的偏差,这表明变量不是正态分布的。
总的来说,单变量分析的主要发现是,我们具有非常偏斜的分布,这些分布在不同的变量之间部分重叠。这可能表明单个维度之间存在很强的相关性。无论如何,仍然存在这些关系是线性还是非线性的问题。此外,我们在数据集的不同维度中看到了许多异常值。因此,问题就变成了,一个维度中的异常值是否也是我们数据其他维度中的异常值。这个问题将在下一节中讨论。
使用简单的多元方法进行异常值处理
[edit | edit source]正如我们在单变量分析中看到的,我们面临着一个非常异质的数据集,它具有极度偏斜的分布,因此许多观察结果被显示为异常值。这甚至达到了将几乎整个大陆(即非洲的艾滋病相关死亡率)排除在分析之外的地步。这可能促使对非洲进行单独的分析。
人口 | 艾滋病 | 疟疾 | 结核病 | 避孕套使用率 | 药物 | 教育 |
---|---|---|---|---|---|---|
20 | 24 | 37 | 1 | 9 | 31 | 7 |
识字率 | 卫生 | 水 | CO2 | 互联网 | 个人电脑 | 电话 |
9 | 0 | 3 | 8 | 26 | 18 | 10 |
但是在这里,我们的目标是找到更好的方法来处理多维大型数据集。因此,我们试图找到一种可能性来评估所有国家在某些维度上的极值。此外,我们希望获得一个表格,其中包含每个维度中“箱线图异常值”的数量。因此,我们计算了一个 163 x 14 矩阵,该矩阵包含逻辑值 0 或 1,其中 1 表示观察结果是异常值。使用此矩阵进行简单的计算,会导致在表 3中显示的每个维度中的异常值数量。
图表 6 显示了一个柱状图,其中国家根据单变量极值或“箱线图异常值”的数量进行分类。该图表表明,只有少数国家在四个维度上的箱线图意义上是异常值,并且没有国家拥有超过四个极值。该 “异常值程序” 生成 图表 6 此外,还提供了选择在多少个维度上一个观察值必须是单变量异常值才能被视为“多维异常值”的选项。然后,这些“多维异常值”将以蓝色显示,并与其他观察值一起显示在星形图中(或者,也可以选择所谓的 Chernoff-Flurry 面孔)。这有助于决定这些观察值是否真的与数据集中其他观察值有很大不同。这个过程可以重复多次,直到找到一个令人满意的异常值集,这些异常值应该从进一步的分析中排除(通过 “异常值程序” 提供保存选项)。
然而,在进一步的分析中,我们决定不排除任何观察值,而是使用整个数据集进行分析,因为即使每个观察值有四个异常高的或低的数值,与总共 13 个相关维度相比,仍然相对较少。此外,异常值星形图 显示数据中似乎存在不同组的国家,它们具有由各自星形形状反映的相似特征。如果我们选择将所有具有一个或多个“箱线图异常值”的观察值着色,则剩余的(绿色)观察值似乎具有非常相似的特征。但剩余国家的数量非常有限,似乎并不代表世界上的国家群体。
尽管如此,我们仍然可以在进一步的分析过程中检查排除某些“多维异常值”的影响。
双变量分析
[edit | edit source]现在,我们想要更好地了解我们的目标变量(即结核病患病率)与其他变量之间的关系,根据我们的目标,这些变量被认为是解释变量。在数据集中可视化所有变量之间关系的一种可能性是散点图。在这种图表中,所有变量将彼此绘制。由于我们有 13 个感兴趣的变量,这将为我们提供 13 x 13 的二维图显示,这几乎无法在标准计算机显示器上正常显示。此外,对角线上还有空白空间,上三角形和下三角形中的信息重复。因此,这种图表只能在最多八个变量的情况下以适当的方式使用。
相反,我们只是将所有解释变量与结核病绘制在一起,并将它们显示在一个窗口中,该窗口显示在 图表 7 中。该图表提供了从数据中得出基本关系假设所需的信息。
首先,可以看到大多数观察值似乎分布在一个非常小的区域内,在大多数情况下是图表的角落,而只有相对较小的一部分散布在图表的整个范围内。为了更好地可视化这一点,我们向图表添加了一个维度,并计算了图表的二维密度估计。这可以在 图表 8 中看到,它举例说明了“结核病”和“卫生”的二维密度估计。这进一步加强了我们在分析的先前步骤中提到的想法。也就是说,可以根据可用的信息/变量将国家分类为不同的组。此外,解释变量与结核病之间似乎存在不同的关系。这些关系将在我们分析的后续步骤中考虑。由于它们可能因子组而异,我们继续尝试在国家内部找到同质组,并转向在 多元分析部分 中发展关于关系的假设。
寻找群体
[edit | edit source]由于我们已经看到了许多关于不同群体存在的指标,我们现在将尝试找到和解释数据中可以找到的群体。在我们使用现有的统计方法之前,我们想提及对全球各国的普遍区分。这是根据国家“总体发展水平”将国家划分为发达国家(通常与西欧国家、北美和日本同义)、新兴国家(如东南亚虎国和大多数拉丁美洲国家)和发展中国家(以前通常被称为第三世界(尽管只有一个),因为这些国家在收入和生活水平方面是最贫穷的国家)。尽管对这三组国家的区分并不是真正基于像我们这样的数据,而是实际上包含了更多经济数据以及来自社会科学的数据,但人们仍然期望找到类似于上面描述的组。通过聚类分析的统计方法,我们将尝试找到尽可能明显不同的组。
聚类分析
[edit | edit source]聚类分析的目的是从一个异质的大型数据集中构建具有同质属性的组。使用的**方法**通常分为两步:选择邻近度量,它检查每一对观察值(对象)的值是否相似。然后定义一个相似度(邻近度)度量来衡量对象的接近程度。它们越接近,它们的同质性就越高。以及选择一个群体构建算法,它根据邻近度量将对象分配到群体中,以便群体之间的差异变大,而同一群体内的观察值尽可能接近。
在我们的分析中,我们选择将欧几里得距离作为我们的邻近度量,即两点之间的平方距离。但在这样做之前,我们通过方差将数据标准化,因为使用了不同的变量缩放方法。
我们的算法是所谓的 Ward 聚类算法,它将不会使给定异质性度量增加过多的组合并在一起。Ward 程序的目标是将组统一起来,使这些组内部的差异不会过分增加:由此产生的组尽可能同质。我们在 图表 9 中的树状图中看到了聚类序列的图形表示。它显示了观察值、聚类序列以及聚类之间的距离。纵轴显示点的索引,而横轴给出聚类之间的距离。
我们可以清楚地区分三个具有相对较高同质性的组(聚类)。右侧包含 108 个观察值的最大聚类代表发展中国家,中间包含 37 个观察值的组代表新兴国家,而最小的组包含 18 个观察值,与发达国家相同。
此外,我们还计算了三个聚类均值的 PCP(平行坐标图),以可视化这些组之间的差异。绿线代表发达国家,红线代表新兴国家,蓝线代表发展中国家。正如我们预期的那样,可以观察到两个明显相反的组。红线(新兴国家)接近蓝线(发达国家),这似乎是一个合理的结果。
要获得包含在不同聚类中的国家的列表,请运行附加到 图表 9 中的程序。
多元分析
[edit | edit source]正如 双变量分析 部分提到的,我们数据集中的结核病与解释变量之间可能存在不同的关系。还应该提到,我们既没有非常专业的医学知识,也没有从自身经验中了解结核病患病率高的国家的具体情况。因此,可能很难理解不同变量之间的关系。尽管如此,我们将对几乎每个解释变量都做出一些假设,并看看它们是否成立。从 双变量分析 部分的图表 5 中,我们发现 图表 11 中显示的回归线(红色,实线)非常接近点云。这些关系可以用以下可能天真的方式解释。
假设发展
[edit | edit source]- 结核病患病率与艾滋病相关死亡人数
- 肺结核患病率与疟疾患病率
- 疟疾和肺结核之间似乎没有线性关系。但如果我们排除一些疟疾病例极高的国家,我们可能会学到更多。这可以通过“paf”命令轻松完成。尽管如此,疟疾患病率对肺结核患病率没有显著影响,正如您从下表中的 p 值中看到的那样。
Contents of out [ 1,] "" [ 2,] "A N O V A SS df MSS F-test P-value" [ 3,] "_________________________________________________________________________" [ 4,] "Regression 22178.097 1 22178.097 2.228 0.1375" [ 5,] "Residuals 1602701.069 161 9954.665" [ 6,] "Total Variation 1624879.166 162 10030.118" [ 7,] "" [ 8,] "Multiple R = 0.11683" [ 9,] "R^2 = 0.01365" [10,] "Adjusted R^2 = 0.00752" [11,] "Standard Error = 99.77307" [12,] "" [13,] "" [14,] "PARAMETERS Beta SE StandB t-test P-value" [15,] "________________________________________________________________________" [16,] "b[ 0,]= 95.8129 8.1290 0.0000 11.787 0.0000" [17,] "b[ 1,]= 0.0296 0.0198 0.1168 1.493 0.1375"
- 肺结核患病率与女性使用安全套作为避孕措施
- 正如我们在 单变量分析 中提到的,这个变量难以处理,因为安全套的相对使用率似乎不能说明性交过程中使用安全套的频率。如果其他避孕措施不经常使用,安全套的相对使用率可能会很高。因此,我们没有对这两个变量之间的关系做出假设。然而,事实证明,在关于肺结核患病率的简单线性回归模型中,安全套使用率的系数与零显著不同。
注意:如果我们在进一步的分析中提到显著性,我们始终指的是至少 5% 的 alpha 值!出于篇幅原因,我们避免整合所有回归输出表。
- 肺结核患病率与获得基本药物
- 这里的困难在于我们有分类数据。尽管如此,我们假设存在线性关系,这由显著的回归系数证实。负相关是显而易见的。
- 肺结核患病率与教育比例和识字率
- 尽管我们可能存在异方差性,但我们假设整个数据集存在线性关系。这也由显著的回归系数证实。
- 肺结核患病率与获得卫生设施和清洁饮用水
- 同样需要考虑异方差性。关于线性关系的假设由显著的 p 值证实。
- 肺结核患病率与二氧化碳排放量
- 二氧化碳排放量与肺结核患病率之间存在关系的合理解释将是一个相当困难的构建。但如果我们将二氧化碳排放量视为一般经济发展和生活水平的潜在因素,这种关系似乎更有意义。在 图形 11(第三行,第一个元素)中假设并显示的函数形式由负边际影响的假设所证明,即对于较低的二氧化碳排放量/生活水平,二氧化碳排放量/生活水平的微小增长对肺结核患病率的影响更强,并且从一定水平开始减弱。
- 肺结核患病率与互联网访问、个人电脑和电话普及率
- 这三个变量可以解释为获取信息。我们假设,在总体信息水平较低的情况下,额外的信息特别有价值,例如,您可以通过人体体液感染肺结核的信息,这是一个非常基本的信息,可以通过媒体轻松传播。因此,如果总体信息水平较低,信息肯定会对肺结核患病率产生更大的影响。如果人们已经获得了充足的新闻,额外的信息可能会导致我们所说的信息泛滥,即它们不再被意识到。
- 用于描述这四个变量之间关系的函数形式,出于简单性的考虑,对所有变量都相同。证明基本上是假设所有变量的负边际影响,如上所述。这里使用的函数形式是
- 最后四个(转换后的)变量的简单线性回归模型的 p 值也显著。并且,正如您在下方的输出表中看到的,调整后的 R^2 一直相对较高。这就是我们将坚持我们假设的原因。
Contents of out [ 1,] "" [ 2,] "A N O V A SS df MSS F-test P-value" [ 3,] "_________________________________________________________________________" [ 4,] "Regression 781723.888 1781723.888 149.270 0.0000" [ 5,] "Residuals 843155.278 161 5236.989" [ 6,] "Total Variation 1624879.166 162 10030.118" [ 7,] "" [ 8,] "Multiple R = 0.69361" [ 9,] "R^2 = 0.48110" [10,] "Adjusted R^2 = 0.47787" [11,] "Standard Error = 72.36705" [12,] "" [13,] "" [14,] "PARAMETERS Beta SE StandB t-test P-value" [15,] "________________________________________________________________________" [16,] "b[ 0,]= -21.0144 11.3520 0.0000 -1.851 0.0660" [17,] "b[ 1,]= 118.3640 9.6880 0.6936 12.218 0.0000" Contents of out [ 1,] "" [ 2,] "A N O V A SS df MSS F-test P-value" [ 3,] "_________________________________________________________________________" [ 4,] "Regression 605005.143 1605005.143 95.508 0.0000" [ 5,] "Residuals 1019874.023 161 6334.621" [ 6,] "Total Variation 1624879.166 162 10030.118" [ 7,] "" [ 8,] "Multiple R = 0.61020" [ 9,] "R^2 = 0.37234" [10,] "Adjusted R^2 = 0.36844" [11,] "Standard Error = 79.59033" [12,] "" [13,] "" [14,] "PARAMETERS Beta SE StandB t-test P-value" [15,] "________________________________________________________________________" [16,] "b[ 0,]= 6.5870 11.3392 0.0000 0.581 0.5621" [17,] "b[ 1,]= 25.3361 2.5925 0.6102 9.773 0.0000" Contents of out [ 1,] "" [ 2,] "A N O V A SS df MSS F-test P-value" [ 3,] "_________________________________________________________________________" [ 4,] "Regression 663303.291 1663303.291 111.059 0.0000" [ 5,] "Residuals 961575.874 161 5972.521" [ 6,] "Total Variation 1624879.166 162 10030.118" [ 7,] "" [ 8,] "Multiple R = 0.63892" [ 9,] "R^2 = 0.40822" [10,] "Adjusted R^2 = 0.40454" [11,] "Standard Error = 77.28209" [12,] "" [13,] "" [14,] "PARAMETERS Beta SE StandB t-test P-value" [15,] "________________________________________________________________________" [16,] "b[ 0,]= -18.9252 12.7351 0.0000 -1.486 0.1392" [17,] "b[ 1,]= 35.7036 3.3879 0.6389 10.538 0.0000" Contents of out [ 1,] "" [ 2,] "A N O V A SS df MSS F-test P-value" [ 3,] "_________________________________________________________________________" [ 4,] "Regression 805435.082 1805435.082 158.248 0.0000" [ 5,] "Residuals 819444.083 161 5089.715" [ 6,] "Total Variation 1624879.166 162 10030.118" [ 7,] "" [ 8,] "Multiple R = 0.70405" [ 9,] "R^2 = 0.49569" [10,] "Adjusted R^2 = 0.49256" [11,] "Standard Error = 71.34224" [12,] "" [13,] "" [14,] "PARAMETERS Beta SE StandB t-test P-value" [15,] "________________________________________________________________________" [16,] "b[ 0,]= -25.7826 11.3957 0.0000 -2.262 0.0250" [17,] "b[ 1,]= 61.4014 4.8810 0.7041 12.580 0.0000"
多元线性回归模型
[edit | edit source]现在,如果我们尝试将所有解释变量放入一个模型中会发生什么?它们的影响在其他变量的影响方面仍然显著吗?我们将尝试在 XploRe 中实现的不同选择过程,以计算拟合度最佳的模型,即调整后的 最好的模型。
向前选择模型
[edit | edit source]向前选择选项从一个“良好”变量开始,计算简单线性回归,然后逐步决定每个变量的包含是否可以改善模型的拟合度。
此过程产生以下模型作为结果
Contents of out [ 1,] "" [ 2,] "A N O V A SS df MSS F-test P-value" [ 3,] "_________________________________________________________________________" [ 4,] "Regression 910056.048 2455028.024 102.567 0.0000" [ 5,] "Residuals 700949.728 158 4436.391" [ 6,] "Total Variation 1611005.776 160 10068.786" [ 7,] "" [ 8,] "Multiple R = 0.75160" [ 9,] "R^2 = 0.56490" [10,] "Adjusted R^2 = 0.55939" [11,] "Standard Error = 66.60624" [12,] "" [13,] "" [14,] "PARAMETERS Beta SE StandB t-test P-value" [15,] "________________________________________________________________________" [16,] "b[ 0,]= -29.2719 10.7465 0.0000 -2.724 0.0072" [17,] "b[ 1,]= 12.7427 2.5019 0.3098 5.093 0.0000" [18,] "b[ 2,]= 47.5180 5.2959 0.5458 8.973 0.0000"
向后剔除模型和逐步选择模型
[edit | edit source]向后剔除过程从完整的多元回归模型开始,逐步排除对模型拟合度贡献不大的变量。在本例中,逐步选择模型产生的结果与向后剔除模型相同。两者都导致以下模型
Contents of ANOVA [ 1,] "" [ 2,] "A N O V A SS df MSS F-test P-value" [ 3,] "_________________________________________________________________________" [ 4,] "Regression 963289.397 4240822.349 61.982 0.0000" [ 5,] "Residuals 606118.006 2e+02 3885.372" [ 6,] "Total Variation 1611006 160 10068.786" [ 7,] "" [ 8,] "Multiple R = 0.77327" [ 9,] "R^2 = 0.59794" [10,] "Adjusted R^2 = 0.61412" [11,] "Standard Error = 62.33275" Contents of Summary [ 1,] "Variables in the Equation for Y:" [ 2,] " " [ 3,] "" [ 4,] "PARAMETERS Beta SE StandB t-test P-value Variable" [ 5,] " __________________________________________________________________________________" [ 6,] "b[ 0,]= 155.7053 41.5609 0.0000 3.7464 0.0003 Constant " [ 7,] "b[ 1,]= 10.5762 2.3854 0.2571 4.4337 0.0000 X 1" [ 8,] "b[ 2,]= -0.8998 0.3050 -0.2283 -2.9500 0.0037 X 7" [ 9,] "b[ 3,]= -0.8339 0.4242 -0.1621 -1.9659 0.0511 X 8" [10,] "b[ 4,]= 26.3803 6.6151 0.3030 3.9879 0.0001 X 12"
这个结果并不令人满意,因为模型的解释能力并没有比大多数简单的回归模型高多少。造成拟合不足的原因是什么?这个问题将在我们的最终结论中得到解决。
正如我们在分析过程中所看到的,有很多方法可以加深你对未知数据集的理解。虽然我们并没有找到一个完全解释不同国家结核病患病率差异的令人满意的模型,但我们对数据集中的结构有了更好的了解。我们已经看到并试图解释结核病患病率与所有其他变量之间的单变量关系。此外,我们还在数据中找到了相当合理的组,可以通过提供的程序分别进行评估。
然而,像多元回归这样的多元分析需要更复杂的方法。从整个数据集的相关矩阵可以很容易地看出,许多不同的变量彼此相关。这在某些情况下是显而易见的,例如在电话线路、互联网接入可能性和个人电脑方面。这些多重共线性问题使得多元回归相当困难,因为可以得到许多具有相似拟合但解释变量不同的模型。因此,我们应该尝试找到一种方法来减少数据集的维度,例如使用因子分析。
最后,我们应该再次提到,我们的假设既不基于复杂的医学专业知识,也不能说明我们数据的随时间发展,这对于推导出更好的假设可能非常有用,而这些假设可以用所提出的方法进行检验。
无论如何,我们为读者提供了许多机会,让他们使用提供的程序继续分析。例如,可以利用不同的聚类(通过程序 9保存)来重复异常值处理(通过程序 6)或双变量分析(通过程序 11)等。
[Härdle, Klinke, Müller 2000] Härdle, W.; Klinke, S.; Müller, M.: Xplore 学习指南。施普林格出版社,柏林-海德堡,2000 年
[Härdle, Simar 2003] Härdle, W.; Simar, L.: 应用多元统计分析。施普林格出版社,柏林-海德堡,2003 年
[Hädle, Hlavka, Klinke 2000] Hädle, W.; Hlavka, Z.; Klinke, S.: XploRe 应用指南。施普林格出版社,柏林-海德堡,2000 年
联合国统计司,网址:http://unstats.un.org/unsd/cdb/cdb_list_dicts.asp,访问时间:2006 年 12 月 9 日
XploRe 帮助,网址:http://www.xplore-stat.de/help/_Xpl_Start.html