结核病统计/分析
结核病 (TB) 是一种常见的致命性传染病,如今正在卷土重来。据世界卫生组织估计,目前全球超过三分之一的人口体内携带这种细菌。艾滋病毒阳性的人感染结核分枝杆菌的风险要高得多,因为他们的免疫系统受到艾滋病毒的损害。其他可能导致结核病流行的指标包括营养不良、卫生条件差以及缺乏医疗措施。
结核病长期被忽视,在世界许多地区已达到流行病的程度。这种传播的原因可能是什么?如上所述,人们似乎对大多数促成这种疾病的因素达成了共识。然而,关于结核病流行与某些因素之间关系的新假设必须通过统计方法进行量化,这些方法是用统计软件进行的。
因此,根据孔子的一句名言,我们的分析目标是道,更准确地说,是评估和处理多元数据集的方法。然而,在分析过程中,我们将提出一些关于变量关系的假设。快速浏览一下多元分析及其小节。
用于此次分析的程序是MDTech XploRe 软件。分析的所有主要步骤都可以通过本研究中提供的程序代码轻松地重现(通常与图像空间中的图形一起)。您只需要原始数据,名为"datest.csv",可在http://www.quantlet.org/mdbase/上获得,以及XploRe 软件的免费学术版。
该分析基于名为"datest.csv"的数据集,该数据集可在MD*Base的主页上获得。
原始数据集 (datorg.csv) 中出现的缺失值已使用不同的方法替换为估计值,例如相邻国家平均值、线性回归和其他技术。由于数据是从联合国收集的,您可以在联合国统计司的主页上仔细查看每个变量的定义。
该数据集包含 163 个观测值和 16 个变量。第一个变量是文本变量,显示每个国家的名称,第二个变量将每个国家分配到一个大陆,因此是名义变量(从 1 到 6)。所有其他变量在以下表格中描述
编号 | 标题 | 类型 | 备注 |
---|---|---|---|
1. | 国家 | 文本 | 每个国家的名称 |
2. | 大陆 | 名义 | 1:亚洲,2:北美洲,3:南美洲,4:非洲,5:欧洲,6:澳大利亚和洋洲 |
3. | 人口 | 公制 | 每个国家的人口总数 |
4. | 安全套使用率 | 公制 | 女性使用安全套与其他避孕措施的比例(以百分比表示) |
5. | 艾滋病估计死亡人数 | 公制 | 与艾滋病相关的死亡总数(估计) |
6. | 疟疾 | 公制 | 流行总人数 |
7. | 结核病 | 公制 | 每 100,000 人的患病率 |
8. | 药品 | 公制 | 获得基本药物(如世界卫生组织所列)的比例(以百分比表示) |
9. | 教育 | 公制 | 相关年龄组的入学率,分为四个组 < 50 %,50 – 80 %,80 – 95 %,> 95 % |
10. | 识字率 | 公制 | 以百分比表示的比率 |
11. | 卫生设施 | 公制 | 获得基本卫生设施的比例(以百分比表示) |
12. | 水 | 公制 | 获得改良饮用水的比例(以百分比表示) |
13. | 二氧化碳 | 公制 | 每人吨 |
14. | 互联网 | 公制 | 互联网接入总数 |
15. | 个人电脑用户 | 公制 | 总数 |
16. | 电话 | 公制 | 总数 |
从表 1 可以看出,变量是以不同的尺度测量的。结核病的测量单位是每 100,000 人,而例如估计的与艾滋病相关的死亡人数则以人口总数表示。因此,我们分析的第一步是重新排列数据集,使其更有序,并以更合适的方式进行缩放。
以下程序用于
- 在数据集中添加一列包含国家代码
- 将所有三种疾病的比例标准化为“每 100,000 人”
- 将互联网接入总数、个人电脑总数和电话线总数更改为相对数量
- 重新排列变量顺序,使
- 前三列包含国家代码、大陆代码和人口
- 第四到第六列分别包含估计的艾滋病死亡人数、疟疾患病率和结核病患病率的标准化值
- 变量“安全套使用”出现在第八列,之后是其他变量,按原始顺序排列
该程序将加载原始数据并创建两个 CSV 文件,分别包含重新排列的数据集(包括国家名称)和仅包含国家名称的文件。在运行程序之前,请确保您已从MD*Base的主页下载了原始数据"datest.csv"到已知的目录中。
library("xplore") library("stats") ; ----- Reading data ---------------------------------------------------------------------------- choose = "Read from:" | "Save as:" | "Save country info as:" defaults1 = "C:\Dokumente und Einstellungen\All Users\Desktop\datest.csv" defaults2 = "C:\Dokumente und Einstellungen\All Users\Desktop\UN_data_ordered.csv" defaults3 = "C:\Dokumente und Einstellungen\All Users\Desktop\country.csv" defaults = defaults1 | defaults2 | defaults3 v = readvalue(choose, defaults) ; ----- Transformation -------------------------------------------------------------------------- x=readcsvm(v[1]) num=1:163 data=num~x.double country=x.text pop=data[,3] x=(data[,5|6]/pop)*100000 y=data[,14|15|16]/pop data=data[,1:3]~x~data[,7|4|8:13]~y l=list(country, data) ; ----- Saving ---------------------------------------------------------------------------------- writecsv(l,v[2]) writecsv(country,v[3])
首先,我们想概述一些关于解释变量的描述性数据的概述,包括五数概括、偏度和峰度。偏度和峰度分别测量偏度和偏离正态分布的程度
;
对于一个关于对称的分布,偏度应该接近于 0。对于一个类似于正态分布的分布,峰度应该接近于 3。
变量 | 最小值 | 25% 分位数 | 中位数 | 平均值 | 75% 分位数 | 最大值 | 偏度 | 峰度 |
---|---|---|---|---|---|---|---|---|
安全套使用率 | 0 | 4.25 | 6.8 | 10.13 | 12.95 | 77.6 | 2.88 | 18.17 |
药品 | 50 | 80 | 80 | 81.47 | 95 | 100 | -0.78 | 2.42 |
教育 | 13.9 | 73.5 | 91.1 | 83.63 | 97.3 | 109.5 | -1.33 | 4.22 |
识字率 | 24.5 | 83.4 | 95.6 | 88.34 | 99.3 | 100 | -1.64 | 5.12 |
卫生设施 | 8 | 62 | 87 | 76.56 | 98 | 100 | -0.96 | 2.71 |
水 | 24 | 71.5 | 87 | 81.06 | 98 | 100 | -0.99 | 2.97 |
二氧化碳 | 0.02 | 0.41 | 1.97 | 4.67 | 6.26 | 90.74 | 6.52 | 61.37 |
互联网 | 0 | 0 | 0.03 | 0.1 | 0.1 | 0.58 | 1.73 | 4.7 |
个人电脑用户 | 0 | 0 | 0.03 | 0.1 | 0.11 | 0.60 | 2.02 | 6.23 |
电话 | 0 | 0.03 | 0.22 | 0.4 | 0.55 | 1.61 | 1.16 | 3.01 |
箱线图、直方图和分位数-分位数图
[edit | edit source]现在,我们将通过传统的单变量分析机制,观察我们后期模型中所有感兴趣的变量。为了得到一个综合的概述,我们首先关注包含超过一个变量的信息的多图显示。
让我们看看图 1和图 2,我们计算了数据中疾病的箱线图和直方图,包括结核病、疟疾和艾滋病。
如上所述,所有三个变量都已转换为每 100,000 人的比例。为了在图 1中更好地可视化,我们标准化了 x 轴,否则结核病和疟疾的箱线图将过于压缩。对于所有三个变量,我们观察到右偏斜,但异常值分布的特征差别很大。因此,对于结核病,我们只识别出一个异常值(柬埔寨),而对于艾滋病死亡,则显示了 38 个异常值,其中 24 个是中等程度的(圆圈),14 个是更明显的(十字)。我们决定识别这些异常值,结果表明大约 90% 的异常值是非洲国家,相应地,大约 72% 的非洲国家是异常值。是否应该在这里排除整个大陆?绝对不应该,但这一事实为数据中可能存在的子组提供了一个提示。
图 3 到 5 为我们提供了对可能影响因变量结核病的解释变量进行单变量分析的结果。
在图 3中,我们看到了上面提到的箱线图。请注意,我们以不同的比例显示了箱线图。前五个箱线图以百分比衡量,而我们决定标准化较低箱线图的 y 轴。关于获取药物箱线图有一个重要的说明:虽然似乎只有一个异常值,但事实证明,这个“点”实际上是 37 个国家,它们都落在了 0% 到 50% 的类别中。
数据的偏度也可以被预料到,并在图 4中得到证实,我们在其中显示了平均偏移曲线和直方图。再次引起我们注意的是,除获取药物外,上面的变量都向左偏斜,而下面的变量都向右偏斜。这意味着大多数国家的变量值在上面的部分比较高,而那些在下面的部分比较低。 图 5显示了分位数-分位数图,用于比较每个变量与正态分布。显然,我们与 45 度线存在明显的偏差,这表明这些变量不是正态分布的。
总的来说,单变量分析的主要发现是,我们有非常偏斜的分布,这些分布在不同的变量之间部分重叠。这可能是单个维度之间强相关性的一个指标。无论如何,问题仍然存在,这些关系是线性的还是非线性的。此外,我们在数据集的不同维度中看到了很多异常值。因此,问题就出现了,一个维度中的异常值是否也是数据集中其他维度的异常值。这个问题将在下一节中讨论。
使用简单多元方法处理异常值
[edit | edit source]正如我们在单变量分析中所看到的,我们面临着一个非常异质的数据集,具有极度偏斜的分布,因此有很多观察结果被显示为异常值。这种情况甚至发展到几乎要从分析中排除整个大陆,即非洲的艾滋病相关死亡率。这可能促使对非洲进行单独的分析。
人口 | 艾滋病 | 疟疾 | 结核病 | 避孕套使用 | 药品 | 教育 |
---|---|---|---|---|---|---|
20 | 24 | 37 | 1 | 9 | 31 | 7 |
识字率 | 卫生设施 | 水 | 二氧化碳 | 互联网 | 个人电脑 | 电话 |
9 | 0 | 3 | 8 | 26 | 18 | 10 |
但是在这里,我们的目标是找到更好地处理多维大型数据集的方法。因此,我们试图找到一种方法来评估所有国家在其特定维度上的极端值。此外,我们希望获得一个表,其中包含每个维度中“箱线图异常值”的数量。因此,我们计算了一个 163 x 14 的矩阵,其中包含逻辑值 0 或 1,其中 1 表示观察结果是异常值。使用此矩阵进行简单的计算,会导致除了在表 3中显示的每个维度中的异常值数量之外的其他结果。
图 6显示了一个条形图,其中国家根据单变量极端值或“箱线图异常值”的数量进行分类。该图表显示,只有少数国家在四个维度上是箱线图意义上的异常值,并且没有一个国家具有超过四个极端值。“异常值程序”生成图 6,并提供一个选项,可以决定观察结果必须在多少个维度上成为单变量异常值才能被视为“多维异常值”。这些“多维异常值”然后用蓝色标记,并与其他观察结果一起显示在星形图中(或者,也可以选择所谓的切尔诺夫-弗里脸)。这有助于决定这些观察结果是否真的与数据的其余部分有很大不同。这个过程可以重复多次,直到找到一个令人满意的异常值集,该集合将被排除在进一步分析之外(通过“异常值程序”提供保存选项)。
然而,对于进一步的分析,我们决定不排除任何观察结果,而是继续使用整个数据集,因为即使每个观察结果有四个异常的高值或低值,与总共 13 个相关维度相比,仍然相对较少。此外,异常值星形图显示,数据中似乎存在不同组的国家,它们具有由各自星星形状所反映的相似特征。如果我们选择用一种或多种“箱线图异常值”来标记所有观察结果,那么剩下的(绿色)观察结果似乎具有非常相似的特征。但剩余的国家数量非常有限,似乎不能代表世界上的国家群体。
然而,我们可以检查在进一步的分析过程中排除某些“多维异常值”的影响。
双变量分析
[edit | edit source]现在,我们想要更好地了解我们感兴趣的变量,即结核病患病率,与其他变量之间的关系,这些变量根据我们的目标被认为是解释变量。在一个数据集中可视化所有变量之间关系的一种方法是散点图。在这种图形中,所有变量都会彼此绘制。由于我们有 13 个感兴趣的变量,这将为我们提供一个 13 x 13 的二维图形显示,这几乎不允许在标准计算机显示器上进行适当的显示。此外,对角线上有空位,并且上三角形和下三角形中的信息重复。因此,这种图形只能以适当的方式用于最多八个变量。
相反,我们只是将所有解释变量对结核病进行绘图,并将它们显示在一个窗口中,该窗口显示在 图 7 中。该图提供了推导出数据之间关系的基本假设所需的必要信息。
首先,可以看出,大多数观测值似乎分布在一个非常小的区域内,在大多数情况下是图表的角落,而只有相对较小的一部分散布在整个图表的范围内。为了更好地可视化这一点,我们在绘图中添加了一个维度,并计算了绘图的二维密度估计。这可以在 图 8 中看到,它以示例的形式显示了“结核病”和“卫生设施”的二维密度估计。这进一步加强了我们分析前几步中提到的想法。也就是说,可以根据可用的信息/变量将这些国家划分为不同的组。此外,解释变量和结核病之间似乎存在不同的关系。这些关系将在我们分析的后续步骤中进行考虑。由于这些关系可能因子组而异,因此我们继续尝试在国家中找到同质组,并转向在 多元分析部分 上发展关于关系的假设。
寻找组
[edit | edit source]由于我们已经看到了许多表明不同组存在的指标,因此我们将尝试找到并解释数据中可以找到的组。在我们使用现有的统计方法之前,我们想提一下对全球各国的一种常见区分。这是根据其“总体发展水平”将国家划分为发达国家(通常与西欧国家、北美和日本同义),新兴国家(如东南亚“四小龙”国家,以及大多数拉丁美洲国家),以及发展中国家(以前经常被描述为第三世界(尽管只有一个),因为这些国家是收入和生活水平最低的国家)。尽管这三种国家组别的区分并不是真正基于像我们这样的数据,而是实际上还包含了更多经济数据以及社会科学数据,但人们仍然期望找到类似于上面描述的组。现在,我们将使用聚类分析的统计方法来尝试找到彼此之间差异尽可能大的组。
聚类分析
[edit | edit source]聚类分析的目的是从一个异质的大型数据集中构建具有同质属性的组。所使用的方法通常分为两个步骤:选择邻近性度量,它检查每对观测值(对象)的相似性。然后定义相似性(邻近性)度量来测量对象的接近程度。它们越接近,就越同质。以及选择群组构建算法,该算法根据邻近性度量将对象分配给群组,以便群组之间的差异变得很大,而群组中的观测值尽可能接近。
在我们的分析中,我们选择使用欧几里得距离作为邻近性度量,该距离是两点之间的平方距离。但在这样做之前,我们通过方差对数据进行了标准化,因为变量使用了不同的缩放比例。
我们的算法是所谓的 Ward 聚类算法,该算法将那些不会过度增加给定异质性度量的组合并在一起。Ward 程序的目的是合并组,使这些组内部的变化不会过分增加:最终得到的组尽可能同质。我们在 图 9 中的树状图中看到了聚类序列的图形表示。它显示了观测值、聚类序列以及聚类之间的距离。纵轴显示了点的索引,而横轴显示了聚类之间的距离。
我们可以清楚地区分三个同质性相对较高的组(聚类)。最右侧包含 108 个观测值的最大的聚类代表发展中国家,中间包含 37 个观测值的组代表新兴国家,而最小的包含 18 个观测值的组与发达国家相同。
此外,我们还计算了三个聚类均值的 PCP(平行坐标图),以直观地显示这些组之间的差异。绿线代表发达国家,红线代表新兴国家,蓝线代表发展中国家。正如我们所预期的,可以观察到两个明显相反的组。红线(新兴国家)接近蓝线(发达国家),这似乎是一个合理的结论。
要获取包含在不同聚类中的国家列表,请运行附在 图 9 中的程序。
多元分析
[edit | edit source]如 双变量分析 部分所述,可能存在结核病与我们数据集中包含的解释变量之间的不同关系。还应提到,我们既没有非常精深的医学知识,也没有从我们自己的经验中了解高结核病患病率国家的状况。因此,可能难以理解不同变量之间的关系。尽管如此,我们仍将对几乎所有解释变量进行一些假设,并看看它们是否成立。从 双变量分析 部分的图 5 中,我们发现 图 11 中显示的回归线(红色,实线)非常接近点云。这些关系可以用以下可能幼稚的方式解释。
假设发展
[edit | edit source]- 结核病患病率与艾滋病相关死亡人数
- 结核病患病率与疟疾患病率
- 疟疾和结核病之间似乎没有线性关系。但是,如果我们排除了一些疟疾病例非常严重的国家,我们可能会学到更多。这可以通过“paf”命令轻松实现。尽管如此,如以下表格中的 p 值所示,疟疾患病率对结核病患病率没有显著影响。
Contents of out [ 1,] "" [ 2,] "A N O V A SS df MSS F-test P-value" [ 3,] "_________________________________________________________________________" [ 4,] "Regression 22178.097 1 22178.097 2.228 0.1375" [ 5,] "Residuals 1602701.069 161 9954.665" [ 6,] "Total Variation 1624879.166 162 10030.118" [ 7,] "" [ 8,] "Multiple R = 0.11683" [ 9,] "R^2 = 0.01365" [10,] "Adjusted R^2 = 0.00752" [11,] "Standard Error = 99.77307" [12,] "" [13,] "" [14,] "PARAMETERS Beta SE StandB t-test P-value" [15,] "________________________________________________________________________" [16,] "b[ 0,]= 95.8129 8.1290 0.0000 11.787 0.0000" [17,] "b[ 1,]= 0.0296 0.0198 0.1168 1.493 0.1375"
- 结核病患病率与女性使用安全套作为避孕工具
- 正如我们在 单变量分析 中提到的那样,这个变量很难处理,因为安全套的相对使用率似乎不能说明性交过程中使用安全套的频率。如果其他避孕措施的使用频率不高,那么安全套的相对使用率可能很高。因此,我们没有对这两个变量之间的关系做出假设。尽管如此,事实证明,在结核病患病率的简单线性回归模型中,安全套使用率的系数与零显著不同。
注意:如果我们在进一步分析中提到显著性,我们始终指的是至少 5% 的 alpha!出于空间原因,我们没有将所有回归输出表格整合在一起。
- 结核病患病率与获得基本药物
- 这里的难点在于我们有分类数据。尽管如此,我们假设存在线性关系,这一点得到了显著回归系数的证实。负相关是显而易见的。
- 结核病患病率与受教育程度和识字率
- 尽管我们可能会遇到异方差性,但我们假设整个数据集存在线性关系。这一点也得到了显著回归系数的证实。
- 结核病患病率与获得卫生设施和清洁饮用水
- 同样需要考虑异方差性。关于线性关系的假设得到了显著 p 值的证实。
- 结核病患病率与 CO2 排放量
- 将二氧化碳排放量与肺结核患病率之间的关系解释清楚并非易事。但如果我们将二氧化碳排放量视为一般经济发展和生活水平的潜在因素,这种关系似乎更有意义。在图 11(第三行,第一个元素)中假设和显示的函数形式,是基于负边际影响的假设,即,对于较低的二氧化碳排放量/生活水平,二氧化碳排放量/生活水平的微小增加对肺结核患病率的影响更大,并从一定水平开始逐渐减弱。
- 肺结核患病率与互联网接入、个人电脑和电话普及率的关系。
- 这三个变量可以被理解为信息获取途径。我们假设,在信息总体水平较低的情况下,额外信息将特别有价值。例如,通过媒体传播的关于可以通过人体体液感染肺结核的简单信息。因此,在信息总体水平较低的情况下,信息对肺结核患病率的影响更大。如果人们已经获得了大量新闻,额外的信息可能会导致我们所说的信息过载,即人们不再注意到这些信息。
- 为了简化起见,描述这四个变量之间关系的函数形式对于所有变量都相同。其依据基本上是所有变量都具有负边际影响的假设,如上所述。这里使用的函数形式为
- 最后四个(变换后的)变量的简单线性回归模型的p值也显著。并且,如您在下面的输出表中所见,调整后的R^2始终相对较高。因此,我们将维持我们的假设。
Contents of out [ 1,] "" [ 2,] "A N O V A SS df MSS F-test P-value" [ 3,] "_________________________________________________________________________" [ 4,] "Regression 781723.888 1781723.888 149.270 0.0000" [ 5,] "Residuals 843155.278 161 5236.989" [ 6,] "Total Variation 1624879.166 162 10030.118" [ 7,] "" [ 8,] "Multiple R = 0.69361" [ 9,] "R^2 = 0.48110" [10,] "Adjusted R^2 = 0.47787" [11,] "Standard Error = 72.36705" [12,] "" [13,] "" [14,] "PARAMETERS Beta SE StandB t-test P-value" [15,] "________________________________________________________________________" [16,] "b[ 0,]= -21.0144 11.3520 0.0000 -1.851 0.0660" [17,] "b[ 1,]= 118.3640 9.6880 0.6936 12.218 0.0000" Contents of out [ 1,] "" [ 2,] "A N O V A SS df MSS F-test P-value" [ 3,] "_________________________________________________________________________" [ 4,] "Regression 605005.143 1605005.143 95.508 0.0000" [ 5,] "Residuals 1019874.023 161 6334.621" [ 6,] "Total Variation 1624879.166 162 10030.118" [ 7,] "" [ 8,] "Multiple R = 0.61020" [ 9,] "R^2 = 0.37234" [10,] "Adjusted R^2 = 0.36844" [11,] "Standard Error = 79.59033" [12,] "" [13,] "" [14,] "PARAMETERS Beta SE StandB t-test P-value" [15,] "________________________________________________________________________" [16,] "b[ 0,]= 6.5870 11.3392 0.0000 0.581 0.5621" [17,] "b[ 1,]= 25.3361 2.5925 0.6102 9.773 0.0000" Contents of out [ 1,] "" [ 2,] "A N O V A SS df MSS F-test P-value" [ 3,] "_________________________________________________________________________" [ 4,] "Regression 663303.291 1663303.291 111.059 0.0000" [ 5,] "Residuals 961575.874 161 5972.521" [ 6,] "Total Variation 1624879.166 162 10030.118" [ 7,] "" [ 8,] "Multiple R = 0.63892" [ 9,] "R^2 = 0.40822" [10,] "Adjusted R^2 = 0.40454" [11,] "Standard Error = 77.28209" [12,] "" [13,] "" [14,] "PARAMETERS Beta SE StandB t-test P-value" [15,] "________________________________________________________________________" [16,] "b[ 0,]= -18.9252 12.7351 0.0000 -1.486 0.1392" [17,] "b[ 1,]= 35.7036 3.3879 0.6389 10.538 0.0000" Contents of out [ 1,] "" [ 2,] "A N O V A SS df MSS F-test P-value" [ 3,] "_________________________________________________________________________" [ 4,] "Regression 805435.082 1805435.082 158.248 0.0000" [ 5,] "Residuals 819444.083 161 5089.715" [ 6,] "Total Variation 1624879.166 162 10030.118" [ 7,] "" [ 8,] "Multiple R = 0.70405" [ 9,] "R^2 = 0.49569" [10,] "Adjusted R^2 = 0.49256" [11,] "Standard Error = 71.34224" [12,] "" [13,] "" [14,] "PARAMETERS Beta SE StandB t-test P-value" [15,] "________________________________________________________________________" [16,] "b[ 0,]= -25.7826 11.3957 0.0000 -2.262 0.0250" [17,] "b[ 1,]= 61.4014 4.8810 0.7041 12.580 0.0000"
多元线性回归模型
[edit | edit source]现在,如果我们尝试将所有解释变量放入一个模型中会发生什么?它们的影响在其他变量的影响方面是否仍然显著?我们将尝试在XploRe中实现的不同选择过程,以计算拟合度最佳的模型,即调整后的 最佳的模型。
向前选择模型
[edit | edit source]向前选择选项从一个“良好”变量开始,计算简单线性回归,然后逐步决定每个变量的加入是否可以改善模型的拟合度。
该过程产生了以下模型结果
Contents of out [ 1,] "" [ 2,] "A N O V A SS df MSS F-test P-value" [ 3,] "_________________________________________________________________________" [ 4,] "Regression 910056.048 2455028.024 102.567 0.0000" [ 5,] "Residuals 700949.728 158 4436.391" [ 6,] "Total Variation 1611005.776 160 10068.786" [ 7,] "" [ 8,] "Multiple R = 0.75160" [ 9,] "R^2 = 0.56490" [10,] "Adjusted R^2 = 0.55939" [11,] "Standard Error = 66.60624" [12,] "" [13,] "" [14,] "PARAMETERS Beta SE StandB t-test P-value" [15,] "________________________________________________________________________" [16,] "b[ 0,]= -29.2719 10.7465 0.0000 -2.724 0.0072" [17,] "b[ 1,]= 12.7427 2.5019 0.3098 5.093 0.0000" [18,] "b[ 2,]= 47.5180 5.2959 0.5458 8.973 0.0000"
向后剔除模型和逐步选择模型
[edit | edit source]向后剔除过程从完整的多元回归模型开始,并逐步排除对模型拟合贡献不大的变量。在我们案例中,逐步选择模型产生了与向后剔除模型相同的结果。两者都导致以下模型
Contents of ANOVA [ 1,] "" [ 2,] "A N O V A SS df MSS F-test P-value" [ 3,] "_________________________________________________________________________" [ 4,] "Regression 963289.397 4240822.349 61.982 0.0000" [ 5,] "Residuals 606118.006 2e+02 3885.372" [ 6,] "Total Variation 1611006 160 10068.786" [ 7,] "" [ 8,] "Multiple R = 0.77327" [ 9,] "R^2 = 0.59794" [10,] "Adjusted R^2 = 0.61412" [11,] "Standard Error = 62.33275" Contents of Summary [ 1,] "Variables in the Equation for Y:" [ 2,] " " [ 3,] "" [ 4,] "PARAMETERS Beta SE StandB t-test P-value Variable" [ 5,] " __________________________________________________________________________________" [ 6,] "b[ 0,]= 155.7053 41.5609 0.0000 3.7464 0.0003 Constant " [ 7,] "b[ 1,]= 10.5762 2.3854 0.2571 4.4337 0.0000 X 1" [ 8,] "b[ 2,]= -0.8998 0.3050 -0.2283 -2.9500 0.0037 X 7" [ 9,] "b[ 3,]= -0.8339 0.4242 -0.1621 -1.9659 0.0511 X 8" [10,] "b[ 4,]= 26.3803 6.6151 0.3030 3.9879 0.0001 X 12"
这并不是一个令人满意的结果,因为该模型的解释能力并没有比大多数简单回归模型高出多少。拟合不足的原因是什么?这个问题将在我们的最终结论中得到解答。
结论
[edit | edit source]正如我们在分析过程中所见,有许多方法可以加深您对未知数据集的理解。虽然我们并没有真正找到一个令人满意的模型来完全解释不同国家肺结核患病率的差异,但我们对数据集中的结构有了更深入的了解。我们已经看到了肺结核患病率与所有其他变量之间的单变量关系,并尝试对其进行解释。此外,我们在数据中找到了相当合理的组,这些组可以通过提供的程序单独评估。
然而,多元分析(如多元回归)需要更复杂的方法。正如我们从整个数据集的相关矩阵中可以轻易看到的那样,许多不同的变量彼此相关。这在某些情况下是显而易见的,例如电话线、互联网接入可能性和个人电脑方面。这些多重共线性问题使得多元回归相当困难,因为可以得到许多拟合度相似但解释变量不同的模型。因此,我们应该尝试找到一种方法来降低数据集的维度,例如通过因子分析。
最后,我们应该再次提到,我们的假设既没有基于复杂的医学专业知识,也没有关于我们数据随时间变化的任何信息,而这些信息可能有助于得出更好的假设,并可以用本文介绍的方法进行检验。
无论如何,我们留给了读者自己,利用提供的程序继续进行分析。例如,可以使用不同的聚类(通过程序 9 保存)来重复异常值处理(使用程序 6)或双变量分析(使用程序 11)等等。
参考文献
[edit | edit source][Härdle, Klinke, Müller 2000] Härdle, W.; Klinke, S.; Müller, M.: Xplore学习指南. Springer Verlag Berlin-Heidelberg, 2000
[Härdle, Simar 2003] Härdle, W.; Simar, L.: 应用多元统计分析. Springer Verlag Berlin-Heidelberg, 2003
[Hädle, Hlavka, Klinke 2000] Hädle, W.; Hlavka, Z.; Klinke, S.: XploRe应用指南. Springer Verlag Berlin-Heidelberg, 2000
联合国统计司,网址为http://unstats.un.org/unsd/cdb/cdb_list_dicts.asp,访问时间为2006年12月9日。
XploRe 帮助,网址为http://www.xplore-stat.de/help/_Xpl_Start.html