统计/测试数据/compare-prop2
外观
< 统计
以下是一个来自2004年美国总统大选的运行示例。应该清楚的是,民意调查的选择以及谁领先与概念的介绍无关。根据新闻周刊(链接)于10月2日进行的一项民意调查,如果今天举行选举,47%的1013名已登记选民将投票给约翰·克里/约翰·爱德华兹。45%的人会投票给乔治·W·布什/迪克·切尼,2%的人会投票给拉尔夫·纳德/彼得·卡梅霍。
- 在Microsoft Excel程序中打开一个新的空白工作簿。
- 在单元格A1中输入克里的报告百分比*p*(0.47)。
- 在单元格B1中输入布什的报告百分比*q*(0.45)。
- 在单元格C1中输入受访者人数*N*(1013)。这可以在大多数关于民意调查的负责任报告中找到。
- 在单元格A2中,完整复制并粘贴下一行文本并按Enter键。这是Microsoft Excel对如上所述的差异标准误的表达式。
- =sqrt(A1*(1-A1)/C1+B1*(1-B1)/C1+2*A1*B1/C1)
- 在单元格A3中,完整复制并粘贴下一行文本并按Enter键。这是Microsoft Excel对基于给定逻辑的正态分布的克里领先概率的表达式。
- =normdist((A1-B1),0,A2,1)
- 不要忘记百分比将以小数形式表示。当然,如果A1和B1相同,百分比将为0.5或50%。
以上文字可能足以进行必要的计算,但它无助于理解所涉及的统计检验。人们经常认为统计学只是用复杂公式进行计算的问题。
所以问题是:令p为投票给克里的已登记选民的人口比例,q类似地表示投票给布什的人口比例。在一个有n=1013个受访者的民意调查中,要求受访者说明他们的选择。一定数量的K个受访者表示选择克里,一定数量的B个受访者表示投票给布什。K和B是随机变量。K和B的观测值为k和b(数字)。所以k/n是p的估计值,b/n是q的估计值。随机变量K和B服从参数为n、p、q和1-p-q的三项分布。克里会领先于布什吗?也就是说:p>q吗?为了研究这个问题,我们进行了一项统计检验,其零假设为
反对备择假设
- .
什么是合适的检验统计量T?我们取
- .
(在上面的计算中,取,这将导致相同的计算。)
我们必须说明T在零假设下的分布。我们可以假设T近似服从正态分布。
很明显,它在H0下的期望值为
- .
它在H0下的方差并不那么明显。
- .
我们使用样本分数而不是总体分数来近似方差
- .
标准差s将近似为
- .
在样本中,我们发现了一个值为 t = k - b = (0.47-0.45)1013 = 20.26 的 T。对于 T 的较大值,我们将拒绝零假设而支持备择假设。所以问题是:20.26 应该被认为是 T 的一个大值吗?标准将是这个结果的所谓 p 值。
- .
这是一个非常大的 p 值,所以没有任何理由拒绝零假设。