A-level 数学/OCR/S1/数据收集
收集数值数据是统计学中非常重要的一个方面——在收集过程中发生的任何错误或引入的偏差都会反映在分析中,以及随后基于这些数据得出的结论。如果数据收集不当,最好的情况是分析将是浪费时间,最坏的情况是误导并造成严重后果。
如果你通过在你所在地区进行快速上门调查来收集有关电视观看的数据,那么你并没有获得有关你所在地区观看习惯的信息,你获得的是有关你所在地区在家里、开门并且回答你问题的人的观看习惯的信息。
统计数据解释
统计学学生必须认识到的第一件事是,从数字中提取的结果可能会被错误地解释,或者通过(滥用)选择有意歪曲。为了避免错误,统计学家必须:a) 在选择信息时要非常小心,避免有偏见的结果。 b) 只做那些严格逻辑上的推论。 c) 注意“第三方”的相关性来源。
有偏见的数据来源
统计学家面临的一个问题是,信息来源可能有偏见。统计学家必须始终问一些问题,例如:a) 谁说的? b) 他为什么这么说? c) 他/她从这么说中能得到什么? d) 他/她如何知道? e) 他/她可能在撒谎吗? 或者在猜测? f) 是否有其他解释?
我们将想要获取信息的群体(或项目)称为总体。定义总体有时很棘手,有时可能不知道总体的全部范围——例如,患有未诊断艾滋病的人数本质上是未知的。
如果总体相对较小且易于调查,我们可能会检查总体中的每个项目。但是,通常情况下,总体要么太大,要么太昂贵,要么难以调查每个项目,因此你可能不得不满足于只检查一部分,或者样本,即总体的部分。
从总体中可以从中选择项目来形成样本的列表称为样本框。
尽管对整个总体进行调查似乎比依赖小样本更好,但这往往并非如此。首先,这可能很昂贵,其成本可能超过结果的价值。有时,只调查总体的一小部分可以提高准确性,因为可以对一小部分样本给予非常仔细的关注,而时间限制或熟练调查员的可用性不允许对整个总体进行调查。
统计数据的收集通常通过以下一种或多种方法实现:a) 直接测量 b) 访谈 c) 从已发布的统计数据中提取数据 d) 间接问卷 f) 征集
这通常是最好的方法,因为它减少了错误数据的可能性,并且你可以控制记录数据的质量,这也是最昂贵的方法之一。在某些情况下,这是不可能的——你无法观察到人们如果有无限的钱会去哪里度假。
访谈可以成为一种有效的技术,但前提是在如何设计问题和整理答案方面要格外小心。访谈的结果也可能具有误导性,因为答复者可能会 (a) 误解问题,(b) 忘记一些信息,(c) 为了提供正确的答案而撒谎,(d) 为了隐瞒真相而撒谎。访谈者记录结果的标准不同也会造成扭曲。如果提问者问“你昨晚看了电视上的 XYZ 吗——是或否”,并且得到了“部分看了”的回答,这算“是”还是“否”?
由调查或直接为调查而收集的数据是原始数据,调查者应该充分了解这些数据的条件和局限性。从其他调查收集的信息中提取的数据是二手数据,通常调查者并不完全了解这些数据的条件和局限性,但是这通常可能是唯一实用的数据来源(例如,过去 100 年煤炭产量的变化)。调查者对数据的认识固有的局限性意味着,在使用已发布数据源中的数据时,要考虑原始数据收集的目的——特别是,该目的是否意味着如果你将数据用于自己的调查,可能会存在偏差。
间接问卷的典型代表是邮政问卷——它未经请求地到达,预计会完成并通过邮政返回,尽管现代版本也可能以电子方式到达。这通常是最不可取的数据收集方法,原因很简单,因为只有很少的问卷会返回(15% 就算是不错了),而那些返回的问卷可能显示出很强的偏差,因为只有那些对主题有足够强烈兴趣的人,或者有误导意图的人才会返回问卷。大多数国家有一个例外——那就是法定人口普查,法律强制要求完成人口普查,尽管人口普查部门仍然需要进行核查访谈来核实数据。
征求意见的典型例子是“意见箱”和“投诉箱”。收集到的数据几乎毫无价值。不幸的是,这种方法被现代媒体广泛使用,例如“发送短信到这个号码……”,然后将“结果”突出显示。这种方法只能收集到那些对完成回复足够有强烈意见的人的数据,因为他们愿意花费时间和金钱。
无论何时从人们那里获取信息,都必须仔细设计问题。问题应该:a) 易于理解。b) 清晰无歧义。c) 限制可能的答案(勾选预印的答案)。d) 简洁扼要。e) 与受访者相关。f) 与研究的目标、目的和目的相一致。g) 对受访者有意义。h) 有明确的重点。i) 不暗示期望的答案。j) 按照逻辑顺序排列。
当我们从总体中抽取样本时,通常不建议只取最容易得到的项目——我们寻求的是关于整个总体的的信息,因此必须从整个总体中获取数据,而不允许总体中的任何特定集合产生超过其应有的影响。不幸的是,我们必须避免的不仅仅是怀疑或已知的过度影响来源,我们还必须警惕 *未被怀疑* 的偏差来源。
通过抽取随机样本,可以降低抽取 *未被怀疑* 偏差样本的可能性。随机样本是指以这样一种方式选择的样本,即总体中的每个项目都有相同的被选中的机会。
随机样本并非完美的样本——随机样本(尤其是样本量很小的情况下)并不一定能很好地反映总体。对居住在英国的人进行的随机抽样可能导致所有样本都住在伦敦的人。随机抽样 *不能* 保证无偏差的样本,它只是保证 *选择方法无偏差* 。
如果总体可以细分为不同的群体,那么可以为每个群体设置配额,然后在群体中随机选择。
将总体细分为多个群体,然后随机选择其中一些群体进行下一阶段。每个选定的群体都被细分为子群体,然后随机选择其中一些子群体进行下一阶段。重复此过程,直到子群体的大小足够小。这种方法通常用于限制调查中的出行,每个分组代表不同的地理区域。
这是一种简单的方法——如果需要从生产线上获取 10% 的螺栓样本,那么就取出每 10 个生产出来的螺栓。这种方法通常用于生产线上。
如果生产线的运作方式存在某种系统性,导致螺栓生产每隔 10 个螺栓就出现周期性(机械师知道会进行测试),那么结果就会有偏差。
这是对配额抽样的改进。如果已知每个不同群体在总体中的相对比例,那么就可以为每个群体设置配额大小。如果此过程执行良好,那么分层抽样的结果通常显示出比纯随机抽样更少的偏差。
这 *不是* 一种科学/统计抽样方法,但不幸的是被公司使用。便利抽样是指根据获取响应的难易程度来选择项目。例如,在特定杂货店外面收集数据,然后对购物习惯做出普遍判断。这 *不* 是真实的判断,是有偏差的。你没有收集关于总体购物习惯的数据,你收集的是在特定时间访问特定商店并花时间填写问卷的购物者数据。了解这些局限性很重要。
无论使用何种方法收集数据,都必须记录方法,并描述数据的局限性。如果使用的是二手数据(即已出版资料中的数据),那么必须完整记录数据的来源。只有认真描述数据来源,才能理解分析结果及其局限性。