社会研究方法/指数、量表、类型学

指数、量表和类型学

定量数据分析需要构建两种类型的变量测量方法——指数和量表。这些测量方法经常被使用，并且很重要，因为社会科学家经常研究那些没有明确和明确指标的变量——例如，年龄或性别。研究人员经常将大量工作集中在有关人们群体态度和取向方面，这需要多个项目来提供对变量的指示。其次，研究人员试图从非常低到非常高（反之亦然）建立序数类别，而单个数据项无法确保，而指数或量表可以。

虽然它们存在差异（将在后面讨论），但两者具有共同的因素。
两者

是变量的序数测量
可以根据特定变量对分析单位进行排序
是变量的复合测量（基于多个数据项的测量）

指数是一系列是/否问题的总和，然后将其合并成一个单一的数值分数。
它们通常是某种社会现象数量的度量，并在比率测量级别构建。更复杂的指数根据每个项目在所测量概念中的重要性对其进行加权（例如，在一个多项选择测试中，不同的问题值不同的分数）。一些间隔级别指数没有加权计数，但包含其他指数或量表（例如，大学录取根据 GPA、SAT 分数、论文对申请人进行评分，并从每个来源获得不同的分数）。

指数构建

项目选择
- 表面效度（或逻辑效度）
- 单维——复合测量应只代表概念的一个维度。
- 一般或特定——您包含的项目的性质将决定具体或一般地测量变量。
- 方差——为了保证方差，您可以a）选择几个项目，这些项目的响应将人们在变量方面大致平均地分开 b）选择方差不同的项目
经验关系的考察
- 双变量关系：两个变量之间的关系。
- 多变量关系：两个或多个变量之间的关系。
指数评分
- 确定指数分数的理想范围
- 确定是否要给指数中的每个项目赋予相等或不同的权重
- 确保标准化权重——除非有充分的理由，否则项目应被赋予相等的权重。
处理缺失数据
- 您可以选择将其排除在指数构建和分析之外
- 将缺失数据视为可用响应之一
- 分析缺失数据并解释其含义
- 将缺失数据分配一个中间值或平均值
- 将值分配给评分变量的比例。
指数验证
- 项目分析
  
  评估测量中包含的每个项目是否做出独立贡献，还是仅仅重复了测量中其他项目的贡献
  
  外部验证
  
  通过检查其与同一变量的其他假定指标的关系来检验有效性。

--Trp26 (谈话) 18:01, 2010 年 4 月 22 日 (UTC)

量表

为了讨论量表，我们必须定义它。量表是对态度或情感强度的衡量。具体来说，量表存在于数据的序数级别。通常，量表使用序数测量级别构建，该级别按顺序排列项目以确定赞成或反对程度，但不提供关于程度之间距离的任何意义。

李克特量表是研究界最常用的量表之一。该量表包括将数值分配给关于特定主题的情感强度（或中立性），然后尝试标准化这些响应类别，以提供对量表中项目的相对强度解释。诸如“强烈同意”、“中等同意”、“中等不同意”和“强烈不同意”之类的响应是可能在李克特量表或基于该量表的调查中找到的响应。

语义差异量表类似于李克特量表，但是，它不是允许不同的响应程度，而是要求受访者根据两个完全相反的形容词对某事进行评分。

现实生活中使用的量表的例子是鲍格达努斯社会距离量表。该量表由埃默里·鲍格达努斯开发，用于确定人们与那些与自己不同的人（包括其他种族、宗教和阶层的人）交往和社交的意愿。

瑟斯顿量表与鲍格达努斯或李克特量表完全不同。该量表由路易斯·瑟斯顿开发，是一种寻求使用受访者来回答调查问题并确定问题重要性的格式。一组受访者，即一组“评委”，为不同的变量分配不同的权重，而另一组受访者则实际回答调查中的问题。

古特曼量表由路易斯·古特曼开发，是今天使用最多的量表类型。与瑟斯顿量表一样，古特曼量表认识到不同的问题提供了不同的偏好指示强度。它基于这样的假设：同意最强的指标也意味着同意较弱的指标。它使用一个简单的“同意”或“不同意”量表，没有偏好强度的任何变化。

关于量表有两个误解，其中一个是将数据组合成量表受到研究样本观察的影响。因此，从一个样本中获得的一个量表的资料可能不符合另一个量表。因此，可以对数据组合进行多次缩放，因为它最初是在研究早期能够实现的。第二个误解与特定量表有关。由此，给定的项目或资料可能有助于确定构成量表的要素，而不是量表本身。

量表与指数

总的来说，量表被认为比指数功能更强大，因为尽管两者都是序数测量，但量表通常会考虑它们提出的问题的强度和它们衡量的情感。

加权指数的一个例子是美国劳工统计局的消费者价格指数 (CPI)，它代表了典型消费者购买的商品价格总和。在计算该指数时，商品按其在一般人群中购买的数量（相对于其他商品）进行加权，因此购买频率更高的商品将对指数值产生更大的影响。

抽样

为什么要抽样？

在大多数情况下，研究整个总体可能不可行
抽样允许研究人员从总体中更小、更易于管理的子集收集信息。这些信息可用于代表更大的总体。

如何抽样

为了抽样，研究人员必须首先指定一个目标总体，关于该总体将进行概括
目标总体是研究人员想要研究的案例池。
使用抽样框将目标总体转化为潜在对象的实际清单

非概率抽样

任何样本选择方式不以概率论为基础的技术。
非概率抽样通常是实地研究和比较历史研究的唯一可行方法
非概率抽样类型包括

便利抽样：一种非概率抽样方法，其中样本总体依赖于可获得的受试者

不允许控制代表性
只有在风险较低的方法不可用时才合理
使用这种方法时，研究人员必须对概括非常谨慎

目的性或判断性抽样：一种非概率抽样方法，其中选择要观察的单位是基于研究人员关于哪些单位最有用或最有代表性的判断

在研究以下内容时，这种方法很有用
总体的小子集
两组比较
偏差案例

滚雪球抽样：一种非概率抽样方法，其中每次接受采访的人员都可能被要求建议更多的人进行采访

经常用于实地研究，以及用于研究特殊人群
例如：链接的网站，特定人群
但是，这可能会使样本产生偏差

配额抽样：一种非概率抽样方法，其中根据预先指定的特征选择样本中的单位，因此，总样本将具有与假设存在于所研究总体中相同的特征分布

类似于概率抽样，但有一些问题
配额框必须准确
样本元素的选择可能存在偏差

隐藏人群：社会中通常在传统的概率抽样方法中被忽略的群体

包括：吸毒者、黑客社区、无家可归者、非法移民、流动工人、大学生等。
可能被污名化或难以找到
通常使用各种滚雪球抽样方法来接触
在目标抽样中，案例通过链式推荐从特定社区收集，并为已知的层级设置预设配额
在受访者驱动抽样中，对带来感兴趣人群中更多受试者的受访者提供金钱奖励

概率抽样

一般来说，样本是根据概率论选择的
通常用于大规模调查
如果正确执行概率抽样，它将提供对所研究总体的更真实表示。
如果总体的所有成员在所有方面都相同，那么就没有必要进行仔细的抽样程序。（但是，这种情况很少相同）
从总体中抽取的样本必须包含总体中存在的相同变化
概率样本通常比其他类型的样本更具代表性，因为偏差较少
这很难做到，而且往往不能100%准确地完成。
概率论允许研究人员估计样本的准确性或代表性。
EPSEM（等概率抽样方法）样本是指每个总体成员被选入样本的概率相等的样本。

抽样偏差

当样本不典型或不能代表总体时，就会发生抽样偏差。
这并不总是人为造成的。通常，研究人员的地理位置、获取总体的便捷性以及对随机接近陌生人的个人舒适程度等因素都会影响偏差。

抽样设计

简单随机抽样：概率抽样的一种形式，其中将案例分配给数字，并使用随机数生成器生成一组随机数。
系统抽样：概率抽样的一种形式，其中列表上的每个第 n 个数字都包含在样本中。
分层抽样：概率抽样的一种形式，其中将案例分为有意义的兴趣组（性别、种族等），然后从每个组中随机抽取样本。
多阶段整群抽样：最初对“自然”组（例如：城市）进行抽样，之后再对更小的子集（城市街区）进行抽样。

抽样很重要

抽样不当会降低使用研究结果进行总体推断的有效性。
样本量越大 + 分层越多 = 结果更具代表性
对于小型总体，需要较高的抽样比例。
无论总体规模大小，6-800 个案例通常就足够了。

记录和分析样本

首先，概率论是数学的一个分支，它提供了进行准确研究所需的工具——数学抽样方法、统计分析以及查找总体参数的方法。概率论使用样本分布来实现这一点。
研究结果通常以点图的形式表示，每个样本的均值用 x 轴上的一个点表示。随着研究的重复进行，样本的均值通常会被重复，因此它们的点只是简单地放在它们的重复点上。具有特定均值的样本数量在 y 轴上表示。随着越来越多人接受调查，图形变得越来越高，直到通常只有一个真正的均值单独地矗立在中间。
参数通常由样本调查确定。
抽样误差——在统计学中称为标准差——可以通过对参数 P 和 Q 相乘，然后除以每个样本中的案例数量，再取平方根来计算。这是一个重要的数字，因为它可以让研究人员了解数字在总体参数周围的分布范围。

•68% 的样本估计值将落在参数之上或之下一个标准差内。•95% 的样本估计值将落在参数之上或之下两个标准差内。•99.9% 的样本估计值将落在参数之上或之下三个标准差内。•如果参数之一是 1.0 或 0.0，则标准差将为 0。•标准误差随着样本量的增加而减小。

置信区间是总体参数估计值所在的范围。
置信水平是总体参数在某个置信区间内的概率。

•这些数字通常通过做出最佳猜测，然后加减一个合理的数字来确定（例如，如果您认为总体中有 20% 的人将拥有某个特征，则可以最初将置信区间设置为 10% 到 30% 之间）。

在所有这些过程中，总体规模几乎无关紧要。

•当样本太小时，会计算有限总体校正。这由以下平方根表示：总体大小减去样本大小，除以总体大小减 1。

总体和抽样框

抽样框是从中选择样本的构成总体的元素列表（例如：人口普查区块）。
抽样框显然必须与所研究的总体一致。
它们并不完美——不可避免地会遗漏一两个方面。
所有元素在抽样框中应具有同等的代表性。
基于样本的发现可以解释为抽样框元素的代表。

抽样设计类型

简单随机抽样：通常用于社会研究的“基本抽样方法”。研究人员通常会获取一个抽样框，然后随机选择数字。如果可能，这由计算机完成。

系统抽样：获取潜在受试者列表，然后选择列表中每个第k个元素以供纳入。第一个受试者应随机选择。结果与随机抽样大致相同，但执行起来更加繁琐，因此使用较少。系统抽样利用：•抽样间隔，即选定受试者之间的距离（总体规模 / 样本规模）•样本中受试者的比例：总体中潜在受试者的比例

分层抽样：对抽样的修改，包括在形成样本之前将总体划分为同质的层，以提高组内的代表性。它具有通过同质性降低抽样误差的优势，但也具有通过较小的样本量增加抽样误差的缺点。它增强了用于划分组的任何变量的呈现。分层适用于简单随机抽样、系统抽样或整群抽样。人们可以通过简单地使用他们计划使用的任何方法来完成此操作，但要在分层组内进行。•分层变量是被用来对样本进行分层的特征。

多阶段整群抽样：包括列出和抽样的步骤。当人们利用不同的亚群体来获取样本时，就会进行整群抽样。例如，从特定街区中提取受试者来回答有关市政府的问题。从其位置选择元素，然后分析其特征，这些特征将使其成为特定研究的合适受试者。然后根据数据选择合适的受试者。•这可能会产生更具偏差的样本。有时，例如在医学研究中，这是可取的。•出现的问题是，随着群集数量的增加，元素数量也必须增加。通常情况下，在这种情况下，元素会更加同质化。•研究人员通常受到最大受试者数量的限制。•理想情况下，研究人员希望拥有大量的群集和尽可能小的元素数量。

样本加权

默认情况下，大多数总体成员并非完全通过随机选择。
加权是为样本中具有不同选择机会的不同成员分配不同“权重”的行为。
通常，这意味着从某个区域选择的人数会发生偏差，以确保维持适当的特征比例。

术语
•代表性：样本的特征分布与它所抽样的总体保持一致。

•EPSEM：每个总体成员具有相同选择机会的抽样。

•元素：总体中的任何部分——可以是成员、位置或可衡量的特征。

•研究总体：包含进行研究所需的所有特征；样本从这里选择。

•随机选择：抽样方法，总体中的每个成员都有相同的选择机会。

•抽样单元：被视为选择对象的人或一群人。

•参数：总体内的可变因素。

•统计量：样本内变量的描述。

•抽样误差：未研究整个总体而产生的预期误差程度。

•置信区间：总体参数估计值所在的范围。

•置信水平：总体参数在某个置信区间内的概率。

•抽样框：具有资格进行研究的个人列表。

•加权：为显示不同选择概率的受试者分配不同的权重。

类型学是对观察结果进行分类，以反映它们在两个或多个变量上的属性。

通常，个人可能希望将变量放入一个组织良好的格式中。这就是类型学发挥作用的地方。类型学包括由多个变量交叉产生的类别集。

其他重要术语：相关性：两个变量之间的经验关系，即 1. 一个变量的变化与另一个变量的变化相关联，或者 2. 一个变量的特定属性与另一个变量的特定属性相关联。相关性本身并不构成两个变量之间的因果关系，但它是因果关系的一个产物。虚假关系：两个变量之间巧合的统计相关性，证明是由第三个变量引起的。分析单位：研究的对象或谁。在社会科学研究中，最典型的分析单位是个人。社会产物：社会人或其行为的任何产物。可以是分析单位。生态谬误：仅仅根据对群体的观察而错误地得出关于个人的结论。还原论：一些研究人员的错误：严格限制（减少）被认为与所研究现象相关的概念类型。社会生物学：基于认为社会行为可以完全用遗传特征和行为来解释的观点的范式。横断面研究：基于代表单一时间点的观察的研究。纵向研究：涉及在不同时间点收集数据的研究设计。趋势研究：一种纵向研究，其中对某个总体的特定特征进行时间监控。一个例子是盖洛普民意调查系列，展示了选民在整个竞选期间对政治候选人的偏好，即使在每个时间点都采访了不同的样本。队列研究：一种研究，其中对某个特定的亚群体或队列进行时间研究，尽管数据可能来自每个观察集中不同的成员。例如，一项对每五年发送一次问卷的研究将是一项队列研究。小组研究：一种纵向研究，其中数据从同一组人（样本或小组）在多个时间点收集。