统计分析：使用 R 入门/R/缺失数据

在收集数据时，某些数据点往往未知。这种情况出于多种原因发生。例如，在分析实验数据时，我们可能记录每个实验的多个变量（例如，温度、时间等），但可能忘记（或无法）记录某个实例的温度。或者，在收集美国各州的社会数据时，可能某些州没有记录某些感兴趣的统计数据。另一个例子是泰坦尼克号沉没的船上乘客数据，经过仔细研究，已经确定了船上 2207 人的票价等级，但无法确定 10 多名遇难者的年龄（参见 http://www.encyclopedia-titanica.org）。我们可能只忽略缺失数据，但在许多情况下，我们有一些变量的信息，但其他变量没有。例如，我们可能不想仅仅因为某个州缺少某个特定数据，就完全从分析中排除该州。因此，R 提供了一个特殊的值，NA，表示“不可用”。任何向量、数字、字符或逻辑都可以包含NA元素。这些元素可以通过“is.na”函数识别。

输入

some.missing <- c(1,NA)
is.na(some.missing)

结果

some.missing <- c(1,NA)

is.na(some.missing) [1] FALSE TRUE

请注意，如果存在缺失数据，一些分析很难进行。可以使用“complete.cases”或“na.omit”来构建包含缺失值省略的数据集。