统计分析:使用 R 入门/R/缺失数据
外观
< 统计分析:使用 R 入门 | R
在收集数据时,某些数据点往往未知。这种情况出于多种原因发生。例如,在分析实验数据时,我们可能记录每个实验的多个变量(例如,温度、时间等),但可能忘记(或无法)记录某个实例的温度。或者,在收集美国各州的社会数据时,可能某些州没有记录某些感兴趣的统计数据。另一个例子是泰坦尼克号沉没的船上乘客数据,经过仔细研究,已经确定了船上 2207 人的票价等级,但无法确定 10 多名遇难者的年龄(参见 http://www.encyclopedia-titanica.org)。我们可能只忽略缺失数据,但在许多情况下,我们有一些变量的信息,但其他变量没有。例如,我们可能不想仅仅因为某个州缺少某个特定数据,就完全从分析中排除该州。因此,R 提供了一个特殊的值,NA,表示“不可用”。任何向量、数字、字符或逻辑都可以包含NA元素。这些元素可以通过“is.na”函数识别。
输入some.missing <- c(1,NA)
is.na(some.missing)
some.missing <- c(1,NA)
is.na(some.missing) [1] FALSE TRUE
请注意,如果存在缺失数据,一些分析很难进行。可以使用“complete.cases”或“na.omit”来构建包含缺失值省略的数据集。