R 生物统计学/导入
与 SPSS、SAS 和 MINITAB 等常用统计软件包相比,R 更出色,因为它
- 强大
- 适用于多种平台(Mac OS X、Windows、Linux 等)
- 可编程
- 非商业化
- 文档齐全
您可以参考 R 常见问题解答
Wiley 网站上提供的数据集格式包括 CSV、Excel、MINITAB、SAS 和 SPSS。虽然您可以使用 foreign 包将保存在 Excel、SAS 和 SPSS 中的数据导入 R,但您应该下载 CSV 格式的数据。这是因为 CSV 在 R 中处理起来最容易。
例如,您想导入“大型数据集”数据文件。下载的数据文件 (LDS_C02_NCBIRTH800.csv),假设存储在目录“/desktop”中,可以使用以下语法将其导入 R 作为名为“largedataset”的数据框
> largedataset <- read.csv("/Desktop/LDS_C02_NCBIRTH800.csv", header=TRUE,na.strings="NA")
如果您更喜欢使用标准的“点击”方式选择数据文件,您可以使用 file.choose() 函数,即
largedataset <- read.csv(file.choose(), header=TRUE,na.strings="NA")
现在,您应该将数据从 CSV 导入到名为“largedataset”的数据框中。您可以尝试通过调用其名称来查看数据框的内容
> largedataset
您可以通过以下方式访问 largedataset 数据框中的“sex”(在计算机术语中称为列)变量
largedataset$sex
例如,您想统计 sex 的频率
> table(largedataset$sex)
您可以附加数据框,以便可以直接调用变量
> attach(largedataset) > table(sex) > detach() #cancel attaching
R 被设计为一个分析系统,而不是像 SPSS 这样的集成环境。与 SPSS 不同,R 没有像电子表格一样的环境用于数据输入。通常情况下,数据使用不同的软件(例如数据库、电子表格软件,如 OO.o Calc)输入,然后如上所述导入到 R 中。对于快速的一次性计算,您可以在 R 中进行数据输入。例如,如果您想计算十名患者的平均年龄(30、31、32、34、35、36、37、30、40、45),您可以使用 c() 函数将数据输入 R 中。
> pt_age <- c(30,31,32,34,35,36,37,30,40,45)
您可以通过其名称调用新创建的对象 pt_age...
> pt_age
...然后计算十名患者的平均年龄。
> mean (pt_age)