跳至内容

R 生物统计学/导入

来自维基教科书,自由的教科书,共建自由世界

为什么选择 R 进行生物统计学?

[编辑 | 编辑源代码]

与 SPSS、SAS 和 MINITAB 等常用统计软件包相比,R 更出色,因为它

  • 强大
  • 适用于多种平台(Mac OS X、Windows、Linux 等)
  • 可编程
  • 非商业化
  • 文档齐全

获取 R/安装

[编辑 | 编辑源代码]

您可以参考 R 常见问题解答

数据导入

[编辑 | 编辑源代码]

Wiley 网站上提供的数据集格式包括 CSV、Excel、MINITAB、SAS 和 SPSS。虽然您可以使用 foreign 包将保存在 Excel、SAS 和 SPSS 中的数据导入 R,但您应该下载 CSV 格式的数据。这是因为 CSV 在 R 中处理起来最容易。

例如,您想导入“大型数据集”数据文件。下载的数据文件 (LDS_C02_NCBIRTH800.csv),假设存储在目录“/desktop”中,可以使用以下语法将其导入 R 作为名为“largedataset”的数据框

> largedataset <- read.csv("/Desktop/LDS_C02_NCBIRTH800.csv", header=TRUE,na.strings="NA")

如果您更喜欢使用标准的“点击”方式选择数据文件,您可以使用 file.choose() 函数,即

largedataset <- read.csv(file.choose(), header=TRUE,na.strings="NA")

现在,您应该将数据从 CSV 导入到名为“largedataset”的数据框中。您可以尝试通过调用其名称来查看数据框的内容

> largedataset

您可以通过以下方式访问 largedataset 数据框中的“sex”(在计算机术语中称为列)变量

largedataset$sex

例如,您想统计 sex 的频率

> table(largedataset$sex)

您可以附加数据框,以便可以直接调用变量

> attach(largedataset)
> table(sex)
> detach() #cancel attaching

基本数据管理

[编辑 | 编辑源代码]

R 被设计为一个分析系统,而不是像 SPSS 这样的集成环境。与 SPSS 不同,R 没有像电子表格一样的环境用于数据输入。通常情况下,数据使用不同的软件(例如数据库、电子表格软件,如 OO.o Calc)输入,然后如上所述导入到 R 中。对于快速的一次性计算,您可以在 R 中进行数据输入。例如,如果您想计算十名患者的平均年龄(30、31、32、34、35、36、37、30、40、45),您可以使用 c() 函数将数据输入 R 中。

> pt_age <- c(30,31,32,34,35,36,37,30,40,45)

您可以通过其名称调用新创建的对象 pt_age...

> pt_age

...然后计算十名患者的平均年龄。

> mean (pt_age)
华夏公益教科书