跳转到内容

数据科学:入门/单变量分析

来自维基教科书,开放书籍,开放世界


第 13 章:单变量分析



贡献者注意(章节完成时删除此部分)

[edit | edit source]

首先,请在维基教科书注册自己(并在下面列出自己),以便我们了解我们的共同贡献者。此外,请遵守维基教科书的编辑指南风格手册政策和指南。谢谢。

其次,我们只需要每个章节中基本、清晰、直接的信息。我们不是试图做到详尽或完整——本书的价值在于跨学科的简单综合。在其他地方可以详细阐述特定主题的深度和复杂性。请在进行贡献时把自己放在“初学者思维”中。此外,请对每个章节进行范围界定,以便能够在一小时的课堂时间内讲授。如果章节需要超过一小时的授课时间,可能过于详细。

  • 尽可能地,请按照维基百科和维基词典中的定义使用术语和概念。这样,学生可以参考相应的维基百科/维基词典页面来更深入地理解概念。

第三,这是一本跨学科的书籍。我们希望帮助人们将数据科学应用到所有领域。因此,我们需要各种简单示例和简单练习。

第四,请遵循每个章节的简单结构:要点总结、讨论、拓展阅读、练习和参考资料。我们希望“拓展阅读”部分链接到在线资源。参考文献部分可以包含离线资源。要开始新的一页,您应该使用来自 **此原型页面** 的维基标记。

第五,与任何维基教科书一样,请随时进行更正、扩展解释和在必要时添加内容,即使它不是“您”的章节。使用讨论页面解释可能存在争议的更改。

第六,一些语法规则

  • 请 **加粗** 学生应该学习的关键术语和短语。
  • 使用“代码”标签放置函数和代码片段的名称:<code>lm()</code>
  • 使用内联链接 [[ ]] 连接到维基百科、维基词典、维基共享资源、维基教科书和其他维基媒体基金会属性。
  • 使用参考文献 (<ref> </ref>) 连接到“外部”来源,包括在线和离线来源。
  • 如果您要添加图像或图表,应该将它加载到 维基共享资源 中,而不是上传到维基教科书。
    • 如果合适,在上传图表时添加标签 {{Created with R}}) 。
  • 如果使用的是不同于 **R** 标准包的包,则在每个函数后将包的名称用括号和粗体表示:<code>MCMCprobit()</code> ('''MCMCpack''')
  • 您可以使用第三章 数据的定义 作为如何编写章节的示例。

最后,非常感谢您志愿加入我们的团队!

章节总结

[edit | edit source]

正如在第 **** 章中所讨论的,变量是我们从一组对象中测量的一组值。例如,我们可以测量一个班级中每个人的名字。他们实际收集的名字是该人在该变量(在这种情况下,我们称之为“FirstName”)的值。当我们将所有“FirstName”的值放在一起作为一个组时,我们将该组值称为 **分布**。用数据科学的说法,我们会说“一个变量具有一组值的 **分布**”。然而,在实践中,许多数据科学家将分布和变量这两个词互换使用,就好像它们是同义词一样。

**描述性统计** 是我们对分布进行的计算,目的是简单地描述变量。我们通常计算的两个最常见的描述性统计量被称为 **集中趋势测度** 和 **离散度测度**。每个变量,因此每个分布,都有一个数据类型——名义型、有序型、区间型或比率型。我们对每种数据类型都有不同的描述性统计量。下表列出了每种数据类型简单描述性统计量的名称。


简单分布的基本描述性统计量
测度 数据类型
名义型 有序型 区间型 比率型
集中趋势 众数 中位数 算术平均数 几何平均数
离散度 变异系数 四分位间距 标准差 变异系数

一般来说,除了物理和化学之外,大多数数据科学项目要么不使用比率数据,要么将比率数据转换为区间数据(有时称为 **“对数正态”** 数据)。因此,数据科学家很少使用几何平均数和变异系数。我们还必须注意不要将一种数据类型的描述性统计量错误地应用于另一种数据类型。这通常会导致对数据的误解。例外情况是,我们可以谨慎地将“较低”数据类型的描述性统计量应用于“较高”数据类型。也就是说,我们可以适当地计算区间数据的中间值,但不能计算有序数据的算术平均数。

讨论

[edit | edit source]

分布

[edit | edit source]

正态分布

其他常见分布

名义变量

[edit | edit source]

集中趋势

离散度

有序变量

[edit | edit source]

集中趋势

离散度

从有序到“有序名义”

区间变量

[edit | edit source]

集中趋势

离散度

从区间到有序

比率变量

[edit | edit source]

集中趋势

离散度

从比率到区间

作业/练习

[edit | edit source]

拓展阅读

[edit | edit source]

参考文献

[edit | edit source]
[edit | edit source]

您可以自由地

  • **分享**——复制、分发、展示和表演作品(此维基中的页面)
  • **混音**——改编或制作衍生作品

在以下条件下

  • **署名**——您必须将此作品归因于维基教科书。您不能暗示维基教科书以任何方式认可您或您对本作品的使用。
  • **相同方式共享**——如果您改变、转换或构建本作品,您只能在与本许可证相同或类似的许可证下分发由此产生的作品。
  • **放弃**——如果您获得版权持有人的许可,可以放弃以上任何条件。
  • **公有领域**——如果作品或其任何部分根据适用法律属于公有领域,则其状态不受许可证的影响。
  • **其他权利**——许可证不会以任何方式影响以下任何权利
  • 您的合理使用权或其他适用的版权例外和限制;
  • 作者的道德权利;
  • 其他人可能对作品本身或作品的使用方式拥有的权利,例如公开权或隐私权。
  • **通知**——对于任何再利用或分发,您必须向他人清楚说明本作品的许可条款。最好的方法是链接到以下网页。
http://creativecommons.org/licenses/by-nc-sa/3.0/
华夏公益教科书