数据科学:入门/像数学家一样思考
首先,请在 Wikibooks 上注册您的账户(并在下方列出您的信息),以便我们了解我们的共同贡献者。此外,请遵守 Wikibooks 的 编辑指南、风格手册 和 政策与指南。感谢您的配合。
其次,我们只需要每个章节中简单、清晰、直接的信息。我们不是试图面面俱到或全面覆盖——本书的价值在于跨学科的简单综合。在其他地方可以详尽地阐述特定主题的深度和复杂性。在您做出贡献时,请以“初学者的心态”来思考。请也确保每个章节的范围,以便在一小时的课堂时间内讲授。如果一个章节需要超过一小时来教授,它可能过于详细。
- 在尽可能的情况下,请使用维基百科和维基词典中定义的术语和概念。这样,学生就可以参考相应的维基百科/维基词典页面,以便更深入地理解概念。
第三,这是一本跨学科的书籍。我们希望帮助人们将数据科学应用于所有领域。因此,我们需要各种各样的简单示例和简单练习。
第四,请遵守每个章节的简单结构:要点摘要、讨论、更多阅读、练习和参考资料。我们希望“更多阅读”部分链接到在线资源。参考资料部分可能包含离线资源。要开始一个新页面,您应该使用来自 这个原型页面 的维基标记。
第五,与任何维基书籍一样,请随时进行更正、扩展解释和必要时的添加,即使它不是“你的”章节。使用讨论页面来解释可能存在争议的更改。
第六,一些语法规则
- 请将学生应该学习的关键术语和短语用 粗体 表示。
- 使用 'code' 标签将函数和代码片段的名称放在代码中:
<code>lm()</code>
- 使用内联链接
[[ ]]
链接到维基百科、维基词典、维基共享资源、维基书籍和其他维基媒体基金会属性。 - 使用引用 (<ref> </ref>) 来引用“外部”来源——无论是在线还是离线。
- 如果您想添加图像或图表,您应该将它上传到 维基共享资源,而不是上传到维基书籍。
- 如果适用,在上传图表时添加标签
{{Created with R}}
)。
- 如果适用,在上传图表时添加标签
- 如果使用与 R 标准包不同的包,在每个函数后用括号将包名用粗体表示:<code>MCMCprobit()</code> ('''MCMCpack''')
- 您可以使用第三章 数据定义 作为如何撰写章节的示例。
最后,非常感谢您自愿加入我们的团队!
章节摘要
[edit | edit source]当数据科学家以数学家的思维方式思考时,他们会从测量和模型的角度进行思考。任务是将问题分解为其基本组成部分;用数值表示这些组成部分;并将这些组成部分组合成对问题及其解决方案的准确表达。
讨论
[edit | edit source]根据 维基百科,数学是关于数量、结构、空间和变化的研究。当这些用于解决实际问题时,被称为 应用数学。除了这些主要关注点之外,还有一些主题致力于探索从数学核心到其他领域的联系:逻辑、集合论,以及最近的不确定性研究。为了本书的目的,我们不会探索数学的最后三个方面。
数量
[edit | edit source]数量的研究从 数字 开始,首先是熟悉的 自然数 和 整数(“整数”)以及它们的基本算术运算,这些运算在 算术 中得到体现。随着数字系统的进一步发展,整数被认为是 有理数(“分数”)的子集。反过来,这些有理数包含在 实数 中,实数用于表示 连续 的量。实数被推广到 复数。
自然数 整数 有理数 实数 复数
当以数学家的思维方式思考时,数据科学家需要问自己这样的问题:“我感兴趣的事物将如何用数字表示?”以及“什么样的数字最能代表我感兴趣的事物?”
结构
[edit | edit source]许多数学对象的集合都表现出内部的 结构。数学通过对对象应用规则(公理和运算)来揭示这些结构。 代数 是理解数学结构的强大工具。它将 变量 的概念与算术相结合来 解方程。代数被应用于许多不同的、表面上看似无关的问题。其中一些问题包括 环、群、图 和 域。
当以数学家的思维方式思考时,数据科学家需要问自己:“我感兴趣的事物内部结构是什么样的?” 以及“哪组方程可以揭示这种结构?”
空间
[edit | edit source]空间 的研究起源于 几何学,尤其是 欧几里得几何学。 三角学 是数学的一个分支,它处理三角形边和角之间的关系;它将空间和数字结合在一起,包含著名的 勾股定理。空间的高级研究包括高维几何、 非欧几里得几何学、 微分几何学、 拓扑学、 分形几何学 以及 Wikipedia:测度论。出于本书的目的,我们不会涵盖这些更高级的几何学。
当以数学家的思维方式思考时,数据科学家需要问自己:“我感兴趣的事物是否有空间成分(无论是实际的还是理论上的)?” 以及“我如何捕捉和表示这种空间成分?”
变化
[edit | edit source]理解和描述变化 是科学中的一个常见主题,而 微积分 作为研究它的有力工具而发展起来。 函数 是描述变化量的一个核心概念。许多问题自然地导致一个量与其变化率之间的关系。也就是说,对于非直线,斜率在线上每个点都不同。理解这些变化的斜率在 微分微积分 中被研究。求曲线下方的面积称为 积分微积分。微积分超出了本书的范围。
以数学家的思维方式思考,数据科学家必须问自己:“我感兴趣的事物之间的关系是否随时间或距离变化?” 以及“我将如何描述这种变化的关系?”
应用数学
[edit | edit source]应用数学 关注的是 数学方法,这些方法通常用于科学、工程、商业和工业。因此,“应用数学”就是具有专业知识的数学。一般来说,这是数据科学家从事的数学类型。
作业/练习
[edit | edit source]本项目#2涵盖四章。组成3-4人的小组。三人小组的成员可能与项目#1中的小组成员不同。四人小组最多可以有两名学生重复使用项目#1中的小组成员。这个小组将一起完成整个项目。
- 复制伽利略的“斜面”实验。首先设计研究并写下你的计划。列出需要的材料,指定要使用的方法,确定要测量的变量,创建数据记录表,等等。
- 根据设计进行实验。拍照。记录你的数据结果。
- 将数据输入R。使用R生成数据的表格并绘制数据图。看看你是否可以在数据图上绘制伽利略试图发现的理论曲线。
- 准备一个幻灯片演示,其中包括你所用方法的描述、设备照片、原始数据的表格、分析结果的表格、结果图、该小组在项目过程中自己学到的关于数据科学的几件事的清单。
注意:你的小组可以专注于特定任务,但每个人都需要参与作业的所有阶段。另外,到目前为止涵盖的章节并没有教你完成此作业所需的一切知识。请尽你所能利用你的知识。此作业不仅仅是为了向讲师展示你对前几章内容的学习程度,它本身就是一个学习体验。此作业的目的是让学生发现章节中没有包含的知识。
更多阅读
[edit | edit source]参考文献
[edit | edit source]版权声明
[edit | edit source]您可以
- 分享——复制、分发、展示和执行作品(来自此维基的页面)
- 混合——改编或制作衍生作品
在以下条件下
- 署名——您必须将此作品归功于维基教科书。您不能暗示维基教科书以任何方式认可您或您对该作品的使用。
- 相同方式共享——如果您更改、转换或构建此作品,您只能在与本许可证相同或相似的许可证下分发生成的作品。
- 放弃——如果您获得版权所有者的许可,上述任何条件都可以被放弃。
- 公有领域——如果作品或其任何部分根据适用法律处于公有领域,则其状态不受本许可证的影响。
- 其他权利——本许可证不以任何方式影响以下任何权利
- 您的合理使用权或其他适用的版权例外和限制;
- 作者的署名权;
- 他人可能对作品本身或作品的使用方式拥有的权利,例如公开权或隐私权。
- 通知——对于任何再利用或分发,您必须向他人明确说明此作品的许可条款。执行此操作的最佳方法是链接到以下网页。