数据科学:入门/像科学家一样思考
首先,请在维基教科书注册(并在下面列出自己),以便我们了解我们的共同贡献者是谁。此外,请遵守维基教科书的编辑指南、风格手册和政策和指南。谢谢。
其次,我们只需要每个章节中基本的、清晰的、直观的 信息。我们不是试图穷尽或完整——这本书的价值在于主题之间的简单综合。还有其他场所可以详细阐述特定主题的深度和复杂性。请在做出贡献时将自己置于“初学者的心态”。请也为每个章节设定范围,以便可以在一个小时的课堂时间内教授。如果该章节需要一个多小时才能教授,那么它可能过于详细。
- 尽可能地,请使用维基百科和维基词典中定义的方式使用术语和概念。这样,学生就可以参考相应的维基百科/维基词典页面,以更深入地了解该概念。
第三,这是一本跨学科的书。我们希望帮助人们将数据科学应用于所有领域。因此,我们需要各种简单的示例和简单的练习。
第四,请遵循每个章节的简单结构:要点总结、讨论、更多阅读、练习和参考资料。我们希望“更多阅读”部分链接到在线资源。“参考资料”部分可能包含离线资源。要开始新页面,您应该使用来自此原型页面的维基标记。
第五,与任何维基教科书一样,请随时进行更正、扩展解释和添加必要的内容,即使它不是“您”的章节。使用讨论页面来解释可能存在争议的更改。
第六,一些语法规则
- 请将学生应该学习的关键术语和短语加粗。
- 使用“代码”标签将函数和代码片段的名称放在代码中:
<code>lm()</code>
- 使用内联链接
[[ ]]
到维基百科、维基词典、维基共享资源、维基教科书和其他维基媒体基金会属性。 - 使用引用(<ref> </ref>)引用“外部”来源——包括在线和离线来源。
- 如果您想添加图像或图表,您应该将其加载到维基共享资源中,而不是上传到维基教科书中。
- 如果适用,在上传图表时添加标签
{{Created with R}}
)。
- 如果适用,在上传图表时添加标签
- 如果使用的是R标准包以外的包,请在每个函数后用括号将包名加粗:<code>MCMCprobit()</code> ('''MCMCpack''')
- 您可以使用第三章数据定义作为创建章节的示例。
最后,非常感谢您自愿加入我们的团队!
当数据科学家以科学家的方式思考时,他们会从有效性和可重复性的角度思考。任务是设置测试以消除替代解释,这样任何观察者在进行相同的操作时都会得出相同的结论。
这是跨越四个章节的项目 #2。组成 3 或 4 名学生的组。三人的小组成员可能与项目 #1 的小组成员不同。四人小组最多只能有两名学生重复参加项目 #1 的小组。这个小组将一起完成整个项目。
- 复制伽利略的“斜面”实验。首先设计研究并写下你的计划。列出所需的材料,指定要使用的方法,确定要测量的变量,创建数据记录表等。
- 根据设计进行实验。拍照。记录你的数据结果。
- 将数据输入 R。使用 R 生成数据表并绘制数据图。看看你是否可以在数据图上绘制伽利略试图发现的理论曲线。
- 准备一份幻灯片演示,包括你的方法描述、仪器图片、原始数据表、分析结果表、结果图、该小组在项目过程中独立了解数据科学的几个事项列表。
注意:你的小组可以专注于特定的任务,但每个人都需要参与分配的所有阶段。此外,到目前为止涵盖的章节并没有教你完成此分配所需的一切知识。请尽你所能利用你的知识。此分配不仅仅是为了向讲师展示你已经学习了多少之前的章节,而且本身也是一个学习体验。此分配旨在让学生发现章节中没有包含的知识。
Khun, Thomas (2012) [1962]. The Structure of Scientific Revolutions (50th Anniversary ed.). Chicago: University of Chicago Press. ISBN 978-0-226-45811-3.
您可以在以下条件下
- 分享——复制、分发、展示和表演作品(此维基中的页面)
- 混音——改编或制作衍生作品
以下条件
- 署名——您必须将此作品归功于维基教科书。您不得暗示维基教科书以任何方式认可您或您对本作品的使用。
- 相同方式共享——如果您更改、转换或基于此作品创建作品,您只能在与本许可相同或类似的许可下分发生成的作品。
- 放弃——如果您获得版权所有者的许可,上述任何条件都可以放弃。
- 公有领域——如果该作品或其任何元素根据适用法律属于公有领域,则该状态不受许可的影响。
- 其他权利——许可不影响以下任何权利
- 您的合理使用或合理使用权利,或其他适用的版权例外情况和限制;
- 作者的道德权利;
- 他人可能对作品本身或作品使用方式拥有的权利,例如宣传权或隐私权。
- 注意——对于任何再使用或分发,您必须向他人明确说明此作品的许可条款。执行此操作的最佳方法是链接到以下网页。