跳转到内容

数据科学:入门/数据准备和元数据

来自Wikibooks,开放世界中的开放书籍


第20章:数据准备和元数据



贡献者须知(章节完成后删除此部分)

[编辑 | 编辑源代码]

首先,请您在维基教科书注册(并在下面列出您的用户名),以便我们了解我们的共同贡献者。此外,请遵守维基教科书的编辑指南样式手册政策和指南。谢谢。

其次,我们每个章节只需要基本、清晰、直接的信息。我们不是试图面面俱到或完整——本书的价值在于跨学科的简单综合。在其他地方可以详尽地阐述某个特定主题的深度和复杂性。在进行贡献时,请保持“初学者的心态”。请同时限定每个章节的范围,使其可以在一个小时的课堂时间内教授。如果一个章节需要超过一个小时来教授,它可能过于详细了。

  • 在尽可能的情况下,请按照维基百科和维基词典中定义的方式使用术语和概念。这样,学生就可以参考相应的维基百科/维基词典页面来更深入地理解该概念。

第三,这是一本跨学科的书。我们希望帮助人们将数据科学应用于所有领域。因此,我们需要各种各样的简单示例和简单练习。

第四,请遵守每个章节的简单结构:要点总结、讨论、延伸阅读、练习和参考文献。我们希望“延伸阅读”部分链接到在线资源。“参考文献”部分可以包含离线资源。要开始一个新页面,您应该使用来自此原型页面的维基标记。

第五,与任何维基教科书一样,请随时进行更正、扩展解释和必要时的添加,即使它不是“您”的章节。使用讨论页面来解释可能存在争议的更改。

第六,一些语法规则

  • 请将学生应该学习的关键术语和短语加粗
  • 使用“代码”标签将函数和代码片段的名称括起来:<code>lm()</code>
  • 使用内联链接 [[ ]]链接到维基百科、维基词典、维基共享资源、维基教科书和其他维基媒体基金会属性。
  • 使用参考文献(<ref> </ref>)链接到“外部”来源——包括在线和离线来源。
  • 如果您想添加图像或图形,您应该将其加载到共享资源中,而不是上传到维基教科书中。
    • 如果适用,在上传图形时添加标签{{Created with R}}
  • 如果使用与R标准包不同的包,请在每个函数后用括号加粗包的名称:<code>MCMCprobit()</code> ('''MCMCpack''')
  • 您可以使用第三章数据定义作为如何编写章节的示例。

最后,非常感谢您自愿加入我们的团队!

章节总结

[编辑 | 编辑源代码]

加载数据

[编辑 | 编辑源代码]

数据清洗

[编辑 | 编辑源代码]

数据转换

[编辑 | 编辑源代码]

创建元数据

[编辑 | 编辑源代码]

作业/练习

[编辑 | 编辑源代码]

延伸阅读

[编辑 | 编辑源代码]

参考文献

[编辑 | 编辑源代码]
[编辑 | 编辑源代码]

您可以自由

  • 共享——复制、分发、展示和表演作品(来自此维基的页面)
  • 混搭——改编或创作衍生作品

在以下条件下

  • 署名——您必须将此作品归因于维基教科书。您不得暗示维基教科书以任何方式认可您或您对本作品的使用。
  • 相同方式共享——如果您更改、转换或构建此作品,您只能在相同或类似的许可证下分发产生的作品。
  • 放弃——如果您获得版权持有人的许可,则可以放弃上述任何条件。
  • 公共领域——如果作品或其任何元素根据适用法律属于公共领域,则该状态不受许可证的影响。
  • 其他权利——许可证不会影响以下任何权利
  • 您的合理使用权或其他适用的版权例外和限制;
  • 作者的署名权;
  • 其他人可能在作品本身或作品的使用方式中拥有的权利,例如宣传权或隐私权。
  • 通知——对于任何再使用或分发,您必须向其他人明确说明此作品的许可条款。最好的方法是链接到以下网页。
http://creativecommons.org/licenses/by-nc-sa/3.0/
华夏公益教科书