跳转到内容

数据科学:入门/数据科学的历史

来自维基教科书,开放世界中的开放书籍


第 01 章:数据科学的历史



章节总结

[edit | edit source]

数据科学是由许多现有学科组成的。这是一个年轻的职业和学术学科。这个词最初是在 2001 年提出的。自 2010 年以来,它的普及率激增,这是由企业和政府需要分析其收集的大数据所推动的。谷歌搜索引擎是数据科学力量的经典例子。

数据科学 是一门学科,它融合了不同程度的 数据工程科学方法数学统计学高级计算可视化黑客思维 以及 领域专业知识。数据科学从业人员被称为数据科学家。数据科学家解决复杂的 数据 分析问题。

术语“数据科学”是在 21 世纪初创造的。它归因于 William S. Cleveland [1],他在 2001 年写了“数据科学:扩展统计学领域技术领域的行动计划”。[2] 大约一年后,国际科学理事会:科学与技术数据委员会[3] 开始出版 CODATA 数据科学杂志,从 2002 年 4 月开始。[4] 此后不久,2003 年 1 月,哥伦比亚大学开始出版《数据科学杂志》。[5]

在 1998 年至 2000 年的 “互联网泡沫” 期间,硬盘变得非常便宜。因此,公司和政府开始大量购买它们。帕金森定律的一个推论是,数据总是会扩展到填满可用的磁盘空间。磁盘数据相互作用是购买更多磁盘和积累更多数据之间的正指数循环。这种循环产生了大数据 大数据是指 数据集 如此之大且复杂,以至于使用常规数据库管理工具处理它们变得很笨拙。

一旦获取了大数据,除了存储它之外,我们还必须做些什么。我们需要大型计算架构。谷歌、雅虎和亚马逊等公司发明了新的计算架构,我们称之为云计算 云计算中最重要的一项发明被称为MapReduce MapReduce 已被编入称为Hadoop 的软件中。我们使用 Hadoop 在云中对大数据进行大型计算。

  • 正常的计算范式是我们将数据移动到算法中。例如,我们从硬盘驱动器中读取数据并将其加载到电子表格程序中进行处理。MapReduce 计算范式恰恰相反。数据如此之大,以至于我们无法将所有数据都放到算法中。相反,我们将算法的许多副本推送到数据中。

事实证明,Hadoop 很难做。它需要高级的计算机科学能力。这为创建在 Hadoop 之上运行的具有更简单界面的分析工具开辟了市场。这类工具被称为“大规模分析工具”,即用于分析海量数据的工具。例如,“推荐系统”、“机器学习”和“复杂事件处理”。这些工具虽然与 Hadoop 具有更简单的界面,但具有复杂的数学基础,这也需要专业知识。

因此,随着大规模分析工具的出现,我们需要有人来理解这些工具,并实际进行大数据分析。我们称这些人为“数据科学家”。这些人能够发掘出前所未有的新分析见解,这在小数据世界中是不可能实现的。分析大数据解决的问题规模如此之大,以至于任何一个人都无法完成所有需要的数据处理和分析综合。因此,数据科学最好在团队中实践。

In sum, cheap disks --> big data --> cloud computing --> mass analytic tools -->
              --> data scientists --> data science teams --> new analytic insights.

Mike Loukides [6]O'Reilly Media 的内容策略副总裁,通过他在 2010 年发表的文章“什么是数据科学?”[7] 将数据科学带入了主流词汇。在过去几年中,数据科学与 大数据 分析越来越相关。在 2000 年代中期,LinkedIn 的 DJ Patil 和 Facebook 的 Jeff Hammerbacher 创建了专门的数据科学团队,以从他们网站上生成的海量数据中获取商业价值。[8][9]

现在有几个专门针对大数据和数据科学的持续会议,例如 O'Reilly 的 Strata 会议 [10]Greenplum 的数据科学峰会。[11]

职位名称也变得非常流行。在一个使用频率很高的招聘网站上,“数据科学家”的职位发布数量从 2010 年 1 月到 2012 年 7 月增长了 10000% 以上。[12]

学术项目

[编辑 | 编辑源代码]

几所大学已开始提供数据科学研究生课程,例如北卡罗来纳州立大学的先进分析研究所[13]、西北大学的麦考密克工程学院[14] 以及现已停办的伊利诺伊大学为期 6 周的暑期课程。[15]

专业组织

[编辑 | 编辑源代码]

最近涌现了一些专业组织。Data Science Central[16] 和 Kaggle [17] 就是两个例子。Kaggle 是一个有趣的案例。他们通过众包方式为难题寻找数据科学解决方案。例如,一家公司会在 Kaggle 上发布一个难题。来自世界各地的数据科学家会注册 Kaggle,然后相互竞争以找到最佳解决方案。然后该公司会为最佳解决方案付费。有超过 30000 名数据科学家注册了 Kaggle。

案例研究

[编辑 | 编辑源代码]

在 1990 年代中期到后期,AltaVista 是互联网上最受欢迎的搜索引擎。它会发送“爬虫”来提取网络上所有页面的文本。爬虫将文本带回 AltaVista。AltaVista 会对所有文本进行索引。因此,当用户搜索某个关键词时,AltaVista 就可以找到包含该词的网页。然后,AltaVista 会将结果呈现为一个网页排序列表,最常出现该词的网页排在最上面。这是一个直接的计算机科学解决方案,尽管当时他们解决了一些非常困难的扩展问题。

在 1990 年代后期,Google 的创始人发明了一种不同的搜索方式。他们将数学、统计学、数据工程、高级计算和黑客精神结合起来,创造了一个取代 AltaVista 的搜索引擎。该算法被称为 PageRank。PageRank 不仅查看页面上的文字,还查看 超链接。PageRank 假设,入站超链接是表明其他人认为当前页面足够重要,值得在其页面上添加链接的指标。因此,拥有最多超链接的页面最终会出现在搜索结果列表的顶部。除了内容之外,PageRank 还捕捉了人类对网页的认知。

Google 不仅爬取了网页,还吸收了网页。这就是大数据。然后他们必须在大数据中计算 PageRank 算法。这需要大量的计算资源。然后他们必须为每个人提供快速搜索和搜索结果。Google 搜索是数据科学的胜利(尽管它在开始时没有被称为数据科学)。

作业/练习

[编辑 | 编辑源代码]

(本节内容从 R 编程 Wikibook 关于设置的章节 导入,然后进行了修改。)

两人或三人一组。将 R 编程语言下载并安装到您的计算机上。互相帮助让 R 运行起来。

  1. 访问 R 网站:https://www.r-project.org.cn/
  2. 点击 CRAN 镜像链接
  3. 点击 Linux、Mac OSX 或 Windows 链接

在基于 Debian 的 GNU/Linux 发行版(例如 Ubuntu 或 Debian 本身)上安装 R 很简单,只需在终端中输入 sudo aptitude install r-basesudo apt-get install r-base,或者使用您喜欢的软件包管理器(例如 Synaptic)安装 r-base 软件包。

还有许多扩展 R 以实现不同目的的软件包。它们的名字都以 r- 开头。仔细看一下 r-recommended 软件包。它是一个元软件包,依赖于一组软件包,这些软件包由上游 R 核心团队推荐,作为完整 R 发行版的一部分。您可以仅通过安装此软件包来安装 R,因为它依赖于 r-base

使用 apt-get 安装(Debian、Ubuntu 和所有基于 Debian 的 Linux 发行版)

sudo apt-get install r-base
sudo apt-get install r-recommended

使用 aptitude 安装(Debian、Ubuntu 和所有基于 Debian 的 Linux 发行版)

sudo aptitude install r-base
sudo aptitude install r-recommended

安装:下载磁盘镜像(dmg 文件)并安装 R。

Mac 的默认图形用户界面比 Windows 的好得多。它包括

  • 一个数据框管理器,
  • 所有命令的历史记录,
  • 一个支持语法高亮的程序编辑器。

(本节内容从 Wikiversity 项目导入:"如何使用 R" 课程关于安装的章节。)

要在 Windows 操作系统下安装 R,您必须从网上下载二进制文件。首先访问 R-Project 网站(如上所述),然后在左侧面板的下载部分下点击 CRAN,并选择一个镜像站点,从中您可以下载所需的内容。最佳选择是选择距离您实际地理位置最近的镜像,但其他镜像也应该可以正常工作。然后点击 Windows,并在子目录中点击 base。Windows 二进制文件是 exe 文件,形式为 R-x.x.x-win32.exe,其中 x 表示程序的实际版本。无论版本如何,安装步骤都相同。

与 Windows 一样,如果您只是不断点击 下一步 按钮,您就可以毫无问题地安装程序。但是,您可以更改一些内容。

  1. 在欢迎屏幕上点击 下一步
  2. 阅读或只是注意到 GNU 许可证,然后点击 下一步
  3. 选择 R 应该安装到的位置。如果您不喜欢硬盘上的特定位置,则默认选择就足够了。
  4. 在下一步中,您可以指定要安装 R 的哪些部分。选项包括:用户安装、最小用户安装、完全安装和自定义安装。注意选择面板下的所需空间(在 20 到 66 MB 之间)。如果您是 R 的初学者,请选择默认的 用户安装
  5. 在此步骤中,您可以选择两种方式。如果您接受默认设置,您将在安装过程中跳过 3 个“额外”步骤(见下文)。
  6. 您可以指定 开始菜单 文件夹。
  7. 在下一步中,您可以选择快捷方式选项(桌面图标和/或快速启动图标)并指定注册表项。


通过这些步骤,您可以自定义 R 图形用户界面。

  • 您可以选择使用覆盖整个屏幕的 R 图形用户界面(MDI)还是使用较小的窗口(SDI)。
  • 您可以选择 R 中帮助屏幕的显示方式。您会经常使用帮助,因此这可能是一个重要的决定。您可以根据自己的喜好选择样式。请注意,无论您选择什么样式,帮助文件的内容都是一样的。这里您只是指定该特定窗口的外观。
  • 在下一步中,您可以指定是否要使用 internet2.dll。如果您是初学者,请选择 标准 选项。

适用于 Windows 的便携式 R

[编辑 | 编辑源代码]

如果您想将 R 安装到您的 USB 闪存盘上,请访问 便携式 R[18] 网站。如果您没有计算机的管理员权限,这将非常有用。基本安装需要大约 115 MB,但如果您想安装附加软件包,可能需要更多空间。

更多阅读

[编辑 | 编辑源代码]
  • Davenport,Thomas H.;Patil,D.J. (2012)。"数据科学家:21 世纪最性感的职业"哈佛商业评论。2012 年 10 月:70–76. 检索于 2012 年 10 月 13 日.
  • Mike Loukides (2010 年 6 月)。"什么是数据科学?"。O'Reilly Media,inc. 检索于 2012 年 7 月 7 日.
  • DJ Patil (2011 年 9 月 16 日)。"组建数据科学团队"。O’Reilly Media,Inc. 检索于 2012 年 7 月 7 日.
  • Longhow Lam (2010 年 10 月 28 日)。"R 入门" (PDF). PDF. 综合 R 档案网络 (CRAN). 检索于 2012 年 7 月 14 日.
  • Emmanuel Paradis (2005 年 9 月 12 日)。"R 入门" (PDF). PDF. 综合 R 档案网络 (CRAN). 检索于 2012 年 7 月 14 日.
  • Code School。"尝试 R"在线课程。O'Reilly. 检索于 2013 年 5 月 16 日.

参考文献

[编辑 | 编辑源代码]
  1. William S. Cleveland. "教师页面". 检索于 2012 年 7 月 6 日.
  2. Cleveland, W. S. (2001). "数据科学:扩展统计学领域技术领域的行动计划". 国际统计评论 / 国际统计评论. 69 (1).
  3. "科学国际委员会:科学与技术数据委员会". 检索于 2012 年 7 月 6 日.
  4. "CODATA 数据科学期刊". 第 1 卷,第 1 期. 从日本科学技术信息聚合器中检索。2002 年 4 月. 检索于 2012 年 7 月 6 日.
  5. "数据科学期刊". 第 1 卷,第 1 期. 哥伦比亚大学。2003 年 1 月. 检索于 2012 年 7 月 6 日.
  6. "Mike Loukides". O'Reilly Media, Inc. 检索于 2012 年 7 月 7 日.
  7. Mike Loukides (2010 年 6 月). "什么是数据科学?". O'Reilly Media, inc. 检索于 2012 年 7 月 7 日.
  8. Patil, DJ (2011). 构建数据科学团队. Sebastopol, CA: O’Reilly Media, Inc.
  9. DJ Patil (2011 年 9 月 16 日). "构建数据科学团队". O’Reilly Media, Inc. 检索于 2012 年 7 月 7 日.
  10. "Strata 会议 2012". O’Reilly Media, Inc. 检索于 2012 年 7 月 7 日.
  11. "数据科学峰会". Greenplum, Inc. 检索于 2012 年 7 月 7 日.
  12. "数据科学职位趋势". Indeed.com. 检索于 2012 年 7 月 7 日.
  13. "高级分析研究所". 北卡罗来纳州立大学. 检索于 2012 年 7 月 7 日.
  14. "分析学硕士". 西北大学. 检索于 2012 年 7 月 7 日.
  15. "数据科学暑期研究所". 伊利诺伊大学香槟分校. 检索于 2012 年 7 月 7 日.
  16. "数据科学中心". 数据科学中心. 检索于 2012 年 7 月 7 日.
  17. "kaggle". 以后 Kaggle Inc. 检索于 2012 年 7 月 13 日.
  18. "便携式 R". 检索于 2012 年 7 月 14 日.
[编辑 | 编辑源代码]

您可以

  • 分享 - 复制、分发、展示和表演作品(来自此维基的页面)
  • 重新混合 - 调整或制作衍生作品

在以下条件下

  • 署名 - 您必须将此作品归功于 Wikibooks。您不能以任何方式暗示 Wikibooks 以任何方式认可您或您对该作品的使用。
  • 相同方式共享 - 如果您更改、转换或构建此作品,您只能在与该许可证相同或类似的许可证下分发产生的作品。
  • 放弃 - 您可以获得版权持有者的许可,放弃上述任何条件。
  • 公有领域 - 如果根据适用的法律,作品或其任何元素属于公有领域,则此状态不受许可证影响。
  • 其他权利 - 许可证不会影响以下任何权利
  • 您的公平交易或公平使用权利,或其他适用的版权例外和限制;
  • 作者的署名权;
  • 他人可能拥有的作品本身或作品的使用方式的权利,例如公开权或隐私权。
  • 注意 — 对于任何重复使用或分发,您必须向他人明确说明此作品的许可条款。 最好的方法是链接到以下网页。
http://creativecommons.org/licenses/by-sa/3.0/
华夏公益教科书