跳转到内容

从 Unix 命令行进行临时数据分析

100% developed
来自维基教科书,开放的书籍,开放的世界
临时数据分析
从 Unix 命令行

曾经,我和一位同事一起工作,他需要进行一些快速的数据分析来掌握问题的范围。他正在考虑将数据导入数据库或编写程序来解析和汇总这些数据。这两种选择都需要至少几个小时,甚至几天。我在他的白板上写了这些:

你的朋友:cat、find、grep、wc、cut、sort、uniq

这些简单的命令可以组合起来,快速回答大多数人会求助于数据库的问题,如果数据已经存在于数据库中。你可以快速(通常在几秒钟内)形成和检验关于几乎任何记录导向数据源的假设。

目标受众

[编辑 | 编辑源代码]

您已登录到某个版本的 Unix 盒子,并运行了一些基本命令,例如lscdcat. 如果你不知道ls命令的作用,你需要一个比我在这里给出的更基本的 Unix 简介。

  1. 准备工作
  2. 标准输入、标准输出、重定向和管道
  3. 计数部分 1 - grep 和 wc
  4. 使用 cut 拆分数据
  5. 使用 join 合并数据
  6. 计数部分 2 - sort 和 uniq
  7. 使用内联 perl 重写数据
  8. 使用 gnuplot 进行快速绘图
  9. 附录
华夏公益教科书