跳转到内容

数据科学:入门/数据科学的影响

来自维基教科书,开放世界开放书籍


第 04 章:数据科学的影响



章节摘要

[edit | edit source]

在本章中,我们将探讨数据科学如何彻底改变了我们世界的几个不同方面:棒球、健康和机器人技术。

点球成金

[编辑 | 编辑源代码]

(本节是 2012 年 10 月 3 日点球成金维基百科页面的编辑版本。)

根据维基百科点球成金 (电影)指的是 迈克尔·刘易斯 在 2003 年出版的一本书[1],讲述了奥克兰运动家棒球队及其总经理比利·比恩。它重点关注球队在奥克兰收入处于劣势的情况下,采用分析性、基于证据的、棒球计量学方法组建一支有竞争力的棒球队。一部根据该书改编的电影于 2011 年上映,主演布拉德·皮特。

《点球成金》的核心前提是,棒球内行人(包括球员、经理、教练、球探和管理层)在过去一个世纪积累的智慧是主观的,而且常常存在缺陷。诸如盗垒、打点和打击率等通常用来衡量球员的统计数据,是 19 世纪对比赛及其当时可用统计数据的看法遗留下来的产物。这本书认为,奥克兰运动家的管理层利用更具分析性的球员表现衡量指标,组建了一支能够与美国职业棒球大联盟 (MLB) 中更富有的竞争对手成功竞争的球队。

严格的统计分析表明,上垒率和长打率是进攻成功的更好指标,运动家队确信,与历史上更受重视的速度和触球能力相比,这些品质在公开市场上更容易获得。这些观察结果往往与传统的棒球智慧以及许多棒球球探和高管的信念相悖。

  • 通过重新评估球场上产生胜利的策略,2002 年的奥克兰运动家队,工资总额约为 4100 万美元,能够与纽约洋基队等大型市场球队相抗衡,纽约洋基队在同一年花了超过 1.25 亿美元的工资。由于球队收入较低,奥克兰被迫寻找市场低估的球员,而他们寻找低估球员价值的体系迄今已证明了其有效性。

刘易斯在书中探讨了几个主题,包括:内行人与外行人(已确立的传统人士与棒球计量学新兴支持者)、信息民主化导致等级扁平化以及“资本主义要求的无情效率驱动”。这本书还谈到了奥克兰保持领先地位的潜在经济需求;随着其他球队开始模仿比恩的策略来评估进攻人才,削弱了运动家的优势,奥克兰开始寻找其他被低估的棒球技能,如防守能力。

《点球成金》还涉及运动家队选秀球员的方法。棒球计量学家认为,大学棒球球员进入 MLB 的成功率远高于传统的中学选秀球员。比恩认为,无论选秀球员的天赋或身体潜力如何,传统的球探评估,花费高额选秀权签下中学球员,比花费在更有经验的大学球员身上风险更大。刘易斯以运动家队小联盟球员杰里米·邦德曼为例,他在 2001 年从高中被选中,比恩对此表示反对,这正是比恩想要避免的选秀类型。邦德曼拥有球探寻找的所有传统“工具”,但多年来,成千上万这样的球员从高中被 MLB 球队签下,但最终未能发展起来。刘易斯探讨了运动家队在 2002 年 MLB 选秀中的方法,当时球队获得了前所未有的早期选秀权。这本书记录了比恩在选秀准备阶段与球探团队(他们更倾向于传统的主观潜力评估而不是客观的棒球计量学)之间经常紧张的讨论,以及实际的选秀过程,这打破了所有预期,在当时被认为是比恩取得的巨大成功(尽管非正统)。

  • 此外,《点球成金》追溯了棒球计量学运动的历史,包括比尔·詹姆斯(现为波士顿红袜队管理层成员)和克雷格·R·赖特等人物。刘易斯探讨了詹姆斯具有开创性的《棒球抽象》是如何影响了许多现在加入棒球管理队伍的年轻、有抱负的棒球人士的。这本书从 1970 年代后期到 1980 年代后期每年出版。

《点球成金》对职业棒球的影响如此之大,以至于这个词本身已进入棒球的词汇中。那些似乎重视棒球计量学概念的球队,常被说成是在打“《点球成金》”。棒球传统人士,尤其是某些球探和媒体成员,谴责棒球计量学革命,并贬低了《点球成金》,因为它强调棒球计量学概念,而不是更传统的球员评估方法。然而,《点球成金》对大联盟管理层的影响是不可否认的。

  • 在《点球成金》的推动下,纽约大都会队、纽约洋基队、圣地亚哥教士队、圣路易斯红雀队、波士顿红袜队、华盛顿国民队、亚利桑那响尾蛇队、克利夫兰印第安人队[2] 和多伦多蓝鸟队都聘请了全职的棒球计量学数据科学家

自从这本书出版并取得成功以来,刘易斯已经讨论了续写《点球成金》的计划,名为《弱者》,重新审视这些球员及其在几年后的职业生涯中取得的相对成功。当纽约大都会队在 2010 年赛季结束后聘请桑迪·奥尔德森(比恩在运动家的前任和导师)担任总经理,并聘请比恩的前助手保罗·德波德斯塔和 J.P.里奇亚迪加入管理层时,这支球队被称为“点球成金大都会队”。[3] 迈克尔·刘易斯承认,这本书的成功可能对运动家的命运产生了负面影响,因为其他球队已经接受了棒球计量学的使用,降低了奥克兰从基于棒球计量学的评估中获得的优势。[4]

(本节改编自该公司的维基百科文章,截至 2012 年 10 月 3 日。)

根据维基百科23andMe 是一家总部位于加利福尼亚州山景城的私人控股的个人基因组学和生物技术公司[5],提供快速基因检测。该公司以正常人体细胞中 23 对染色体命名。他们的个人基因组检测工具包在 2008 年被《时代》杂志评为“年度发明”。[6] 该公司由琳达·艾维安妮·沃西基创立,她们都认识到需要一种方法来组织和研究遗传数据,个人消费者使用这些信息的可能性,以及解释结果的专业知识的需求。[7]

23andMe 于 2007 年 11 月开始提供 DNA 检测服务,其结果在线发布,允许订阅者查看遗传特征、家谱和可能的先天性风险因素的评估。[8] 客户提供 2.5 毫升的唾液样本,该样本将在 Illumina 的 DNA 微阵列上进行分析,针对 960,000 个特定的 单核苷酸多态性 (SNP) 进行分析。最终目标是提供全基因组测序。[7]

  • 2011 年 6 月,23andMe 宣布已积累了超过 100,000 个人的数据库。[9]

该组织还为某些研究计划[10] 提供检测,向研究基金会提供机密的客户数据集,并与研究基金会合作,目标是确定与特定疾病和疾病相关的遗传关联。[7] 谷歌联合创始人谢尔盖·布林(他的母亲患有帕金森氏症,他与 23andMe 联合创始人安妮·沃西基结婚)支付了公司帕金森氏症遗传学计划的费用,为患有这种疾病的人提供免费检测。[11] 对帕金森氏症研究结果的分析比较了 23andMe 和美国国立卫生研究院 (NIH) 的一项计划,结果表明,该公司使用大量计算能力和数据集可能会提供可比较的结果,但时间要少得多。[12]

该公司通过在线调查收集订阅者的个人和社交数据。个人数据包括一个人的健康史、环境史以及诸如嗅觉能力等方面。社交数据包括家族史以及一个人参与的活动类型。该公司雇用了一些数据科学家来处理这些海量数据——一百多万人拥有百万个遗传变量和数百个个人和社会变量。

  • 该公司的

(如果讲师拥有 23andMe 账户,她可以登录并投影网站,向课堂上的学生展示 23andMe 数据科学家的结果。)

谷歌的无人驾驶汽车

[编辑 | 编辑源代码]

(本节是维基百科关于谷歌无人驾驶汽车的文章的编辑版本,来自 2012 年 10 月 3 日。)

根据 维基百科谷歌的无人驾驶汽车是由谷歌工程师塞巴斯蒂安·特伦领导的一个项目,他是 斯坦福人工智能实验室 的主任,也是谷歌街景的共同发明人。特伦在斯坦福的团队创造了机器人车辆 斯坦利,该车辆赢得了 2005 年 DARPA 大挑战赛,并获得了美国国防部提供的 200 万美元奖金。[13]

美国内华达州于 2011 年 6 月通过了一项法律,允许在内华达州运营无人驾驶汽车。谷歌一直在游说无人驾驶汽车法律。[14][15][16] 谷歌高管没有说明他们选择内华达州作为无人驾驶汽车首个运行州的具体原因。[16] 内华达州法律于 2012 年 3 月 1 日生效,内华达州机动车辆管理局于 2012 年 5 月颁发了第一张无人驾驶汽车牌照。该牌照颁发给了一辆改装了谷歌实验性无人驾驶技术的丰田普锐斯。[17] 2012 年 8 月,该团队宣布他们已经完成了超过 300,000 英里的无人驾驶里程,并且没有发生任何事故,通常在任何给定时间都有大约 12 辆汽车在路上,并且他们开始对这些汽车进行测试,让一名驾驶员单独驾驶,而不是成对驾驶。[18] 截至 2012 年 9 月,美国有 3 个州通过了允许无人驾驶汽车的法律:内华达州、佛罗里达州和加利福尼亚州。[19]

该系统结合了从谷歌街景收集的信息,以及人工智能软件,该软件结合了来自汽车内部视频摄像头的输入,汽车顶部的 激光雷达 传感器,汽车前部的雷达传感器,以及一个安装在后轮上的位置传感器,该传感器有助于定位汽车在地图上的位置。在 2009 年,谷歌从配备少量人工干预的无人驾驶汽车中获得了 3,500 英里的街景图像。截至 2010 年,谷歌已经测试了几辆配备该系统的车辆,在没有任何人工干预的情况下行驶了 1,609 公里(1,000 英里),此外还行驶了 225,308 公里(140,000 英里),偶尔进行人工干预。谷歌预计其自动驾驶系统的准确性提高将有助于减少与交通相关的伤害和死亡人数,同时更有效地使用道路上的能源和空间。[13]

项目团队已经为至少 8 辆测试车配备了设备,[20] 每辆车都配备了一名驾驶记录良好的驾驶员坐在驾驶座上,以及一名谷歌工程师坐在副驾驶座上。这辆车已经穿过了旧金山的 伦巴第街,以其陡峭的发夹弯而闻名,并且穿过了城市交通。这些车辆已经驶过了金门大桥和太平洋海岸公路,并且环绕了太浩湖。[21]

谷歌的无人驾驶测试车大约有 150,000 美元的设备,其中包括 70,000 美元的激光雷达(激光雷达)系统。[22] 该系统以它存储在地图上的限速行驶,并使用其传感器系统保持与其他车辆的距离。该系统提供了一个覆盖功能,允许人类驾驶员通过踩刹车或转动方向盘来控制汽车,这类似于汽车中已有的巡航控制系统。[13]

虽然谷歌没有立即计划商业化开发该系统,但该公司希望开发一项业务,将该系统及其背后的数据推销给汽车制造商。加利福尼亚州机动车辆管理局的一名律师表示,“在许多领域,技术都走在法律的前面”,他引用了州法律,这些法律“都假定有人驾驶车辆”。[13] 根据《纽约时报》报道,政策制定者和监管机构认为,如果无人驾驶汽车要成为现实,就需要新的法律,因为“现在技术发展如此迅速,以至于它有可能超过现有的法律,其中一些法律可以追溯到马车时代”。[16]

2011 年 8 月,一辆有人驾驶的谷歌无人驾驶汽车在加州山景城谷歌总部附近发生了该项目的第一起事故。谷歌表示,汽车在事故发生时处于手动驾驶状态。[23] 第二起事件涉及一辆谷歌无人驾驶汽车在红灯停车时被追尾。[24]

思考一下:2005 年,DARPRA 大挑战赛的无人驾驶汽车获胜者以平均每小时 19 英里的速度行驶了 123 英里。仅仅 5 年后,谷歌的无人驾驶汽车已经行驶了数十万英里,速度为每小时 55 到 65 英里。人工智能学科在 5 年内取得了如此大的进步吗?没有。区别在于数据科学。谷歌数据科学家为无人驾驶汽车将要行驶的每条街道创建了一个 3D 线框模型。实时地,汽车的数据科学算法将实际观察结果与模型(包括道路上的白色线条)进行比较,并相应地进行修正。

作业/练习

[编辑 | 编辑源代码]

分成 4 或 5 人一组。一起观看电影《点球成金》。观看时,简要记下数据科学是如何让电影中的人物产生不同的。电影结束后,作为一个小组进行头脑风暴,其他哪些生活领域数据科学可以发挥作用。推测数据科学的反对者可能会对使用数据科学提出哪些论点。选择一个进行进一步考虑。作为一个小组,创建一个包含 4 张幻灯片的演示文稿,介绍你所选择的领域;数据科学将如何发挥作用;反对意见是什么;以及你的小组最终是否认为将数据科学引入该领域是一个好主意。

更多阅读

[编辑 | 编辑源代码]

参考文献

[编辑 | 编辑源代码]
  1. Lewis, Michael (2003). 点球成金:赢取不公平比赛的艺术. 纽约:W.W. 诺顿公司. p. 288. ISBN 0-393-05765-8.
  2. Woolner, Keith (2007-05-04). "文章 | 瞄准头部:瞄准前台". 棒球展望. 检索于 2011-09-24.
  3. "The Moneyball Mets". 纽约. 2011年3月25日. 检索于 2011-04-06.
  4. "Michael Lewis on A's 'Moneyball' legacy". 旧金山纪事报. 2011年9月18日. 检索于 2011-09-23.
  5. "23andMe, Inc. Company Profile". Manta.
  6. "Time's Best Inventions of 2008". 时代. 2008-10-29. http://www.time.com/time/specials/packages/article/0,28804,1852747_1854493,00.html. 检索于 2012-04-05. 
  7. a b c Goetz, T (2011-07-17). "23AndMe Will Decode Your DNA for $1,000. Welcome to the Age of Genomics". 连线. 检索于 2012-04-05.
  8. Baertlein, L (2007-11-20). "Google-backed 23andMe offers $999 DNA test". 今日美国. http://www.usatoday.com/tech/webguide/internetlife/2007-11-20-23andme-launch_N.htm. 检索于 2012-04-05. 
  9. "23andMe Database Surpasses 100,000 Users". 23andMe. 检索于 2012-02-21.
  10. "23andWe Research". 23andMe. 检索于 2012-04-05.
  11. Epstein, N. "Genia Brin's Double Parkinson's Mutation". 片刻. 检索于 2012-07-17.
  12. Goetz, S (2010-06-22). "Sergey Brin's Search for a Parkinson's Cure". 连线. 检索于 2012-04-05.
  13. a b c d John Markoff (2010-10-09). "Google Cars Drive Themselves, in Traffic". 纽约时报. http://www.nytimes.com/2010/10/10/science/10google.html. 检索于 2010-10-11. 
  14. "Nevada enacts law authorizing autonomous (driverless) vehicles". 绿色汽车大会. 2011-06-25. 检索于 2011-06-25.
  15. Alex Knapp (2011-06-22). "Nevada Passes Law Authorizing Driverless Cars". 福布斯. http://blogs.forbes.com/alexknapp/2011/06/22/nevada-passes-law-authorizing-driverless-cars/. 检索于 2011-06-25. 
  16. a b c John Markoff (2011-05-10). "Google Lobbies Nevada To Allow Self-Driving Cars". 纽约时报. http://www.nytimes.com/2011/05/11/science/11drive.html?_r=1&emc=eta1. 检索于 2011-05-11.  Invalid <ref> tag; name "NYT0511" defined multiple times with different content
  17. Mary Slosson (2012-05-08). "Google gets first self-driven car license in Nevada". 路透社. http://www.reuters.com/article/2012/05/08/uk-usa-nevada-google-idUSLNE84701320120508. 检索于 2012-05-09. 
  18. 自动驾驶汽车行驶里程数增加, googleblog
  19. Muller, Joann. "With Driverless Cars, Once Again It Is California Leading The Way", Forbes.com, 2012年9月26日
  20. Damon Lavrinc (2012-04-16). "谷歌用混合动力雷克萨斯RX450h扩展其自动驾驶车队". Wired. http://www.wired.com/autopia/2012/04/google-autonomous-lexus-rx450h/. 检索于2012-04-24. 
  21. Sebastian Thrun (2010-10-09). "我们在努力什么". 谷歌官方博客. 检索于 2010-10-11.
  22. Alisa Priddle. "谷歌公布自动驾驶汽车测试成本". http://content.usatoday.com/communities/driveon/post/2012/06/google-discloses-costs-of-its-driverless-car-tests/#1. 
  23. "谷歌无人驾驶汽车引发五车相撞,事故原因归咎于人为错误". The Star (多伦多). 2011-08-09. http://www.thestar.com/wheels/article/1036702--human-error-blamed-after-google-s-driverless-car-sparks-five-vehicle-crash. 
  24. John Markoff (2010年10月9日). "谷歌汽车在交通中自动驾驶". 纽约时报. http://www.nytimes.com/2010/10/10/science/10google.html?_r=1. 检索于2012年8月12日. 
[编辑 | 编辑源代码]

您可以自由地

  • 分享 — 复制、分发、展示和表演作品(来自本维基的页面)
  • 混音 — 调整或制作衍生作品

在以下条件下

  • 署名 — 您必须将此作品归功于维基教科书。您不能暗示维基教科书以任何方式认可您或您对本作品的使用。
  • 相同方式共享 — 如果您更改、转换或基于此作品创建作品,您只能在与本许可相同或相似的许可下分发产生的作品。
  • 弃权 — 如果您获得版权所有者的许可,可以放弃上述任何条件。
  • 公有领域 — 如果作品或其任何部分根据适用法律属于公有领域,该状态不受许可的影响。
  • 其他权利 — 许可不影响以下任何权利:
  • 您的合理使用权或公平使用权,或其他适用的版权例外和限制;
  • 作者的道德权利;
  • 其他人可能对作品本身或作品的使用方式拥有的权利,例如公开权或隐私权。
  • 通知 — 对于任何再利用或分发,您必须向他人清楚说明此作品的许可条款。最好的方法是链接到以下网页。
http://creativecommons.org/licenses/by-nc-sa/3.0/
华夏公益教科书