跳转至内容

Lentis/"数据是新的石油"

来自Wikibooks,开放世界的开放书籍

"数据是新的石油!"是数据科学家克莱夫·汉比于2006年在国家广告主协会会议上发表的演讲的标题。在他的演讲中,汉比声称,原始数据必须像原油一样经过提炼才能具有价值。[1] 从那时起,这句话开始广泛流传,用来阐明数据和石油之间无数其他的相似之处。正如19世纪末和20世纪初的第二次工业革命由石油推动一样,如今的数字革命正在由数据驱动。

加工和提炼

[编辑 | 编辑源代码]

克莱夫·汉比最初使用这个类比来证明,数据和石油的原始形式在成为可销售产品之前需要一些中间处理步骤。就像几乎总是拥有自己炼油厂的寡头石油公司一样,寡头数据公司也经常进行自己的内部数据处理。这些寡头数据公司应该被称为数据驱动型公司,因为它们完全依赖其处理过的数据来获取收入。

寡头垄断

[编辑 | 编辑源代码]
Standard Oil depicted as a menacing octopus
1904年的一幅政治漫画,描绘了标准石油公司征服美国石油市场的策略。它似乎暗示标准石油公司正在利用对国会的监管控制,甚至可能是白宫,来推进其经济议程。总体而言,其内涵是负面的,类似于一些人对现代数据收集巨头(例如Facebook)的看法。

与石油行业一样,数据收集行业也仅限于少数几家控制整个市场的大型跨国公司。无数较小的公司以某种方式为数据/石油的宏观供应链运营做出贡献,但大型公司在市场份额和整体社会技术影响方面主导着经济。石油行业中这些大型公司的例子包括埃克森美孚雪佛龙英国石油公司壳牌石油,数据行业中其类似公司的例子包括亚马逊谷歌FacebookYouTube。世界上第一位亿万富翁[2]约翰·D·洛克菲勒标准石油公司(该公司最终被拆分为埃克森美孚和雪佛龙等公司)的首席执行官,世界上第一位千亿富翁[3]杰夫·P·贝佐斯是亚马逊的首席执行官(目前是世界上最大的数据驱动型电子商务平台)。这两个行业在财富和权力方面存在的相似之处是显而易见的。

数据驱动型公司

[编辑 | 编辑源代码]

这些公司的商业模式是从其消费者那里收集数据,并利用这些数据指导内部决策,通过更好地将产品定位到个别消费者的偏好来提高销售额。这种商业模式的新变体伴随着互联网的出现,这使得可以将广告作为唯一的收入来源。作为交换用户数据,数据驱动型公司可以免费向用户提供其服务。

数据驱动型公司和数据经纪公司之间工作流程差异的示意图,显示了每种类型的公司如何从数据中产生收入。

数据经纪公司

[编辑 | 编辑源代码]

这些公司几乎完全通过收集和出售数据给第三方公司和实体来获利。他们通常通过购买数据、挖掘公共记录和/或创建收集用户数据的应用程序来收集数据。主要有三种类型:1) 创建在线市场,个人用户可以在其中付费获取有关其他个人的信息(例如,PeopleFinders、白页);2) 向将数据用于营销决策的实体出售数据(例如,Acxiom和剑桥分析);以及3) 向使用数据进行风险缓解和身份验证的实体出售数据(例如,ID Analytics)。[4]

泄漏和溢出

[编辑 | 编辑源代码]

漏油会造成持久损害,尤其是在海洋生态系统方面,并且通常会导致环保人士的强烈反对以及公众对石油公司的信任度下降。[5] 美国的一些著名例子包括1989年的埃克森·瓦尔迪兹号漏油事件2010年的深水地平线漏油事件。与这些漏油事件类似,数据泄露会导致隐私倡导者的强烈反对以及公众对收集消费者数据的公司的信任度下降。[6]

重大数据泄漏

[编辑 | 编辑源代码]

无数的数据泄露导致了消费者个人数据的非自愿发布。泄露的原因包括黑客攻击、意外上传和故意泄露。泄露影响到私营和公共部门,涵盖了从电子病历到位置数据再到社交网站上的好友列表等广泛的数据集。

Facebook和剑桥分析

[编辑 | 编辑源代码]

剑桥大学的研究员亚历山大·科根声称正在进行研究,并获得了Facebook的批准,在其平台上发布了一款数千名Facebook用户安装的性格测试问卷。多达8700万Facebook用户的个人数据被泄露给了剑桥分析公司(Cambridge Analytica),这是一家被唐纳德·特朗普2016年总统竞选团队雇用的政治数据经纪公司。[7][8] Facebook的“服务条款”允许研究人员将数据用于学术目的。但是,出售数据是被禁止的。[9] 有人认为,此丑闻应该促使研究人员更加谨慎地处理个人数据的传播。慈善原则规定,研究人员应将参与者的福祉置于首位。[10]

LocationSmart

[编辑 | 编辑源代码]

LocationSmart是一家与美国无线运营商合作销售用户位置数据的公司。[11] 直到2018年,任何LocationSmart用户都可以找到美国任何手机的实时位置。一名匿名黑客还入侵了LocationSmart客户Securus的网站,并访问了机密的执法信息。[12]

在美国,国内海上石油钻探和石油管道运输受环境保护署(EPA)的监管。类似于石油泄漏事件引发公众对加强石油公司监管的强烈呼声,过去二十年中的数据泄露事件也成为数据隐私法规萌芽的推动力。

加州消费者隐私法案

[编辑 | 编辑源代码]

加州消费者隐私法案最初于2018年6月由前州长杰里·布朗签署通过。[13] 该法律的主要原则规定,加州居民现在有权:1)访问收集其数据的记录;2)拒绝收集其数据;3)删除其数据。[14] 该法律是消费者数据保护方面首批全面的州级立法之一。

“数据红利”

[编辑 | 编辑源代码]

类似于阿拉斯加州居民因其州内石油钻探而获得永久基金红利,一些加州官员(例如加文·纽瑟姆安德鲁·杨)提议加州居民因其在线数据的利用/出售而获得红利。[15][16] 许多人认为这项提议不切实际。前Facebook高管安东尼奥·马丁内斯认为,亚马逊、谷歌和Facebook不认为他们欠消费者任何东西,因为他们免费提供服务,以换取可用于产生广告收入的用户数据。[17]

通用数据保护条例

[编辑 | 编辑源代码]

通用数据保护条例欧盟法律,于2016年4月通过。与加州的CCPA类似,它要求在数据收集方面保持透明度,并侧重于用户对其数据的控制权。它被视为全球数据保护政策中的典范法律。[18] 电子隐私信息中心(EPIC)是一个数据隐私监督机构,它认为美国需要一部类似于GDPR的法律或一个监管机构(例如数据保护局)。[19]

社会影响

[编辑 | 编辑源代码]

数据和石油每天都会影响数十亿人的生活。如果不首先考虑其社会影响,就无法理解其技术影响。

有用的商品

[编辑 | 编辑源代码]

石油和数据一直是人类宝贵的资源。数千年来,人们一直在收集贸易和收获数据。最早利用大数据极大地改善人类生活的例子之一是1663年,当时约翰·格兰特利用死亡率数据预测即将爆发的鼠疫。[20] 政府一直通过人口普查收集和利用数据,以便正确分配资金并帮助确保民主。[21] 企业意识到如何利用收集到的数据来提高效率和客户体验,克莱夫·汉比的咨询公司邓恩汉比和英国杂货商乐购是其中一些开创性的公司。在21世纪,一旦数据的价值变得显而易见,数据业务便迅速发展。与数据收集一样,石油的使用也历史悠久,可以追溯到苏美尔人尝试生火的时候。现代石油使用始于19世纪50年代中期,当时在美国发现了大量石油。[22] 石油的用途最初是作为光源和热源,但后来发展到为交通运输和经济革命提供动力。该行业的公司因此变得非常富有。[23]

1800年至2000年期间,英语语料库中“数据科学”短语在Google Books Ngram Viewer中的频率。

在大多数国家,以石油为燃料的汽车是主要的交通工具。现代经济,特别是随着电子商务的兴起,依赖于航运业,因此也依赖于汽车。许多塑料都是石油基的,塑料是包装和零售的核心。如今,我们的社会依赖于石油,有些人认为这种依赖关系将会持续下去,[24] 但一种新的依赖关系可能正在出现:数据。根据Google的Ngram Viewer,短语“数据科学”在20世纪初开始进入日常用语。[25] 内部数据帮助公司优化供应链运营,而消费者数据则帮助公司做出决策以改善客户体验。换句话说,数据收集并不总是负面的或侵犯隐私的。尽管人们对可接受的数据收集实践有各种各样的看法,但数据收集是我们数字经济的核心。

我们可以推测,数据收集与互联网的兴起同时出现,因为人们注意到大约在 1990 年,“数据科学”的 Ngram 曲线急剧上升。[25] 人们可能会假设这是互联网简化数据收集的结果。现在,只需点击一个按钮,就可以跨不同地点、社会经济阶层和文化收集数据。比以往任何时候都更多样的社会群体的数据得到了体现;数据可能充当伟大的平等化因素。类似地,廉价的石油和炼油方法使更多的人能够驾驶汽车。

类比的准确性

[编辑 | 编辑源代码]

总体而言,数据与石油既有相似之处,也有不同之处,但“数据是新的石油”这句话本身具有社会影响。它传达了数据在数字时代的力量和获利能力。它也让人想起石油动荡的历史,这或许是恰当的,因为我们目前正在努力应对数据收集带来的隐私威胁。这句话告诉我们,语言具有力量,因为这句话本身就存在反对者和信徒。我们还见证了新兴技术,特别是像互联网和大规模数据收集这样的颠覆性技术,引发了许多未解的经济、监管和伦理问题。数据科学仍处于起步阶段,但我们已经看到了数据对我们现代世界产生的巨大影响。

参考文献

[编辑 | 编辑源代码]
  1. Humby, C.; Palmer, M. (2006 年 11 月 3 日)。数据是新的石油。 https://ana.blogs.com/maestros/2006/11/data_is_the_new.html(2019 年 12 月 9 日访问)。
  2. Simpson, S. (2019 年 11 月 9 日)。谁将成为世界上第一个万亿美元富翁?。 https://www.investopedia.com/financial-edge/0211/the-first-trillionaire.aspx(2019 年 12 月 9 日访问)。
  3. Au-Yeung, A. (2019 年 10 月 24 日)。亚马逊股价暴跌后,杰夫·贝佐斯不再是世界上最富有的人。 https://www.forbes.com/sites/angelauyeung/2019/10/24/jeff-bezos-is-no-longer-the-richest-person-in-the-world/#4dfb029b67ae(2019 年 12 月 9 日访问)。
  4. Pasternack, A.; & Meldenez, S. (2019 年 5 月 28 日)。以下是正在秘密买卖您个人信息的那些数据经纪人。 https://www.fastcompany.com/90310803/here-are-the-data-brokers-quietly-buying-and-selling-your-personal-information(2019 年 12 月 2 日访问)。
  5. Walsh, B. (2010 年 7 月 7 日)。漏油事件和失去信任的危险。 http://science.time.com/2010/07/07/the-oil-spill-and-the-perils-of-losing-trust/(2019 年 12 月 10 日访问)。
  6. Weisbaum, H. (2018 年 4 月 18 日)。剑桥分析丑闻发生后,Facebook 的信任度下降了 66%。 https://www.nbcnews.com/business/consumer/trust-facebook-has-dropped-51-percent-cambridge-analytica-scandal-n867011(2019 年 12 月 9 日访问)。
  7. Meyer, R. (2018 年 10 月 26 日)。剑桥分析丑闻,用三个简短的段落概括。 https://www.theatlantic.com/technology/archive/2018/03/the-cambridge-analytica-scandal-in-three-paragraphs/556046/(2019 年 11 月 30 日访问)。
  8. Granville, K. (2018 年 3 月 19 日)。Facebook 和剑桥分析:随着余波扩大,你需要了解什么。 https://www.nytimes.com/2018/03/19/technology/facebook-cambridge-analytica-explained.html(2019 年 11 月 30 日访问)。
  9. 服务条款是什么:你需要了解的一切。(不详)。 https://www.upcounsel.com/what-are-terms-of-service(2019 年 11 月 30 日访问)。
  10. 自然出版集团社论。(2018 年 3 月 27 日)。剑桥分析争议必须促使研究人员更新数据伦理。 https://www.nature.com/articles/d41586-018-03856-4(2019 年 12 月 10 日访问)。
  11. Oremus, W. (2018 年 5 月 21 日)。隐私丑闻应该比剑桥分析更大。 https://slate.com/technology/2018/05/the-locationsmart-scandal-is-bigger-than-cambridge-analytica-heres-why-no-one-is-talking-about-it.html(2019 年 11 月 30 日访问)。
  12. 没有人谈论的关键安全危机。(2018 年 5 月 22 日)。 https://nordvpn.com/blog/securus-locationsmart-phone-tracking/(2019 年 11 月 30 日访问)。
  13. 加利福尼亚州议会。(2018 年)。2018 年加利福尼亚州消费者隐私法案。 https://leginfo.legislature.ca.gov/faces/billTextClient.xhtml?bill_id=201720180AB375(2019 年 11 月 28 日访问)。
  14. 加利福尼亚消费者隐私倡导者。(2019 年)。关于加利福尼亚州消费者隐私法案。 https://www.caprivacy.org/about(2019 年 11 月 28 日访问)。
  15. Clifford, C. (2019)。安德鲁·杨:你应该从 Facebook、亚马逊、谷歌那里收到一封关于你数据的支票。 https://www.cnbc.com/2019/10/17/andrew-yang-facebook-amazon-google-should-pay-for-users-data.html(2019 年 11 月 28 日访问)。
  16. Daniels, J. (2019)。加州州长提议“新的数据红利”,可能要求 Facebook 和 Google 向用户支付费用。 https://www.cnbc.com/2019/02/12/california-gov-newsom-calls-for-new-data-dividend-for-consumers.html(2019 年 11 月 28 日访问)。
  17. Martínez, A. (2019)。不,数据不是新的石油。 https://www.wired.com/story/no-data-is-not-the-new-oil/(2019 年 11 月 28 日访问)。
  18. 欧盟。(2016 年)。通用数据保护条例(GDPR)。 https://gdpr-info.eu/(2019 年 11 月 28 日访问)。
  19. EPIC。(2019 年)。数据保护机构。 https://epic.org/dpa/(2019 年 12 月 9 日访问)。
  20. Morabia, A. (2013)。流行病学 350 周年纪念:1662-2012。流行病学(马萨诸塞州剑桥),24(2),179-183。doi:10.1097/EDE.0b013e31827b5359
  21. Barazesh, S. (2019 年 7 月 7 日)。探究问题:为什么人口普查很重要?宾夕法尼亚州立大学新闻。 https://news.psu.edu/story/141197/2009/07/27/research/probing-question-why-census-important
  22. 商业和研究经济顾问。(2006 年)。石油和天然气行业。 https://www.loc.gov/rr/business/BERA/issue5/history.html
  23. History.com 编辑。(2010 年 4 月 8 日)。石油工业。 https://www.history.com/topics/industrial-revolution/oil-industry
  24. Clemente, J. (2015)。石油将继续主宰世界的三个原因。 https://www.forbes.com/sites/judeclemente/2015/04/19/three-reasons-oil-will-continue-to-run-the-world/#793fb55843f9(2019 年 12 月 9 日访问)。
  25. a b Google 图书 Ngram 视图。数据科学。 https://books.google.com/ngrams/graph?content=data+science&year_start=1800&year_end=2000&corpus=15&smoothing=3&share=&direct_url=t1%3B%2Cdata%20science%3B%2Cc0#t1%3B%2Cdata%20science%3B%2Cc0(2019 年 12 月 9 日访问)。
华夏公益教科书