跳转至内容

SI521 "密歇根大学开放教育资源" 开放教科书/开放数据

来自维基教科书,开放世界开放书籍

开放数据是一个术语,用于描述科学数据可以在没有价格或许可障碍的情况下发布和重复使用的过程。科学家通常认为发布的数据是公共产品,但许多实体声称对数据拥有版权或许可,这阻止了未经许可的重复使用,这正越来越多地被视为学术和科学研究进展的主要障碍。

数据定义

[编辑 | 编辑源代码]

数据是指作为经验、观察、实验或一组前提的结果而收集的信息或事实。它们可能是数字、文字、图像、基因组、科学公式、地理信息。数据通常被视为从信息和知识中衍生的最低抽象级别。这些数据类型可能具有商业价值,这为组织(公共或私人)提供激励,对其发现或聚合的数据应用知识产权限制。詹姆斯·博伊尔将这些限制称为围栏 [1],它可以采取专利、版权、许可、使用或访问费以及其他保留对数据控制的机制的形式。

开放数据是一个术语和哲学,它断言原始数据应被视为公共产品,并免费提供,没有知识产权限制或所有权。本章将探讨为提供共享访问和将数据置于公共领域的简单机制而开发的各种模型。

科学依赖于获取和使用事实数据。在电子存储和计算能力发展推动的下,几乎每个学科的科学研究都变得越来越依赖数据。无论是气象学、基因组学、医学还是高能物理学领域,研究都依赖于来自多个公共和私人来源的多个数据库的可用性,以及它们对轻松重新组合、搜索和处理的开放性。 [2]

数据资源

[编辑 | 编辑源代码]

数据集不同于其他类型的资源,因为它们是非竞争性资源,无法枯竭。一个实体对数据的使用不会减少其他实体使用数据的总可用性。它也是有条件的可再生,因为大多数数据随着时间的推移变得越来越没有用,并且可能变得过时。加勒特·哈丁的《公地的悲剧》一文说明了这样一个论点,即对有限资源的无限制获取和无限制需求最终会通过过度使用而毁灭资源。这是因为开发的利益归个人或团体,他们每个人都有动机最大限度地利用资源,直到他们变得依赖它,而开发的成本由所有可以使用该资源的人承担。数据集的性质通常排除了这种“悲剧”,因为它们不能被耗尽,因此避免了过度使用的情况。

社区行为
[编辑 | 编辑源代码]

科学实践有将科学发现作为事实上的公共产品的历史。同行评审的传统要求科学发现和主张必须经受同一领域其他科学家的审查。同行评审需要拥有访问用于生成被审查的主张的数据的专家。此外,科学家的总体规范行为往往倾向于更开放的环境。默顿的科学规范是罗伯特·K·默顿提出的一套理想,用于解释科学家应该如何表现以及如何进行科学实践。

  • 集体主义 - 科学发现的共同所有权,根据该原则,科学家放弃知识产权以换取认可和尊重
  • 普遍主义 - 根据该原则,对真理的主张是根据普遍或非个人标准进行评估的,而不是根据种族、阶级、性别、宗教或国籍进行评估的
  • 无私 - 根据该原则,科学家因以看似无私的方式行事而受到奖励
  • 有组织的怀疑 - 所有想法都必须经过检验,并经受严格的、结构化的社区审查 [3]

这些规范表明,让尽可能多的科学家能够访问原始数据符合科学进步的最佳利益。让多种观点对数据集进行分析有助于发现错误并防止重复已有工作,这可能产生重大成本。向科学和学术界提供新信息会带来声望,同时也满足了提供数据的实体的实际需求。

但是,不同科学学科之间重复使用数据的社区规范可能会有所不同。例如,生物科学长期以来一直拥有公开提供的数据库,科学家在其中贡献和汇总原始数据。使用望远镜和卫星等仪器来收集信息的学科通常利用社区提供的设备来跨一系列设施收集数据,因此具有尊重数据重复使用规范和政策。随着仪器越来越复杂,数据集越来越大,在共享这些大量数据方面存在实际的技术挑战。虽然由公共资金资助的发现传统上被置于公共领域,但私营企业越来越多地进行原创研究,并对数据施加一系列反映其商业根源的限制。此外,在为数据的特定显示创建的信息(数据库)与作为研究结果捕获的原始数据的集合(数据集)之间进行区分的难度,在浏览访问权和责任时造成了混乱和争议。

从历史上看,美国的知识产权法并不保护原始数据或事实,而是保护可能基于原始数据的发明和原创创作作品。例如,“可以为捕鼠器申请专利,但不能为老鼠行为的数据或钢材的抗拉强度申请专利。一篇科学文章可以获得版权;它所依据的数据则不能。”

美国法律还规定,联邦政府作品应立即发布到公共领域。即使作品因政府参与科学研究而获得版权,这也适用。联邦资助的科学研究旨在鼓励以成本或低于成本的价格广泛传播数据,因为人们相信,与州际公路系统一样,提供公共产品将产生经济效益。

私人资助的数据收集挑战在人类基因组计划期间得到了体现,当时一家名为塞莱拉基因组的私人公司宣布了他们对基因序列的专利意向。1996 年的百慕大协议是参与人类基因组测序的利益相关者的聚会,其制定了一套原则,以鼓励立即发布和公布测序结果,并将整个测序结果纳入公共领域。这项社区协议旨在促进科学的更大目标,以服务于更大的公共利益。塞莱拉采用了基因组测序的“鸟枪法”,其运营成本低于公共资助的人类基因组计划。这种竞争促使 HGP 加快速度,更高效地开展工作,但塞莱拉对其发现数据的权利主张却引起了争议。塞莱拉利用公共数据构建了他们的基因组,但他们不将其研究结果存入公共数据库,也不允许任何公共使用其数据。尽管塞莱拉公开表示同意百慕大原则,但他们还是提交了 6,500 项专利申请。此外,他们最初没有以允许其数据分发或再利用的许可证发布他们的研究成果。2000 年,比尔·克林顿总统宣布人类基因不可专利,必须免费提供。

许可

[edit | edit source]

詹姆斯·博伊尔将知识产权围栏描述为“将以前属于共同财产或可能完全不在财产体系之内的东西转化为私有财产”。[4] 基因组计划体现了关于如何在科学和知识产权领域对待数据和研究的私人/公共斗争。随着商业利益与传统的科学行为发生碰撞,在“围栏”中航行变得越来越困难。商业投资既有兴趣控制对其发现的访问,也有兴趣主张对其拥有的数据集或数据库的知识产权。此外,随着研究日益全球化,数据集越来越庞大,存在着合法的技术障碍,这些障碍通常由对提供基础设施有商业利益的实体来解决。收集和存储大量原始数据并非易事,私人投资期望这些风险能带来回报。保护这些利益通常采取的形式是许可协议,用于访问或限制数据的使用方式。

点击包装协议
[edit | edit source]

点击包装协议要求最终用户首先查看获取和使用他们尝试访问的数据的条件。然后,用户点击链接或按钮以接受协议条款,并被授予访问权限。该协议可能包含禁止在某些情况下使用数据或将数据与具有冲突许可证的数据组合在一起的条款。点击包装协议已在美国法院得到确认。

点击包装许可证在用户的计算机屏幕上显示一条消息,要求用户通过点击一个图标来表明他们同意许可协议的条款。除非点击图标,否则无法获取或使用该产品。例如,当用户尝试获取 Netscape 的 Communicator 或 Navigator 时,会弹出一个网页,其中包含 Communicator/Navigator 许可协议的全文。屏幕上清晰可见的查询是“您是否接受上述许可协议的所有条款?如果是,请点击“是”按钮。如果您选择“否”,安装程序将关闭。” 在此文本下方有三个按钮或图标:一个标记为“返回”,用于返回到下载准备的早期步骤;一个标记为“否”,如果点击,将终止下载;一个标记为“是”,如果点击,将允许下载继续进行。除非用户点击“是”,表示他们同意许可协议,否则用户无法获取该软件。

[5]

走向科学公地

[edit | edit source]

"一个庞大、漏洞百出的市场"

[edit | edit source]

“一个庞大、漏洞百出的市场实际上可能比一个规模小、控制力强的市场产生更多的收入。” - 詹姆斯·博伊尔 [6]

需要从多个数据库中获取数据的研究人员必须处理不同的、重叠的数据共享策略、协议和法律,这些策略、协议和法律可能会导致相互冲突的义务、限制和约束。这些协议不仅会阻碍研究,还会让数据提供者能够控制数据用户,不仅规定可以进行哪些研究以及由谁进行研究,而且规定可以发布或披露哪些数据、可以如何组合哪些数据,以及可以将哪些数据再利用以及用于哪些目的。科学家们越来越将这些障碍视为对严肃科学探究和实践的威胁。

迈克尔·赫勒描述了“反公地悲剧”,在这种情况下,权利持有者的这些相互冲突的利益与科学和社会进步背道而驰。这导致了稀缺资源的利用不足,因为太多权利所有者可以阻止其他潜在用户访问。 [7] 卡罗尔·M·罗斯将这种框架扩展到“公地喜剧”,这是一种由于许多人充分利用这些资源而导致社会自由获取的资源提供更多效用的情况。

实施开放获取数据的协议

[edit | edit source]

为了应对对大型数据集、互操作性和开放访问日益增长的担忧,科学公地与科学界利益相关者合作起草了一项协议,以使数据集能够互操作。结果就是实施开放获取数据的协议,该协议为有兴趣以开放访问的方式分发数据的个人提供信息,这些数据符合开放知识定义。该协议旨在为公共领域数据提供一个国际兼容的框架,因为不同的国家对科学发现的知识产权状况有不同的处理方式。 [8]

开放访问工具

[edit | edit source]

开放数据公地

[edit | edit source]
公共领域奉献和许可
[edit | edit source]

PDDL 是一种放弃所有数据权利并将数据纳入公共领域的方法。提供者放弃所有权利,包括署名权。他们可以选择附加一组社区规范,以建议用户行为。

开放数据库许可证
[edit | edit source]

该许可证类似于署名/相同方式共享,但适用于数据。

规范
[edit | edit source]

社区规范文档描述了一组非法律约束性的建议行为,数据用户应该遵守这些行为。这些行为可以自由忽略,但可能会导致其他人不愿与违反这些规范的人分享数据。提供者可以选择他们自己的一组规范来附加到他们的数据,而不是默认的一组建议。 [9]

知识共享:CC0 通用放弃

[edit | edit source]
File:Cc-zero.png
知识共享 CC0 徽标(仅供说明使用)

CC 零通用弃权(CC0)是一种旨在使研究人员能够以简单方式将其数据置于公共领域的工具。它由知识共享提供,是科学共享“实施开放获取数据协议”的结果。它旨在与国际知识产权法先例相兼容,以帮助确保它是一种可靠、可移植且合法的方式来放弃和/或确认作品的公共领域状态。对于将大型数据集投入 ProteomeCommons 等系统的提供者来说,这种弃权是有益的,因为它简化了他们授予开放访问的流程,并为这些数据的用户提供了一个明确的信号,说明了数据的预期用途。CC0 弃权基本上超出了版权的范围,授予与公共领域类似的使用权,并让位于社区规范行为以进行自我监管。像 ProteomeCommons 这样的系统有他们自己的内部激励机制来鼓励数据提供者积极的行为,例如将用于识别学术参考的唯一哈希值与原始许可证指定联系起来。

同样,CC0 许可依赖于用户按照基于社区的标准行事。由于将 CC0 应用于数据集是单行道,不需要归属,因此其他人可以随意使用、混搭或改编这些材料,而无需归属原始数据提供者。但是,知识共享确实指出,提供者可以根据社区规范和标准请求归属。通过删除其他 CC 许可证中存在的归属要求,上游数据的使用不会因确保所有可归属数据的用途都得到适当归属或引用而复杂化,以符合非公共领域许可证。

CC0 1.0 通用 / 无版权将作品与本文件关联的人员已通过放弃其在版权法下对该作品的所有权利以及其在该作品中拥有的所有相关或邻接权利,将其作品献给公共领域,在法律允许的范围内。

CC Zero 适用于数据,但也可用于受版权保护的任何类型的内容。CC Zero 以三种方式表达

  • 人类可读摘要
  • 法律代码
  • 机器可读的数字标记代码

案例研究

[edit | edit source]

蛋白质组学是对蛋白质的大规模研究,特别是它们的结构和功能。蛋白质是生物体的基本组成部分,因为它们是细胞生理代谢途径的主要组成部分。蛋白质组学通常被认为是基因组学之后生物系统研究的下一步,但它有自己的挑战,因为蛋白质组因细胞而异,也因时间而异。DNA 在化学和物理方面都比蛋白质更简单。在收集蛋白质组学数据时,使用的分析技术和仪器也更多,这导致更大的、更复杂的数据库。这些分离的蛋白质或肽片段的识别通常是通过质谱测量来实现的。将从不同平台和仪器收集的数据进行聚合和整合是蛋白质组学领域的一大挑战,这导致了系统的开发和社区标准的制定以解决这些需求。

ProteomeCommons.org 由 Jayson Falkner 博士和 Pete Ulintz 博士在密歇根大学 Phillip Andrews 博士的实验室创建,以帮助解决其中一些挑战。该网站使用 Tranche 分布式平台以适合出版的方式永久存储科学数据。该服务提供了使用通用标准对数据进行注释、管理项目以及轻松地将许可条款或弃权应用于数据上传的功能。ProteomeCommons 已将 CC0 弃权作为默认选项,以促进科学界的数据共享。

ProteomeCommons.org Tranche 网络是早期采用者之一。我们的目标是尽可能消除科学数据共享的障碍,以促进新发现。知识共享 CC0 弃权被纳入我们的上传选项作为默认选项,以帮助实现这一目标。通过提供一个将数据发布到公共领域的简单选项,CC0 消除了许可和限制的复杂障碍。这使研究人员能够专注于最重要的内容,即他们的研究和新发现。Philip Andrews 博士 [10]

通过将 CC0 作为默认使用条款,ProteomeCommons 消除了使用和引用其 Tranche 网络中存储的数据的科学家的许多不确定性。CC0 声明数据可以在上游使用,而无需担心处理复杂的许可和使用协议。此外,存储系统的设计并非作为数据库,而是作为与文件格式和结构无关的数据存储系统;它可以接受任何类型的数据集作为原始数据。这减轻了数据库演示中固有的创意表达的可能性。

Tranche 项目

[edit | edit source]
文件:Tranche fractal small.png
Tranche 分形

ProteomeCommons.org 建立在 Tranche 软件平台之上,主要存储串联质谱蛋白质组学数据。Tranche 项目主要由密歇根大学开发和支持,但它以免费和开源软件的形式提供。任何人都可以参与代码的开发并随意使用它。Subversition 存储库位于 Source Forge

安全存储
[edit | edit source]

Tranche 通过使用安全的分布式文件系统来解决数据共享问题,数据被切分成小块(1MB)并在世界各地的许多服务器之间共享。每个文件在服务器上至少复制 3 次,这允许更快的分布式下载和更高的冗余性,以防服务器实例出现故障,因为服务器实例可以出现故障,而对整个网络的影响很小。文件损坏或丢失的风险大大降低,并且可以通过分布式系统的“自我修复”特性进行修复。

安全性由 256 位 高级加密标准 (AES-156) 加密的哈希代码提供,以确保数据完整性。这种加密允许用户知道谁将数据发布到系统,并防止非法数据被发布和共享。数据提供者能够安全地与他人私下共享数据,如果他们还没有准备好公开发布数据。

引用
[edit | edit source]

在使用像 Tranche 这样的系统时,学术出版的标准化、可靠引用的重要性是一个关键问题。科学家必须确信,对存储在 ProteomeCommons.org 上的任何数据的引用都是唯一且持久的,以便其他科学家可以引用和审查他们的数据。为了解决这个问题,Tranche 系统使用 校验和 生成他们称之为“Tranche 哈希”的东西。哈希为数据提供了一个静态的、有意义的、持久的引用,可以用作永久引用并验证数据本身的完整性。

  • 哈希基于数据本身。它不是一个任意的 URL。
    • 任何拥有数据的人都可以使用哈希来验证数据是否与发布的数据相同。
    • 软件结果更具可重复性,因为您将知道自发布以来软件或数据是否已更改。
    • 网络上的任何服务器都可以根据其哈希值查找数据。
  • 哈希不会改变。您永远不会有“断开的链接”,这在 URL 中经常发生。
  • 哈希基于标准算法 - 没有新的引用方案。
  • 您有多种选择来下载数据,因为网络不受限于 HTTP 和 Web 浏览器。
  • 您还可以使用许多其他工具(包括自定义程序)从网络下载数据。 [11]

哈希还用于传达提供数据集的许可证。贡献者可以选择其数据集的许可条款,这些条款在生成哈希时包含在内。如果这些条款在任何时候发生更改,哈希本身将被重新生成以合并这些更改。 [12] 这样做是为了强化开放和一致的数据共享许可和行为的社区规范。此外,Tranche 系统与许可证无关,它鼓励使用 CC0 许可证进行数据共享。如果提供者决定在任何时候更改此许可证,哈希将更改,从而断开他们存储在系统中的数据的链接。由于数据提供者通常是第一个在出版物中引用他们提供的数据的人,因此这种行为对于提供者来说是一种创新,让他们能够诚实和一致地使用其数据许可条款。


参考文献

[edit | edit source]
  1. The Second Enclosure Movement and the Construction of the Public Domain. Boyle, James.
  2. ScienceCommons.org: Towards a Science Commons
  3. Mertonian Norms
  4. The Second Enclosure Movement and the Construction of the Public Domain. Boyle, James.
  5. Specht v. Netscape Communications Corp.
  6. The Second Enclosure Movement and the Construction of the Public Domain. Boyle, James.
  7. Heller 等人。专利是否会阻碍创新?生物医学研究中的反公共地。科学新系列 (1998) 第 280 卷 (5364) 第 698-701 页
  8. 实施开放获取数据的协议
  9. [1]
  10. 知识共享博客:扩展公共领域:第零部分
  11. Tranche 项目:关于
  12. [2]Tranche 和开放获取数据库协议:Tranche 哈希值
华夏公益教科书