跳转到内容

开放元数据手册/开放元数据

来自维基教科书,开放世界中的开放书籍

开放意味着什么?

[编辑 | 编辑源代码]

“一项内容或数据是开放的,如果任何人都可以自由使用、重用和重新发布它——最多只受归属和相同方式共享要求的约束。”

元数据是开放的,如果它满足以下条件

  1. 访问:它应公开访问,最好通过互联网,并且免费(或以合理的复制成本)。
  2. 重新发布:任何人都应该能够自由地重新发布它,无论是作为它本身,还是作为从许多不同来源派生的更广泛数据集的一部分。
  3. 重用:它应该可以修改或合并到派生数据集中,这些数据集可以以与原始数据集相同的条款分发。
  4. 没有技术限制:它应以这样的形式提供,即没有技术障碍来执行上述活动。
  5. 归属:作为重新发布和重用它的条件,可能需要提供相关贡献者和创建者的归属。
  6. 完整性:作为以修改后的形式发布元数据的条件,可能需要由此产生的数据集带有不同的名称或版本。
  7. 不歧视个人或群体:它不应歧视任何个人或个人群体。
  8. 不歧视工作领域:它不应阻止任何人利用元数据在特定工作领域。
  9. 许可证分发:附带的权利应适用于所有重新分发它的人,而无需这些方执行额外的许可证。
  10. 许可证不应特定于一个包:附带的权利不应取决于作品是否属于某个特定包。
  11. 许可证不应限制其他作品的分发:对与许可数据集一起分发的其他作品没有任何限制。

有关详细信息,请参见 http://opendefinition.org


为什么开放元数据?

[编辑 | 编辑源代码]

图书馆、出版商、大学、学者或社会参考管理社区等书目数据的生产者在支持人类知识的进步方面发挥着重要作用。为了让社会从书目事业中获得全部利益,书目数据必须开放——即任何人都可以自由使用和重用它用于任何目的。

许多司法管辖区的法律保护着大量的数据(或元数据)集合,因此不能自由使用或重用。因此,至关重要的是,它们在发布时应附带明确的声明,说明发布者对整个数据集合、集合子集或单个书目描述的使用和重用的意愿和预期。

对商业重用或衍生数据集生产的限制,使得有效地整合和重用特定数据集变得不可能。它们还阻止了可能为书目数据增加价值的商业服务的部署,或可用于支持数据保存的商业活动的部署。

为了让元数据能够被他人有效地使用和添加,它应该按照开放定义 (http://opendefinition.org) 的定义开放——特别是,不应使用非商业条款和其他限制性条款。建议使用公共领域奉献许可证或知识共享零免责声明,以促进元数据的最大程度重用,符合公共资助的文化遗产部门内共享的一般精神。

有关详细信息,请参见开放书目原则,网址为 http://openbiblio.net/principles

法律问题

[编辑 | 编辑源代码]

法律的默认立场

[编辑 | 编辑源代码]

许多国家的法律禁止第三方未经明确许可使用、重用和重新发布数据。

在欧洲, sui generis 数据库权利是通过 1996 年 EC 委员会关于数据库法律保护的指令实施的,该指令定义为“以系统或有条理的方式排列的独立作品、数据或其他材料的集合,并且可以通过电子或其他方式单独访问”。只要一组数据符合数据库的定义,它将有资格获得保护(无论它是否也从版权中获益),只要对获得、验证或展示数据库的内容进行了“重大投资”。如果有人未经所有者同意提取或重新利用受保护数据库的所有内容或大部分内容,则构成侵犯数据库权利。与版权一样,数据库权利是自动权利,只要数据库以记录形式存在,就存在。数据库权利从数据库完成制作之年的年底算起持续 15 年(或者,如果在该期间内出版,则从数据库首次向公众提供的年份的年底算起持续 15 年)。如果数据库的内容发生了重大变化,则 15 年的保护期重新开始。

美国没有数据库权利。虽然数据库可以在美国版权法中作为汇编获得保护,但基础数据不会自动获得保护。虽然数据库所有者一直在游说引入这种权利,但研究图书馆、消费者团体和从免费使用事实信息中获益的公司成功地游说阻止了它。

在没有法定数据库权利的情况下,可以通过合同方式或依靠其他法律来保护非版权数据集合。在美国,“不正当竞争”和“盗用”原则已被用于保护数据库制造商免受竞争对手的损失,这些竞争对手通过重新发布需要很长时间来获取或创建的作品而搭便车。

因此,即使在数据库权利的存在尚不确定的地区,为了明确起见,应用许可证也很重要。

开放许可

[编辑 | 编辑源代码]

我们建议使用符合开放定义并被标记为适合数据的许可证之一。这些包括

  • 开放数据公社公共领域奉献和许可 (PDDL):奉献给公共领域(放弃所有权利)
  • 开放数据公社署名许可:数据(库)的署名
  • 开放数据公社开放数据库许可 (ODbL):数据(库)的署名-相同方式共享
  • 知识共享 CCZero:奉献给公共领域(放弃所有权利)

更全面的列表(以及使用说明)可以在以下网址找到:<http://opendefinition.org/licenses/>

开放数据公社网站上有一份关于申请开放数据许可证的简短 1 页说明指南:<http://opendatacommons.org/guide/>

技术问题

[编辑 | 编辑源代码]

可访问性

[编辑 | 编辑源代码]

开放元数据并不保证数据会被使用(或看到)。在开放许可下公开发布元数据只是第一步。下一步是使其在技术上可访问。否则,数据存在被利用不足的风险。

开放书目元数据必须对所有人可用,不得歧视任何个人或群体。它应以不超过合理的复制成本提供,以防止财务歧视。它应该以整体形式通过互联网下载,而不应仅仅根据请求提供。

有几种机制限制对数据的访问。这些机制包括

  • 编译在数据库或网站中,只有注册会员或客户可以访问。
  • 提供单个数据点,而不是表格查询或数据集的批量下载。
  • 对资源的有限时间访问,而不是对它们的无限时间访问
  • 限制机器人访问网站,优先考虑某些搜索引擎

互操作性

[编辑 | 编辑源代码]

互操作性是指不同系统和组织能够协同工作(互操作)。在允许不同标准协同工作的范围内,互操作性指的是将不同的数据集组合在一起,以开发更多更好的产品和服务的能力。关于书目数据,重要的是记录能够自由地与包含补充信息的另一个记录混合在一起。从不同来源“拼凑”不同数据集的能力对于构建大型、综合数据库至关重要。拥有大量数据集,但没有或很少将它们组合成更大系统的能力是没有意义的,而这正是真正价值所在。

互操作性意味着使用“开放标准”:向公众开放的标准,通过协作的共识驱动过程开发和维护。这些标准旨在广泛采用,它们促进不同数据集之间的互操作性和数据交换。

几种机制会降低数据的互操作性。它们包括

  • 使用专有或封闭的技术或加密,这会造成访问障碍。
  • 许可限制数据在可能使其与其他数据集不兼容的特定条件下重用(例如许多类似共享许可)

可重用性

[编辑 | 编辑源代码]

每个人都应该能够使用、重用和重新发布开放的书目元数据。不应该歧视任何领域或个人或群体——例如“非商业”限制,这些限制会阻止“商业”使用或限制某些用途(例如,仅限于教育)。

数据还必须以方便且可修改的形式提供。书目信息通常以不允许多次修改的格式提供给公众(例如,锁定在 PDF 文件中)。开放的书目元数据应该以非专有格式编码,这种格式可以被机器理解,易于修改,并且结构化,以便于对数据的自动处理。

几种机制限制了数据的重用。它们包括

  • 以无法被计算机自动理解的格式编码数据
  • 禁止(或混淆)数据重用的许可(例如教育或非商业许可)

案例研究

[编辑 | 编辑源代码]

http://obd.jisc.ac.uk/examples

欧洲数字图书馆

[编辑 | 编辑源代码]

欧洲数字图书馆的目标是尽可能广泛地访问文化遗产,并授权其他人构建服务,以促进这一使命。因此,将数据公开提供给公共和私营部门是其商业战略的核心。欧洲数字图书馆还试图通过提供更丰富的数据来提供更好的服务,其中数百万文本、图像、视频和声音链接到其他相关资源。

因此,欧洲数字图书馆一直对链接开放数据感兴趣,因为它是一种促进这些目标的技术,正如W3C 图书馆链接数据报告所强调的那样,它对文化部门非常重要。去年,它在data.europeana.eu发布了第一个链接数据试点项目。这是一个从技术角度玩转链接数据的机会。第一个原型部署得相当容易(参见这篇技术论文)。元数据是使用欧洲数字图书馆数据模型 (EDM) 发布的,这是欧洲数字图书馆对元数据方法的关键演变。data.europeana.eu 提供来自欧洲数字图书馆的丰富元数据,不同于原始元数据。它还与其他链接数据源相连,例如地名。虽然可以通过其他渠道发布此类数据,但语义网和链接数据技术提供了一种更精细、更本地化的方式——链接只是数据模型的一部分。

data.europeana.eu 仍然不是主要 europeana.eu 门户网站背后的生产系统的一部分。更重要的是,元数据不是明确开放的,这显然是重用的障碍。

经过几个月的努力,我们发布了第二个版本。虽然它仍然是一个试点项目,但它现在包含完全开放的元数据(CC0)。然而,这仅适用于欧洲数字图书馆提供访问权限的少数对象:在 2012 年 2 月,data.europeana.eu 包含有关 240 万个对象的元数据。这些对象来自数据提供者,他们对欧洲数字图书馆促进更多开放数据的努力做出了早期反应。希望第三方将使用这个子集来开发创新应用程序和服务。这当然将有助于说服更多合作伙伴在未来公开贡献元数据。


背景

剑桥开放元数据项目 (COMET) 是剑桥大学图书馆和剑桥大学 CARET 之间的合作,得到了 OCLC 的协助。它从 2011 年 2 月持续到 7 月,由 JISC 资源发现基础设施项目资助。它紧随图书馆对开放书目项目的成功贡献。最初的目标是在公共领域贡献许可下将大量记录集发布到外部平台,最初为 MARC 21。该项目还旨在部署、测试和使用多种技术和方法来发布开放的书目数据,包括 XML、RDF、SPARQL 和 JSON,并测试与权威控制服务的集成。

主要成果

  • 用于分析 Marc21 记录所有权代码(以便帮助进行许可分配)并转换为 RDF 的开源软件。还构建了开源 RDF 发布工具集。
  • 超过 200 万条书目记录作为 RDF 三元组,许多可以通过 SPARQL 端点搜索

影响

剑桥大学图书馆发布数据,部分原因是读者日益增长的期望,即“一切都是开放的”。图书馆正在作为开放书目项目的合作伙伴,以及参与两个其他 JISC 资助的项目,帮助其他图书馆发布开放数据并在其之上开发服务。

COMET 成功地在可重用形式下快速发布了大量数据。一些构建的工具和方法后来被应用于开放教育项目,尤其是 COMET 对知识产权消除歧义的方法。

JISC 在其总结和综合工作中也注意到了 COMET 对 PDDL 许可数据的偏好。根据 OCLC 的要求,部分 OCLC 数据以 ODBc-By 许可发布。该项目为检查两种选项的优缺点提供了宝贵的用例。

更多信息

项目博客 - http://cul-comet.blogspot.com/ 数据集 - http://data.lib.cam.ac.uk 项目代码 - https://github.com/edchamberlain/COMET

华夏公益教科书