语义网/学术化语义网
不幸的是,语义网社区中存在着学术和企业思维的氛围,这导致了“学术化语义网”一词的出现,以及大量错误/虚假信息和不必要的炒作的传播。请注意,本文件旨在帮助澄清人们可能对语义网的一些常见误解。
例如,几乎所有 RDF 的初学者都会经历一种“身份危机”阶段,他们会将人与他们的名字混淆,将文档与它们的标题混淆。例如,常见的语句如下:
<http://example.org/> dc:creator "Bob" .
然而,Bob 只是一个字面字符串,那么字面字符串怎么能写文档呢?作者真正想表达的是:
<http://example.org/> dc:creator _:b . _:b foaf:name "Bob" .
也就是说,example.org 是由一个名叫“Bob”的人创建的。像这样的提示正在慢慢收集,其中一些被展示在 SWTips 指南中,该指南是作为协作开发项目维护的语义网提示和技巧的集合。
教育和推广
从某种程度上来说,从“学术化语义网”向更大众化的方向发展,是将语义网的力量带给人们的一种运动的一部分。这是一个有据可查的需求:
[...] 认为上面提到的 URI 揭示了一种以某种方式完全描述了这种语言的模式,并且它非常简单(只有两个 {数一下,只有 2 个} 可能的“语句”),但看起来像是飞往火星的食谱有点令人望而生畏。它本身的简单性使其能够评估和报告几乎所有内容 - 从文档到语言再到指南!它是语义网的一个基本工具,因为它赋予了“权力于人民”,他们可以对任何事物说任何话。 - EARL for dummies,William Loughborough,2001 年 5 月 |
RDF Schema 和 DAML+OIL 通常是需要学习的语言,但是,为了适应那些既没有时间也没有耐心去学习这些语言,但又想创建语义网应用程序的人,人们都在做什么呢?值得庆幸的是,许多语义网应用程序将是低端应用程序,因此您不需要了解 RDF,就像 Amaya 需要了解 (X)HTML 一样。信任和证明
语义网架构的下一步是信任和证明。关于这一层的描述很少,这很可惜,因为它在未来将变得非常重要。
现实情况是,最简单的解释是:如果一个人说 x 是蓝色的,而另一个人说 x 不是蓝色的,难道整个语义网不会崩溃吗?
答案当然是否定的,因为 a) 目前语义网上的应用程序通常依赖于上下文,以及 b) 因为未来的应用程序通常将包含证明检查机制和数字签名。上下文
语义网上的应用程序通常会依赖于上下文,让人们知道他们是否信任数据。如果我从朋友那里获得关于他看过的电影以及他对这些电影的评价的 RDF 提要,我知道我信任这些信息。此外,我可以利用这些信息并安全地信任它来自他,然后由我自己判断我对他所评论的电影的评价有多信任。
人们也会在共同的上下文中运作。如果一个小组正在开发一个语义网描述服务,记录人们是谁、他们的名字是什么,以及他们照片在哪里,那么我对该小组的信任取决于我对该小组运营人员的信任程度,他们不会做出虚假声明。
因此,上下文是一件好事,因为它让我们能够在本地和中等规模上直观地运作,而不必依赖于复杂的认证和检查系统。但是,当我们认识一个方,但我们不知道如何验证某个 RDF 数据堆是否来自他们时,会发生什么?这就是数字签名发挥作用的地方。
一般来说,存在小型和大型系统,两者之间的交互很可能构成语义网发生的事务的很大一部分。让我们定义一下我们所说的大型、中等和小型系统。
大型系统
大型系统的例子是两家公司正在进行合并,需要合并他们的数据库。另一个例子是搜索引擎根据大量数据汇集结果。大型语义网系统通常涉及大型数据库,并且需要强大的推理规则和处理器来处理这些数据库。中等规模
中等规模的语义网系统试图从大型语义网系统中获取意义,或者作为小型语义网系统的例子,它们结合在一起。前者的例子是,一家公司试图部分理解两种大型发票格式,以便将它们一起使用。后者的例子是,两个通讯簿语言组试图创建一种超级通讯簿语言。
小规模
小型语义网系统讨论得较少。所谓小型语义网系统,指的是主要离线使用的语言,或者只在有限范围内传输的数据堆,可能在朋友、部门之间,甚至在两家公司之间。
在本地级别共享数据是一个非常强大的例子,说明语义网如何在无数情况下发挥作用。在下一节关于演化的部分,我们将了解不同规模的系统之间的交互将如何构成语义网的关键部分。SEM - 语义记忆
语义记忆的概念最初是由 Seth Russell 提出的,他建议将个人从“其余”语义网(一种语义云)中收集的 RDF 数据库转储作为维护数据一致视图的必要条件。例如,SEM 最有可能被划分为对整个语义网固有的数据(即主要语言的模式,如 XML RDF、RDF Schema、DAML+OIL 等),对于任何可能正在运行的语义网应用程序来说很重要的本地数据(例如关于 CWM 逻辑命名空间的信息,目前已内置),以及个人一直在使用、发布或以其他方式输入 SEM 根上下文中的数据。
SEM 的内部结构很可能远远超出 RDF 的通常的三元组结构,可能扩展到四元组甚至五元组。额外的字段用于上下文(StID),以及可能的序列。换句话说,它们是在 SEM 中分组信息的方法,以便于维护和更新。例如,应该很容易删除通过删除具有特定 StID 的所有三元组来添加到特定上下文中的任何三元组。
许多关于语义网的工作集中在使数据存储(即 SEM)互操作,这很好,但导致对 SEM 本身实际发生的事情的研究较少,这不好,因为四元组和五元组在 RDF 中的表示因此悬而未决。b 开发人员在这个阶段进行调查。