ETD 指南/技术问题/全文
外观
当 ETD 的所有文本都可供搜索时,据说数字图书馆系统支持全文搜索。用户可以提交查询,要求包含特定短语、单词、类别或词干的文档出现在文本中的任何位置(例如,在段落中间,或作为图表的标题的一部分)。
在全文搜索中,通常可以指定查询词出现在同一段落、同一句话中,或彼此相邻的n个词内。这些细化可以与对精确或近似短语和/或单词匹配的支持一起使用。
为了使全文搜索有效,必须分析整个文档,并用于构建索引,以加快搜索速度。这可能需要相当大的索引空间,通常约为文本本身大小的 30%。此外,这种搜索可能会导致精度降低,因为可能会找到仅偶然提及某个主题的文档,而文档的大部分内容是关于其他主题的。另一方面,全文搜索可能会提高召回率,因为可以找到未被分类为关于某个特定主题的作品。此外,全文搜索通常会生成文档中的段落,因此人们可以找到可能相关的段落,而不仅仅是找到一个必须扫描以确定相关性的文档的指针。
下一节:SGML/XML 概述