跳转到内容

K-12 学校计算机网络/第 27 章

来自维基教科书,开放世界中的开放书籍

有效利用搜索引擎

[编辑 | 编辑源代码]

随着互联网的发展,万维网彻底改变了信息的可获得性和访问方式。数十亿个网页可以通过搜索引擎浏览。人们通常打开“谷歌”或“雅虎”来查找他们想要的东西。对于学生来说,他们习惯于依靠搜索引擎来帮助他们的家庭作业。然而,虽然每个学生现在似乎都知道如何使用互联网,但现实是,很少有人知道如何有效地进行学术目的的搜索。他们经常迷失在大量信息中,最终这种缺乏训练会导致糟糕的学校作业。

此外,学生倾向于依赖简单的谷歌搜索。他们不知道:(1)搜索引擎如何确定其结果并对结果进行排名,(2)哪些来源更相关和可信,以及(3)除了谷歌之外,还有哪些专门的搜索引擎存在用于收集可靠的信息。本条目将概述搜索引擎,并介绍一些搜索技巧。技术协调员、教师和图书管理员可以进行互联网搜索研讨会,让学生学习如何使用一些独特的搜索引擎来找到他们问题的答案。

搜索引擎

[编辑 | 编辑源代码]

本部分介绍了一些关于搜索引擎的基础知识。

什么是搜索引擎

[编辑 | 编辑源代码]

网络搜索引擎是旨在搜索万维网信息的工具。搜索结果通常以列表形式呈现,通常被称为匹配项。信息可能包括网页、图片、信息和其他类型的文件[1]

搜索引擎是免费的。您无需为任何搜索引擎付费。有 20-30 个主要搜索引擎,例如谷歌、雅虎、Windows Live。但是,没有一个搜索引擎可以一次搜索整个网络。有效地使用搜索引擎并非易事。您需要花费时间并使用不同的搜索引擎进行练习,才能知道哪个最适合您的特定搜索。

搜索引擎是如何工作的

[编辑 | 编辑源代码]

当搜索引擎运行时,它按照以下顺序执行:网络爬取、索引和搜索。网络爬虫或蜘蛛(一种自动网络浏览器,它会跟踪它所看到的所有链接)会定期检索数十万个网页。网络爬虫将初始 URL 集放入优先级队列中,并获取要下载网页的下一个 URL。之后,它将提取下载页面中的所有 URL,并将新 URL 放入队列中,并重复此过程。但是,随着某些网站中 robots.txt 的出现(一个文件,它定义了每个页面的内容应该如何索引),有一些例外。搜索引擎将根据机器人文件中的要求有条件地搜索该网站。

在爬取之后,有关网页的数据将存储在索引数据库中,以便将来查询请求。不同的搜索引擎具有不同的算法来对数据库中的网页进行排名。它们将考虑信息的相关性、可靠性和受欢迎程度,并始终优先考虑主要网站和快速变化的网站。当用户在搜索引擎中输入查询时,引擎会检查其索引数据库并提供最佳匹配网页列表。列表中的项目通常包含一个简短的摘要,其中包括文档的标题及其内容的一部分,以及指向此特定网站的 URL。大多数搜索引擎支持使用布尔运算符(AND、OR 和 NOT)来进一步指定搜索查询。一些搜索引擎还提供高级搜索来自定义搜索过程。

元搜索引擎

[编辑 | 编辑源代码]

没有一个搜索引擎可以覆盖整个网络。但是,有没有可以同时搜索多个引擎的搜索引擎?答案是元搜索引擎。

元搜索引擎是一种特殊的引擎,它将用户请求发送到几个其他搜索引擎,并将结果聚合到一个列表中,或根据其来源显示它们。元搜索引擎使用户能够输入一次搜索条件,并同时访问多个搜索引擎。

元搜索引擎本质上不是真正的搜索引擎。它没有编译物理数据库或网络目录。相反,它接受用户请求,将其传递给几个其他数据库,然后根据特定算法以同质方式编译结果。最著名的元搜索引擎是 Dogfile。

搜索引擎优化

[编辑 | 编辑源代码]

搜索引擎优化 (SEO) 在当今的网络中成为热门话题。它是通过“自然”搜索结果(与付费结果相比)从搜索引擎中提高网站流量质量的过程。SEO 是搜索引擎营销 (SEM) 的一部分。SEO 专家会考虑搜索引擎的工作原理以及人们搜索的内容。优化网站将包括编辑其内容、重新设计其结构以及改进其 html 代码,以提高其与特定关键词的相关性。

如何有效搜索

[编辑 | 编辑源代码]

本部分将介绍一些增强学生搜索能力的特定技能。

搜索引擎布尔运算符一览

[编辑 | 编辑源代码]

大多数搜索引擎和数据库使用布尔运算符来创建搜索查询。布尔运算符包括 AND、OR 和 NOT。“AND”要求这两个词都应出现在检索到的项目中。“OR”要求这两个词中的任何一个出现在检索到的项目中,而“NOT”则排除一个词。使用适当的布尔运算符可以加快搜索过程并准确地定位搜索对象。

有关更多信息,请查看 Google 搜索基础[2]

[编辑 | 编辑源代码]

可以通过搜索引擎的高级搜索链接进行高级搜索。谷歌和雅虎!这两个最受欢迎的搜索引擎都支持高级搜索。我们可以直接从搜索引擎的首页访问高级搜索页面。在该页面中,我们可以设计我们的查询并使其更有针对性,而无需了解任何搜索语法。例如,我们可以要求搜索结果的内容包含或不包含某些单词;或者将所有搜索结果限制在特定语言中。此外,我们可以定义搜索结果的类型 - 所有结果都采用单词、pdf、powerpoint 或 excel 格式。对于学生来说,如果他们想找到一些在线学习材料,最好搜索扩展名为 ppt 和 pdf 的文档,因为大多数课堂讲义都是由 Microsoft Powerpoint 和 Adobe Acrobat 生成的。这些文件通常很有用。

如果我们知道要搜索的文件类型,也可以使用 Google 或 Yahoo! 中的特定搜索页面,例如 Google 图片、Google 视频和 Google 图书。

如果我们想要搜索一些学术信息,谷歌学术[3]将是一个有用的工具。它将搜索来自学术来源的信息,包括大学(.edu 网站)、研究中心(NASA、RAND 等)、政府、期刊和图书出版商、图书馆馆藏和数字材料(电子预印本、电子书)。

设计搜索查询

[编辑 | 编辑源代码]

由于搜索结果基于查询,查询语句越精确,找到的相关资料就越多。最常见的搜索陷阱是搜索范围过广。为了缩小范围并提供特定的搜索查询,首先我们应该了解主题并知道我们在寻找什么。然后尝试根据这些知识制定专门的查询。不要忘记使用布尔运算符,并使用引号将搜索限制在确切的短语中。虽然搜索引擎会优先查找确切的短语,但使用引号可以进一步限制搜索。最好从现实情况开始搜索,并准备好随时更改查询。也就是说,如果所需的结果没有出现在前十或二十个搜索结果中,请制定一个新的查询并再次搜索,然后制定另一个查询,再制定另一个查询。

如何评估搜索结果的可靠性

[编辑 | 编辑源代码]

由于任何人都可以在网上发布任何内容,因此在网上查找信息有时就像当一名警探。有些网站将被证明是可靠的,而另一些网站则有不良动机。请记住,信息只有与来源一样好。我们应该知道如何评估信息的完整性和识别相关且可靠的来源。

当我们通过搜索引擎访问“所需”文档时,尝试找到以下问题的答案:作者或赞助商是谁?他们有什么权力?页面的目的是什么?有一些技巧可以帮助我们评估特定网站/页面的可靠性。

  1. 它是否包含作者的个人简介?是否有一些关于该机构的信息?
  2. 该来源可以联系吗?它们是否信誉良好?
  3. 波浪号(~)可能表示个人页面,它始终包含一些有用的信息。
  4. 检查 URL 的域名部分
      .com(商业) - amazon.com,可能会尝试销售某些东西
    • .edu(教育) - tc.edu,更可靠,可能是严肃的研究,但也可能是一个学生课堂项目 
    • .gov(政府) - uscis.gov,通常可靠 
    • .mil(军事)– 通常可靠 
    • .net(网络)– 可能为客户提供服务 
    • .org(组织)– unicef.org,通常是非营利机构,但有时可能存在偏见
  5. 页面创建或上次更新的日期是什么?有些信息明显过时了吗?页面中的链接是否有效?
  6. 检查内容的准确性:是否存在任何偏差,事实是否可以验证,是否存在来自官方来源的引用,其他人对作者或组织有何评价?
  7. 页面的受众是谁?它是针对公众还是针对特定群体(例如学者或青少年)?
  8. 页面的语气是什么(严肃还是幽默)?
  9. 如果可能,请尝试比较和对比来自其他来源(印刷和在线)的相关信息。

无论如何,请小心对待网络信息。学会检查假设和可能的偏见,区分事实和观点。批判性思考,不要走捷径。

主要搜索引擎

[编辑 | 编辑源代码]

四大搜索引擎是 Google、Yahoo、Ask.com 和 Windows Live。它们都不是全面的。他们的结果往往有很大重叠,但仍然有很多是独一无二的。每个搜索引擎都有不同的排名标准,因此结果排序不同。

    Google,最大的索引;以其排名系统 - PageRank 而闻名;拥有高级搜索功能
  • Yahoo,Google 最大的竞争对手;根据受欢迎程度和相关性对结果进行排名;包含指向目录的链接;拥有高级搜索功能
  • Ask.com,根据“主题特定流行度”对结果进行排名;在运行初始搜索后可以选择高级搜索
  • Windows Live,野心勃勃;在运行初始搜索后可以选择高级搜索

了解错误消息

[编辑 | 编辑源代码]

我们经常被重定向到错误的链接。我们对此感到厌烦,但无能为力。了解这些常见错误背后的原因可能会让我们感觉好些。

    错误 400:错误的请求
  • 错误 401:未授权
  • 错误 403:禁止
  • 错误 404:未找到
  • 错误 500:服务器内部错误

在网上搜索没有正确与错误之分。衡量搜索是否成功的唯一有意义的标准是尽快获得您想要的结果。所有搜索引擎的工作方式都不相同。您在互联网上查找所需信息的能力取决于您的查询的精确程度以及您使用搜索引擎的有效性。

判断对错

  1. 所有搜索引擎都使用相同的排名算法。
  2. 元搜索引擎的原理与通用搜索引擎不同。
  3. 来自组织网站(.org)的信息比来自商业网站(.com)的信息更可靠。
  4. 最好使用广泛的查询,因为它可以找到更多结果。

简答题

  1. 搜索引擎的一般排名算法是什么?
  2. 如何使用搜索引擎查找 powerpoint 和 pdf 格式的文档?
  3. 搜索引擎的两种类型是什么?
  4. 如何评估网站的可靠性?

判断对错:错、对、错、错

简答

  1. 不同的引擎工作方式不同。没有通用的排名算法。Google 使用 PageRank 对结果进行排名。Yahoo 根据受欢迎程度和相关性对搜索结果进行排名。Ask.com 使用“主题特定流行度”对结果进行排名。
  2. 使用 Google 或 Yahoo! 首页中的高级搜索链接。您也可以在查询中添加搜索语法,例如:美国历史 文件类型:pdf。
  3. 关键词搜索引擎和目录搜索引擎。
  4. 单击此处了解更多有关网络信息评估的信息。

参考文献

[编辑 | 编辑源代码]

Alexander Halavais。搜索引擎社会。政治出版社。2009 年。
Sandy Berger。互联网伟大时代指南。Que 出版社。2005 年。
http://en.wikipedia.org/wiki/Search_engine
http://en.wikipedia.org/wiki/Metasearch_engine
http://federatedsearchblog.com/2009/03/02/on-credibility-of-search-results/
http://www.mediapost.com/publications/?fa=Articles.showArticle&art_aid=101971
http://www.seochat.com/
搜索引擎优化

华夏公益教科书