知识产权与互联网/搜索引擎
搜索引擎是一种软件系统,旨在搜索互联网网页上的信息。服务的响应通常以垂直列表形式呈现,通常称为结果页面。信息可能是网页、图像、视频、地图和其他类型的文件的混合。一些搜索引擎还会从公共数据库或开放目录中挖掘数据。与仅由人工编辑维护的网页目录不同,搜索引擎还会通过运行网络爬虫来维护实时信息,网络爬虫会将其搜索算法应用于它找到的所有新网页和已更改网页。一般来说,无法被网络搜索引擎搜索的互联网内容被称为“深层网络”。
年份 | 引擎 | 当前状态 |
---|---|---|
1993 | W3Catalog | 不活跃 |
Aliweb | 不活跃 | |
JumpStation | 不活跃 | |
万维网蠕虫 | 不活跃 | |
1994 | WebCrawler | 活跃(聚合器) |
Go.com | 不活跃(重定向到迪士尼) | |
Lycos | 活跃 | |
Infoseek | 不活跃(重定向到迪士尼) | |
1995 | Daum | 活跃 |
麦哲伦 | 不活跃 | |
Excite | 活跃 | |
SAPO | 活跃 | |
雅虎! (目录) | 活跃(自 2004 年起称为雅虎!搜索) | |
AltaVista | 不活跃(被雅虎!收购:2003 年,重定向:2013 年) | |
1996 | Dogpile | 活跃(聚合器) |
Inktomi | 不活跃(被雅虎!收购) | |
HotBot | 活跃(Lycos.com) | |
Ask Jeeves | 活跃(更名为 Ask.com) | |
1997 | 北方之光 | 不活跃 |
Yandex | 活跃 | |
1998 | 谷歌 | 活跃 |
Ixquick | 活跃(Startpage 的别名) | |
MSN 搜索 | 活跃(作为必应) | |
empas | 不活跃(与 NATE 合并) | |
1999 | AlltheWeb | 不活跃(重定向到雅虎!) |
GenieKnows | 活跃(更名为 Yellowee.com) | |
Naver | 活跃 | |
Teoma | 不活跃(重定向到 Ask.com) | |
Vivisimo | 不活跃 | |
2000 | 百度 | 活跃 |
Exalead | 活跃 | |
Gigablast | 活跃 | |
2001 | Kartoo | 不活跃 |
2003 | Info.com | 活跃 |
Scroogle | 不活跃 | |
2004 | 雅虎! 搜索 | 活跃(最初为雅虎! (目录),1995 年) |
A9.com | 不活跃 | |
搜狗 | 活跃 | |
2005 | AOL 搜索 | 活跃 |
SearchMe | 不活跃 | |
2006 | 搜搜 | 不活跃(重定向到搜狗) |
Quaero | 不活跃 | |
Search.com | 活跃 | |
ChaCha | 不活跃 | |
Ask.com | 活跃(最初为 Ask Jeeves,1996 年) | |
Live Search | 活跃(作为必应,最初为 MSN 搜索,1998 年) | |
2007 | wikiseek | 不活跃 |
Sproose | 不活跃 | |
维基百科搜索 | 不活跃 | |
Blackle.com | 活跃(谷歌的别名) | |
2008 | Powerset | 不活跃(重定向到必应) |
Picollator | 不活跃 | |
Viewzi | 不活跃 | |
Boogami | 不活跃 | |
LeapFish | 不活跃 | |
Forestle | 不活跃(重定向到 Ecosia) | |
DuckDuckGo | 活跃 | |
2009 | 必应 | 活跃(最初为 MSN 搜索,1998 年) |
Yebol | 不活跃 | |
Mugurdy | 不活跃 | |
Scout(由 Goby 提供) | 活跃 | |
NATE | 活跃 | |
Ecosia | 活跃 | |
2010 | Blekko | 不活跃(出售给 IBM) |
Cuil | 不活跃 | |
Yandex(英文) | 活跃 | |
2011 | YaCy | 活跃(点对点搜索引擎) |
2012 | Volunia | 不活跃 |
2013 | Qwant | 活跃 |
Infoseek | 不活跃(重定向到迪士尼) | |
2014 | Egerin | 活跃(库尔德语/索拉尼语搜索引擎) |
2015 | Cliqz | 活跃(浏览器集成搜索引擎) |
2016 | Search Encrypt | 活跃 |
互联网搜索引擎本身早于 1990 年 12 月的万维网首次亮相。Who is 用户搜索可以追溯到 1982 年[1],而 Knowbot Information Service 多网络用户搜索则首次在 1989 年实施[2]。第一个有据可查的搜索引擎搜索内容文件(即 FTP 文件)是Archie,它于 1990 年 9 月 10 日首次亮相[3]。
在 1993 年 9 月之前,万维网完全由人工索引。蒂姆·伯纳斯-李编辑了一个网页服务器列表,并托管在 CERN 网站上。谷歌网的一个 1992 年列表快照仍然存在[4],但随着越来越多的网页服务器上线,中央列表再也无法跟上。在 NCSA(国家超级计算应用中心)网站上,新服务器在标题“最新内容!”[5]下宣布。
第一个用于搜索 互联网上内容(而不是用户)的工具是 Archie[6]。这个名字代表“archive”,没有“v”。它是由艾伦·埃姆蒂奇、比尔·希兰和 J. 彼得·德意志创建的,他们都是加拿大魁北克省蒙特利尔麦吉尔大学的计算机科学学生。该程序下载了位于公共匿名 FTP(文件传输协议)站点上的所有文件的目录列表,以创建一个可搜索的文件名数据库;但是,Archie 搜索引擎并没有索引这些站点的內容,因为数据量非常有限,可以很容易地人工搜索。
Gopher(1991 年由明尼苏达大学的马克·麦卡希尔创建)的兴起导致了两个新的搜索程序:Veronica 和 Jughead。与 Archie 类似,它们搜索了存储在 Gopher 索引系统中的文件名和标题。Veronica(Very Easy Rodent-Oriented Net-wide Index to Computerized Archives)提供了对整个 Gopher 列表中大多数 Gopher 菜单标题的关键字搜索。Jughead(Jonzy's Universal Gopher Hierarchy Excavation And Display)是一个用于从特定 Gopher 服务器获取菜单信息的工具。“Archie 搜索引擎”这个搜索引擎的名称不是对 Archie 漫画系列的引用,但“Veronica”和“Jughead”是该系列中的角色,因此引用了它们的前辈。
在 1993 年夏天,还没有为网络创建搜索引擎,尽管许多专门的目录是由人工维护的。日内瓦大学的奥斯卡·尼尔斯塔兹编写了一系列 Perl 脚本,这些脚本定期镜像这些页面并将它们改写成标准格式。这为 W3Catalog(网络上第一个原始的搜索引擎)奠定了基础,W3Catalog 于 1993 年 9 月 2 日发布[7]。
1993 年 6 月,当时在麻省理工学院的马修·格雷制作了可能是第一个网络机器人,基于 Perl 的万维网漫游器,并使用它来生成一个名为“Wandex”的索引。漫游器的目的是测量万维网的大小,它一直这样做,直到 1995 年底。网络上的第二个搜索引擎 Aliweb 出现在 1993 年 11 月。Aliweb 没有使用网络机器人,而是依赖于网站管理员通知它在每个站点上是否有一个特定格式的索引文件。
国家超级计算应用中心的 Mosaic™ 网页浏览器不是第一个存在的浏览器,但它是第一个引起轰动的人[8]。1993 年 11 月,Mosaic v1.0 通过包含图标、书签、更具吸引力的界面和图片等功能,从现有浏览器的众多小包中脱颖而出——这些功能使软件易于使用,并吸引了“非极客”。
JumpStation(由乔纳森·弗莱彻于 1993 年 12 月创建[9])使用网络机器人来查找网页并构建其索引,并使用网络表单作为其查询程序的界面。因此,它是第一个将网络搜索引擎的三个基本特征(爬取、索引和搜索)组合起来的 WWW 资源发现工具,如下所述。由于它运行的平台上的资源有限,它的索引仅限于爬虫遇到的网页中的标题和标题,这种限制自然也延伸到对其执行的搜索。
第一个“全文本”基于爬虫的搜索引擎之一是 WebCrawler,它诞生于 1994 年。与它的前辈不同,它允许用户搜索任何网页上的任何单词,这已经成为现代所有主要搜索引擎的标准。它也是第一个被公众广泛知晓的搜索引擎。1994 年晚些时候,Lycos(起源于卡内基梅隆大学)发布,并在该领域成为一个主要的商业尝试。
很快,许多搜索引擎出现,并争夺人气。这些包括麦哲伦、Excite、Infoseek、Inktomi、北方之光和 AltaVista。雅虎! 是人们查找感兴趣网页的最受欢迎的方式之一,但它的搜索功能运行在其网页目录上,而不是其网页的全文副本。信息搜索者还可以浏览目录,而不是进行基于关键字的搜索。
1996 年,网景公司希望与一家搜索引擎达成独家协议,将其作为其同名网络浏览器的特色搜索引擎。 由于对此事兴趣浓厚,网景公司最终与五家主要的搜索引擎达成协议:每家搜索引擎每年支付 500 万美元,并在网景搜索引擎页面轮流展示。 这五家引擎分别是:雅虎、麦哲伦、莱科斯、信息寻求者和激动。 [10][11]
谷歌于 1998 年从一家名为 goto.com 的小型搜索引擎公司那里采用了出售搜索词的想法。 此举对搜索引擎行业产生了重大影响,该行业从苦苦挣扎转变成互联网上最赚钱的行业之一。 [12]
搜索引擎也被认为是 20 世纪 90 年代末互联网投资热潮中最耀眼的明星。 [13] 多家公司以惊人的速度进入市场,并在首次公开募股时获得了创纪录的收益。 有些公司已经撤下了其公共搜索引擎,并正在推广企业专用版本,例如北极光。 许多搜索引擎公司陷入了互联网泡沫的泥潭,互联网泡沫是一个由投机驱动的市场繁荣,于 1999 年达到顶峰,并于 2001 年结束。
- 2000 年左右,谷歌的搜索引擎开始崛起。 [14] 通过一项名为 PageRank 的创新技术,该公司在许多搜索方面取得了更好的结果,正如 Sergey Brin 和 Larry Page(谷歌的创始者)在名为《搜索引擎剖析》的论文中所解释的那样。 [15] 这种迭代算法根据链接到该网站和其他页面的其他网站和页面的数量和 PageRank 对网页进行排名,其前提是优秀或理想的页面比其他页面拥有更多链接。 谷歌还为其搜索引擎维护了一个极简的界面。 相反,它的许多竞争对手将搜索引擎嵌入到一个网络门户网站中。 事实上,谷歌搜索引擎变得如此流行,以至于出现了像神秘搜寻者这样的模仿引擎。
到 2000 年,雅虎开始提供基于 Inktomi 搜索引擎的搜索服务。 雅虎于 2002 年收购了 Inktomi,并在 2003 年收购了 Overture(拥有 AlltheWeb 和 AltaVista)。 雅虎使用谷歌搜索引擎直到 2004 年,当时它推出了自己的搜索引擎,该搜索引擎基于其收购的公司的技术组合。
微软于 1998 年秋季首次推出了 MSN 搜索,它使用的是 Inktomi 的搜索结果。 在 1999 年初,该网站开始显示来自 Looksmart 的列表,这些列表与来自 Inktomi 的结果混合在一起。 在 1999 年的一小段时间内,MSN 搜索使用了 AltaVista 的结果。 在 2004 年,微软开始过渡到自己的搜索技术,该技术由其自己的网络爬虫(称为 msnbot)提供支持。
微软的重新品牌搜索引擎必应于 2009 年 6 月 1 日推出。 2009 年 7 月 29 日,雅虎和微软最终敲定了一项协议,雅虎搜索将由微软必应技术提供支持。
方法
[edit | edit source]搜索引擎会以近乎实时的速度维护以下流程
- 网络爬取
- 索引
- 搜索[16]
网络搜索引擎通过从一个网站到另一个网站的网络爬取来获取信息。 "蜘蛛" 会检查针对它的标准文件名 robots.txt,然后根据许多因素(例如标题、页面内容、JavaScript、层叠样式表 (CSS)、标题(如标准 HTML 标记中所显示的信息内容或其在 HTML 元标记中的元数据)将某些信息发送回以进行索引。 "没有一个网络爬虫能够实际爬取整个可访问的网络。 由于网站数量无限、蜘蛛陷阱、垃圾邮件以及真实网络的其他紧急情况,爬虫会使用爬取策略来确定何时应认为对某个网站的爬取足够。 一些网站会被彻底爬取,而另一些网站只会被部分爬取"。 [17]
索引是指将网页上找到的单词和其他可定义的标记与其域名和基于 HTML 的字段关联起来。 这些关联在公开数据库中创建,以供网络搜索查询使用。 用户的查询可以是一个词。 索引有助于尽快找到与查询相关的信息。 [16] 一些索引和缓存技术是商业机密,而网络爬取则是以系统的方式访问所有网站的简单过程。
在 "蜘蛛" 的访问之间,搜索引擎工作内存中存储的页面的缓存版本(呈现该页面所需的部分或全部内容)会快速发送给查询者。 如果访问已过期,搜索引擎可以充当网页代理。 在这种情况下,该页面可能与索引的搜索词不同。 [16] 缓存的页面保留了其词语被索引的版本的显示外观,因此,当实际页面丢失时,页面的缓存版本对网站很有用,但这个问题也被认为是链接腐烂的一种轻微形式。
通常,当用户在搜索引擎中输入查询时,它通常包含几个关键词。 [18] 索引中已经包含了包含这些关键词的网站的名称,这些名称会立即从索引中获取。 实际的处理负载在于生成作为搜索结果列表的网页:列表中的每个页面都必须根据索引中的信息进行加权。 [16] 然后,最顶部的搜索结果项需要查找、重建和标记显示匹配关键词上下文的 "片段"。 这些只是每个搜索结果网页所需处理的一部分,而后续页面(紧随最顶部)需要进行更多这种后处理。
除了简单的关键词查找之外,搜索引擎还提供自己的基于 GUI 或命令的运算符和搜索参数来优化搜索结果。 这些提供了用户在反馈循环中进行 "过滤" 和 "加权" 时所需的控制,这些反馈循环是用户在查看初始搜索结果的第一页时创建的。 例如,从 2007 年开始,Google.com 搜索引擎允许用户通过点击初始搜索结果页面最左侧栏中的 "显示搜索工具",然后选择所需的日期范围来按日期 "过滤"。 [19] 也可能按日期 "加权",因为每个页面都有一个修改时间。 大多数搜索引擎支持使用布尔运算符 AND、OR 和 NOT 来帮助最终用户优化搜索查询。 布尔运算符用于字面搜索,允许用户优化和扩展搜索词。 引擎会按输入的准确方式查找单词或短语。 一些搜索引擎提供一种名为 "邻近搜索" 的高级功能,允许用户定义关键词之间的距离。 [16] 还有基于概念的搜索,其中研究涉及对包含您搜索的单词或短语的页面进行统计分析。 此外,自然语言查询允许用户以向人类提问的方式输入问题。 [20] 像这样的网站是 ask.com。 [21]
搜索引擎的有用性取决于它返回的 "结果集" 的相关性。 虽然可能存在数百万个包含特定单词或短语的网页,但有些网页可能比其他网页更相关、更受欢迎或更权威。 大多数搜索引擎使用方法对结果进行排名,以便首先提供 "最佳" 结果。 搜索引擎如何决定哪些页面是最匹配的页面,以及应该以什么顺序显示结果,在不同的引擎之间差异很大。 [16] 随着互联网使用量的变化和新技术的不断发展,这些方法也会随着时间的推移而改变。 搜索引擎主要发展出两种类型:一种是人类已广泛编程的预定义和分层排序关键词系统。 另一种是通过分析找到的文本生成 "反向索引" 的系统。 第一种形式更多地依赖于计算机本身来完成大部分工作。
大多数网络搜索引擎都是商业性企业,由 广告 收入支持,因此其中一些搜索引擎允许广告商付费将其列表在搜索结果中排名更高。 不接受搜索结果付费的搜索引擎通过在其搜索结果旁边展示与搜索相关的广告来赚钱。 每当有人点击这些广告之一时,搜索引擎就会赚钱。 [22]
市场份额
[edit | edit source]截至 2018 年 2 月,谷歌是全球最受欢迎的搜索引擎,市场份额为 74.52%。 [23]
全球最受欢迎的搜索引擎(市场份额 >1%)是
搜索引擎 | 市场份额(截至 2018 年 2 月) | |
---|---|---|
谷歌 | — | Template:Bartable |
必应 | Template:Bartable | |
百度 | Template:Bartable | |
雅虎! | Template:Bartable |
东亚和俄罗斯
[edit | edit source]在一些东亚国家和俄罗斯,谷歌不是最受欢迎的搜索引擎。
在俄罗斯,Yandex 的市场份额为 61.9%,而 Google 的市场份额为 28.3%。[24] 在中国,百度是最受欢迎的搜索引擎。[25] 韩国本土搜索门户 Naver 在该国占线上搜索量的 70%。[26] Yahoo! Japan 和 Yahoo! 台湾分别是最受欢迎的日本和台湾互联网搜索途径。[27]
欧洲
[edit | edit source]西欧市场主要由 Google 主导,但也有一些例外,比如捷克共和国,Seznam 是一个强大的竞争对手。[28]
搜索引擎偏差
[edit | edit source]虽然搜索引擎被编程为根据网站的受欢迎程度和相关性的某种组合对网站进行排名,但实证研究表明,它们提供的信息存在各种政治、经济和社会偏见[29][30] 以及对该技术的潜在假设。[31] 这些偏见可能是经济和商业过程(例如,在搜索引擎上投放广告的公司在搜索结果中也会变得更受欢迎)和政治过程(例如,删除搜索结果以遵守当地法律)的直接结果。[32] 例如,Google 不会在法国和德国展示某些新纳粹网站,在那里否认大屠杀是非法的。
偏见也可能是社会过程的结果,因为搜索引擎算法经常被设计成以更“流行”的结果为代价排除非规范性的观点。[33] 主要搜索引擎的索引算法倾向于覆盖美国网站,而不是非美国国家的网站。[30]
Google Bombing 是操纵搜索结果以达到政治、社会或商业目的的一种尝试。
一些学者研究了搜索引擎引发的文化变化[34] 以及它们的结果中某些有争议的主题的呈现方式,例如爱尔兰的恐怖主义[35] 和阴谋论。[36]
定制结果和过滤泡泡
[edit | edit source]许多搜索引擎,如 Google 和 Bing,会根据用户的活动历史提供定制结果。这会导致一种被称为过滤泡泡的效应。该术语描述了一种现象,即网站使用算法根据用户的相关信息(如位置、过去的点击行为和搜索历史)有选择地猜测用户想看到什么信息。因此,网站往往只显示与用户过去观点一致的信息,有效地将用户隔离在一个倾向于排除相反信息的泡泡中。典型的例子是 Google 的个性化搜索结果和 Facebook 的个性化新闻流。根据创造了这个词的 Eli Pariser 的说法,用户接触到冲突观点的机会减少了,他们在智力上被隔离在自己的信息泡泡中。Pariser 转述了一个例子,即一个用户在 Google 上搜索“BP”,结果得到关于英国石油的投资新闻,而另一个搜索者则得到关于深水地平线漏油事件的信息,这两个搜索结果页面“惊人地不同”。[37][38][39] 根据 Pariser 的说法,泡泡效应可能对公民对话产生负面影响。[40] 由于这个问题已被识别,出现了竞争的搜索引擎,它们试图通过不跟踪或“过滤”用户来避免这个问题,例如 DuckDuckGo。其他学者并不认同 Pariser 的观点,他们认为支持他论点的证据缺乏说服力。[41]
基督教、伊斯兰教和犹太教搜索引擎
[edit | edit source]在过去十年中,互联网和电子媒体在阿拉伯和穆斯林世界的全球发展鼓励了中东和亚洲次大陆的伊斯兰教信徒尝试创建自己的搜索引擎,创建自己的过滤搜索门户,使用户能够进行安全的搜索。与通常的安全搜索过滤器不同,这些伊斯兰网络门户将网站分类为“清真”或“禁戒”,基于现代专家对“伊斯兰法”的解读。ImHalal 于 2011 年 9 月上线。Halalgoogling 于 2013 年 7 月上线。这些搜索引擎对 Google、Bing(和其他搜索引擎)的集合使用禁戒过滤器。[42]
虽然穆斯林世界缺乏投资和技术发展缓慢阻碍了伊斯兰搜索引擎的进展,并阻碍了其成功,但穆斯林生活方式网站 Muxlim 这样的项目确实获得了 Rite Internet Ventures 等投资者的数百万美元投资,但它也失败了。其他宗教导向的搜索引擎包括 Jewgle,这是 Google 的犹太版本,以及 SeekFind.org,它是基督教的。SeekFind 过滤攻击或贬低他们信仰的网站。[43]
搜索引擎提交
[edit | edit source]搜索引擎提交是指网站管理员将网站直接提交给搜索引擎的过程。虽然搜索引擎提交有时被宣传为推广网站的一种方式,但它通常不是必要的,因为主要的搜索引擎使用网络爬虫,最终会找到互联网上大多数网站,无需任何帮助。他们可以一次提交一个网页,也可以使用网站地图提交整个网站,但通常只需要提交网站的主页,因为搜索引擎能够爬取设计良好的网站。提交网站或网页到搜索引擎还有两个原因:在不等待搜索引擎发现的情况下添加一个全新的网站,以及在网站进行大幅重新设计后更新网站记录。
一些搜索引擎提交软件不仅将网站提交到多个搜索引擎,还从自己的页面添加网站链接。这似乎有助于提高网站排名,因为外部链接是决定网站排名的最重要因素之一。然而,Google 的 John Mueller 已经表示,这“会导致你的网站出现大量的非自然链接”,对网站排名产生负面影响。[44]
另请参阅
[edit | edit source]参考资料
[edit | edit source]- ↑ Harrenstien, Ken; White, Vic (1982 年 3 月 1 日). "RFC 812 - NICNAME/WHOIS". Internet Engineering Task Force. Retrieved 2022 年 2 月 12 日.
- ↑ "Knowbot 编程:移动代理的系统支持". 国家研究倡议公司。
- ↑ Deutsch, Peter (1990 年 9 月 11 日). "[next] 一个互联网档案服务器服务器(关于 Lisp) - comp.archives". Google Groups. Retrieved 2022 年 2 月 12 日.
- ↑ "万维网服务器". 万维网联盟 (W3C). Retrieved 2022 年 2 月 12 日.
- ↑ "有什么新鲜事!1994 年 2 月". 马赛克通讯公司. Retrieved 2022 年 2 月 12 日.
- ↑ "互联网历史 - 搜索引擎(来自搜索引擎观察)". 莱顿大学. 2001 年 9 月. Archived from the original on 2009 年 4 月 13 日. Retrieved 2022 年 2 月 12 日.
- ↑ Nierstrasz, Oscar (1993 年 9 月 2 日). "可搜索的 WWW 资源目录(实验性)". Retrieved 2022 年 2 月 12 日.
- ↑ "启用发现 - NCSA Mosaic". 国家超级计算应用中心. Archived from the original on 2021 年 8 月 17 日.
- ↑ "有什么新鲜事,1993 年 12 月". 国家超级计算应用中心. 1993 年 12 月 28 日. Archived from the original on 2006 年 1 月 17 日. Retrieved 2022 年 2 月 12 日.
- ↑ "雅虎!和网景签署国际分销协议". 雅虎!. 1997 年 7 月 8 日. Retrieved 2022 年 2 月 12 日.
- ↑ "浏览器交易推动网景股票上涨 7.8%". 洛杉矶时报. 1996 年 4 月 1 日. Retrieved 2022 年 2 月 12 日.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ Pursel, Bart. "搜索引擎". 宾夕法尼亚州立大学出版社. Retrieved 2018 年 2 月 20 日.
- ↑ Gandal, Neil (2001). "互联网搜索引擎市场竞争动态". 产业组织国际期刊. 19 (7): 1103–1117. doi:10.1016/S0167-7187(01)00065-0.
- ↑ "我们的历史深入". W3.org. Retrieved 2012-10-31.
- ↑ Brin, Sergey; Page, Larry. "大型超文本网络搜索引擎的解剖" (PDF).
- ↑ a b c d e f Jawadekar, Waman S (2011), "8. 知识管理:工具与技术", 知识管理:文本与案例, 新德里:塔塔·麦格劳-希尔教育私人有限公司, p. 278, ISBN 978-0-07-07-0086-4, 检索于 2012 年 11 月 23 日
{{citation}}
: 未知参数|chapterurl=
被忽略 (|chapter-url=
建议) (帮助) - ↑ Dasgupta, Anirban; Ghosh, Arpita; Kumar, Ravi; Olston, Christopher; Pandey, Sandeep; and Tomkins, Andrew. 网络的可发现性. http://www.arpitaghosh.com/papers/discoverability.pdf
- ↑ Jansen, B. J., Spink, A., and Saracevic, T. 2000. 现实生活、真实用户和真实需求:对网络上用户查询的研究和分析。信息处理与管理. 36(2), 207-227.
- ↑ Chitu, Alex (2007 年 8 月 30 日). "轻松找到最近的网页". 谷歌操作系统. 检索于 2015 年 2 月 22 日.
- ↑ "多功能问答系统:综合视角", Mittal 等人,IJIIDS,5(2), 119-142, 2011.
- ↑ http://www.ask.com. 检索于 2015 年 9 月 10 日。
- ↑ "常见问题". RankStar. 检索于 2013 年 6 月 19 日.
- ↑ "桌面搜索引擎市场份额". NetMarketShare. 检索于 2018 年 2 月 15 日.
- ↑ "Live Internet - 网站统计". Live Internet. 检索于 2014-06-04.
- ↑ Arthur, Charles (2014-06-03). "中国科技公司准备主宰世界". 卫报. https://www.theguardian.com/world/2014/jun/03/chinese-technology-companies-huawei-dominate-world. 检索于 2014-06-04.
- ↑ "Naver 如何影响公司的生产力". 华尔街日报. 2014-05-21. 检索于 2014-06-04.
- ↑ "互联网帝国时代". 牛津互联网研究所. 检索于 2014-06-04.
- ↑ Seznam 在捷克共和国挑战谷歌. Doz.
- ↑ Segev, El (2010). 谷歌与数字鸿沟:在线知识的偏差,牛津:Chandos 出版社。
- ↑ a b Vaughan, Liwen; Mike Thelwall (2004). "搜索引擎覆盖偏差:证据和可能原因". 信息处理与管理. 40 (4): 693–707. doi:10.1016/S0306-4573(03)00063-3.
- ↑ Jansen, B. J. and Rieh, S. (2010) 信息搜索和信息检索的十七个理论结构. 美国信息科学与技术协会杂志. 61(8), 1517-1534.
- ↑ 伯克曼互联网与社会中心 (2002), "在中国用替代搜索系统替换谷歌:文档和截图", 哈佛法学院。
- ↑ Introna, Lucas; Helen Nissenbaum (2000). "塑造网络:为什么搜索引擎的政治很重要". 信息社会:国际期刊. 16 (3). doi:10.1080/01972240050133634.
- ↑ Hillis, Ken; Petit, Michael; Jarrett, Kylie (2012-10-12). 谷歌与搜索文化. 劳特利奇. ISBN 9781136933066.
- ↑ Reilly, P. (2008-01-01). Spink, Prof Dr Amanda; Zimmer, Michael (eds.). ‘Googling’ Terrorists: Are Northern Irish Terrorists Visible on Internet Search Engines?. Information Science and Knowledge Management. Springer Berlin Heidelberg. pp. 151–175. doi:10.1007/978-3-540-75829-7_10. ISBN 978-3-540-75828-0.
- ↑ Ballatore, A. "Google chemtrails: A methodology to analyze topic representation in search engines". First Monday.
- ↑ Parramore, Lynn (10 October 2010). "The Filter Bubble". The Atlantic. https://www.theatlantic.com/daily-dish/archive/2010/10/the-filter-bubble/181427/. Retrieved 2011-04-20. "Since Dec. 4, 2009, Google has been personalized for everyone. So when I had two friends this spring Google "BP," one of them got a set of links that was about investment opportunities in BP. The other one got information about the oil spill...."
- ↑ Weisberg, Jacob (10 June 2011). "Bubble Trouble: Is Web personalization turning us into solipsistic twits?". Slate. http://www.slate.com/id/2296633/. Retrieved 2011-08-15.
- ↑ Gross, Doug (May 19, 2011). "What the Internet is hiding from you". CNN. http://edition.cnn.com/2011/TECH/web/05/19/online.privacy.pariser/. Retrieved 2011-08-15. "I had friends Google BP when the oil spill was happening. These are two women who were quite similar in a lot of ways. One got a lot of results about the environmental consequences of what was happening and the spill. The other one just got investment information and nothing about the spill at all."
- ↑ Zhang, Yuan Cao; Séaghdha, Diarmuid Ó; Quercia, Daniele; Jambor, Tamas (February 2012). "Auralist: Introducing Serendipity into Music Recommendation" (PDF). ACM WSDM.
- ↑ O'Hara, K. (2014-07-01). "In Worship of an Echo". IEEE Internet Computing. 18 (4): 79–83. doi:10.1109/MIC.2014.71. ISSN 1089-7801.
- ↑ "New Islam-approved search engine for Muslims". News.msn.com. Retrieved 2013-07-11.
- ↑ "Halalgoogling: Muslims Get Their Own "sin free" Google; Should Christians Have Christian Google? - Christian Blog". Christian Blog.
- ↑ Schwartz, Barry (2012-10-29). "Google: Search Engine Submission Services Can Be Harmful". Search Engine Roundtable. https://www.seroundtable.com/search-engine-submission-google-15906.html. Retrieved 2016-04-04.
Further reading
[edit | edit source]- Steve Lawrence; C. Lee Giles (1999). "Accessibility of information on the web". Nature. 400 (6740): 107–9. doi:10.1038/21987. PMID 10428673.
{{cite journal}}
: Cite has empty unknown parameter:|quotes=
(help)CS1 maint: multiple names: authors list (link) - Bing Liu (2007), Web Data Mining: Exploring Hyperlinks, Contents and Usage Data. Springer,ISBN 3-540-37881-2
- Bar-Ilan, J. (2004). The use of Web search engines in information science research. ARIST, 38, 231-288.
- Levene, Mark (2005). An Introduction to Search Engines and Web Navigation. Pearson.
- Hock, Randolph (2007). The Extreme Searcher's Handbook.ISBN 978-0-910965-76-7
- Javed Mostafa (February 2005). "Seeking Better Web Searches". Scientific American.
{{cite journal}}
: Cite has empty unknown parameter:|quotes=
(help) - Ross, Nancy; Wolfram, Dietmar (2000). "End user searching on the Internet: An analysis of term pair topics submitted to the Excite search engine". Journal of the American Society for Information Science. 51 (10): 949–958. doi:10.1002/1097-4571(2000)51:10<949::AID-ASI70>3.0.CO;2-5.Xie, M.;等 (1998). "互联网搜索引擎的质量维度". 信息科学杂志. 24 (5): 365–372. doi:10.1177/016555159802400509.
- 信息检索:实现和评估搜索引擎. 麻省理工学院出版社. 2010.