我们是怎么通过搜索引擎搜索到网站的

2018-06-28 13:14 评论 0 条

一、发现、搜集网页信息

搜索引擎拥有一个能够在网上发现新网页,并抓起文件的程序,我们通常把这个程序叫做“网络蜘蛛”程序(Spider)或者“机器人”(Robot)。一个典型的网络蜘蛛工作的方式是查看一个网页,这个网页是蜘蛛已知的页面,并从中找到相关信息,这颇像正常用户的浏览器工作原理,在浏览和抓取完这个页面的信息之后,它就开始继续爬行,从该页面的所有链接中出发,继续寻找相关的信息,以此类推,直到尽头。

网络蜘蛛要求快速、全面。网络蜘蛛为实现快速浏览,整个互联网通常在技术上采用抢先式多线程技术实现在网上聚集信息。

二、建立索引。

搜索引擎搜索是以网页中的词语为关键词,建立的便于查询的有序文件条目,存储于搜索引擎的索引库中,索引通常分为正排索引和倒排索引两种。

正牌所以是搜索引擎将抓取的网页,进行分词,降噪等操作后,以网页文件为单位,对网页,文件中关键词的映射。简单的说就是正排索引是将网页文件的各个关键词信息存为一个项,包括关键词的次数,频率,加粗加黑,出现的位置信息等,并按照重要程度对关键词进行有序排列。

倒排索引是搜索引擎以关键词为单位,对不同网页文件的映射。也就是说,搜索引擎以关键词为条目名,内容是含有相同关键词的网页文件排序,用户常用的关键词搜索就是调用倒排索引。

 

版权声明:本文著作权归原作者所有,欢迎分享本文,谢谢支持!
转载请注明:我们是怎么通过搜索引擎搜索到网站的 | 鹏飞园
分类:学无止境 标签:

发表评论


表情