搜索引擎的工作原理

搜索引擎的作用

搜索引擎:运用特定的计算机程序从网上搜集信息,在对信息进行组织和处理后,将与用户搜索的相关信息展示给用户。

搜索引擎的主要任务:

一、尽可能的收录更多的页面

搜索引擎收录的页面越多,其给出的结果准确性就越高。

二、尽可能将与访客搜索词更相关页面排名靠前

搜索引擎在对页面的组织与处理过程中,应该将与搜索词最相关的页面给计算出来,优先展示给访客。

三、尽可能将质量高的页面排名靠前

如阅读通顺,网站访问速度快,页面整洁,美观,令访客友好的页面,尽量给予好的排名。

搜索引擎工作原理

一、抓取

发现某一个链接~抓取网页~保存到临时数据库~提取网页中的链接~再抓取网页~循环。

理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。

二、处理

搜索引擎抓到网页后,还要做大量的预处理工作。其中,最重要的就是提取关键词,建立索引库和索性。其他还包括去除重复网页、去网页内噪声内容,分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度/友好度等。

1.判断重复:是否与仓库内网页重复

重复:丢弃

不重复:继续下一步处理

2.分析超链接:这个网页指向何处?以什么词指向?

3.去噪:去除网页内部的噪声内容,噪声内容是指网页中与其应用目的不相符的内容,如广告、导航信息(网页顶部导航,底部导航)等。。。。。。

4.分词:这个网页内容都提到了些什么?

5.提取关键词:经过切词之后,过滤掉一些无效词(如你,我,他,的,一切,如果,那么,等)结合网站各种标签<title>,<keywords>,<description>,<h1>,<h2>,<strong>等提取出该页面主要的关键词,并建立相应的记录以备查询。

6.计算网页的重要度/丰富度/友好度。

重要度:如判断当前页面是首页,栏目页或是内容页等等。

丰富度:切词并提前关键词之后,有意义的关键词越多,说明该页面越丰富。

友好度:网页访问速度,是否弹窗广告,字体大小,字体颜色,背景颜色,文章长短等。

三、接受搜索并展示结果

用户输入关键词进行搜索,搜索引擎从数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。

总结:

一、搜索引擎的作用

运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,将用户搜索的相关信息展示给用户。

二、搜索引擎的主要任务

1.尽可能多的收录更多的页面。

2.尽可能将与访客搜索词更相关的页面排名靠前。

3.尽可能将质量高的页面排名靠前。

三、搜索引擎的工作原理

1.抓取。

2.处理(去重复,分析超链接,去噪,切词,提取关键词,计算重要度/丰富度/友好度)。

3.接受搜索并展示结果。

👋 感谢您的观看!

© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享