鹿泽鹿泽  2024-02-27 10:36:28 鹿泽笔记 隐藏边栏  0 

搜索引擎收集互联网上的页面包含的所有文本,将数百万台专业计算机组合成所谓的搜索引擎蜘蛛,抓取完所有可以访问的网页,解析这些页面的内容,并将它们存储在遍布整个网络的大型数据库中。它们的任务是获取存储在这些数据库中的所有内容,并找到使用它来对与用户按相关性排序的任何可能的关键字或短语匹配的网页进行排名的方法。

1、解析网页的内容

搜索引擎试图从人类用户的角度查看网页,但在确定页面的内容时必须推断出页面上的哪些单词或短语最为重要。网页包含HTML标记,并且在根据诸如字体大小,页面上的位置和字体可读性等因素进行索引时,网页上的术语可以被赋予更多权重。

网页还可以指定内容所在的语言,但是大多数搜索引擎现在能够执行语言识别以自动确定网页的语言。此外,页面上出现的术语可能会受到称为词干的过程。

2、创建倒置索引

大多数搜索引擎使用倒排索引来存储网页内容。考虑倒排索引如何存储和处理所有内容的方法是将搜索引擎的索引视为教科书背面的索引。书的索引包含书中使用的单词列表及其出现的页面。如果要列出所有网页上显示的所有唯一字词列表,则该列表将比所有网页的内容长度小得多,因为大多数字词都显示在多个网页上。

3、存储数十亿的关键词和短语

搜索互联网上显示的所有唯一术语列表比搜索所有网页的完整内容要快得多,但该列表仍然太大,无法用于将网站与显示在上面的关键字进行实时匹配。对此的解决方案是将网页的内容存储为具有n个长度的子串,并且大多数搜索引擎可能使用三元组来执行此操作。

4、优化重要关键字的内容

为了确保网页显示在为给定关键字返回的结果列表中,可以做的最重要的事情是将该关键字放在页面上的可见位置,然后在页眉中使用它,元信息,页面的标题,以及相关上下文中的正文文本。

可能影响搜索引擎如何确定术语在页面上的相关性的其它因素是该术语出现的频率,逆文档频率和长度归一化等。

1、文章版权归作者所有,未经允许请勿转载。
2、本站所有文章,如无特殊说明或标注,均为本站原创发布。任何在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们邮箱:526009505@qq.com进行处理。
3、咨询请联系QQ:526009505