鹿泽笔记 - 记录互联网技术知识,工作与生活点滴的个人博客

关于抓取与索引之间的seo实战优化

大多数SEO优化不需要掌握技术SEO的细节。但如果有一个基础主题是我们学科中的每个人都应该理解的,那就是抓取和索引。为什么?如果没有它们,URL永远不会进入到搜索引擎结果,因此SEO就会成为问题。另外,这是可以告诉谷歌做什么的少数情况之一。

下面,我们将seo实战优化抓取与索引之间的区别、两者对SEO的影响,以及可以使用的工具来优化它们。

SEO中的爬行和索引有什么区别?

抓取和索引通常是同一对话的一部分,但它们是不同的过程,Google通过不同的内部机制来处理它们。

抓取是搜索引擎访问和读取域中URL内容的方式-如果它们能够根据设置的规则执行此操作。

而索引特定于搜索引擎如何以及是否在用户结果中显示URL。

SEO中的爬行是什么?

当我们谈论技术SEO领域的爬行时,谁(或更准确地说,什么)爬行是一个重要的起点。爬网由机器人、脚本或程序执行。每个搜索引擎都使用自己独特的机器人来抓取网站,称为搜索引擎爬虫。就Google而言,它就是Googlebot。抓取网站时,它会抓取它可以访问的每个URL特有的重要元素,包括:

  • 元机器人标签
  • 规范网址
  • 搜索引擎优化标题
  • 元描述
  • 包括标题的页面副本
  • 内部链接
  • 外部链接

在本文中,我们不会深入探讨搜索引擎爬虫如何工作的技术和后端细节。相反,我们将重点关注抓取如何影响域的SEO以及可以采取哪些措施来控制它。

每个SEO应该了解的关于爬行的知识

当搜索引擎机器人“抓取”URL时,它会收集关键上下文以在索引和排名期间使用(这也是独立的过程)。

为了将URL包含在索引中(也称为搜索引擎结果页面上显示的URL库),搜索引擎需要访问页面的HTML元素-其中一些元素会显示是否公开索引该页面。

如果机器人无法访问HTML,搜索引擎就无法确定该页面是否可用于索引,或者它应该根据内容排名如何。大多数情况下,该URL不会显示在搜索引擎结果页面中,如果出现,排名也不会很好。

搜索引擎如何发现要抓取的URL?

搜索引擎基本上有两种方法来发现域中的URL。

  • 它们在XML站点地图中提交。
  • 有内部页面或外部站点链接到该URL。

如果没有其中至少一项,Google就无法发现该URL。它无法抓取它不知道的东西。

如果爬虫可以访问一个URL,它是否可以爬取所有内容?

在以往的SEO认知中,这取决于如果搜索引擎爬虫可以访问某个页面,并不意味着它可以自动抓取该内容。在许多网站上,搜索引擎必须解压JavaScript才能抓取部分甚至全部重要元素。

当抓取这些类型的网站时,谷歌会转向第三个,也是一个单独的过程,称为渲染。这有点超出了我们这里讨论的范围,因为它涉及JavaScript SEO。需要记住的重要一点是,Javascript问题有时会导致爬行和索引编制出现混乱,而且当这种情况发生时,通常会大规模发生。

SEO中的抓取预算是什么?

抓取预算是可能会听到的一个术语,但大多数网站都没有大到足以担心它。事实上,只有网络巨头(至少是成千上万个URL)才会遇到问题。

从最简单的意义上来说,网站的抓取预算是Google在给定时间内抓取该域所花费的时间和资源。

爬行如何影响SEO?

这是关于爬行机器人的事情。它们生来就是为了做一件事。它们对于爬什么或不爬什么没有任何概念。它们需要指示。

如果没有规则来让爬虫专注于正确的页面,它们可能会漫无目的地进入网站的角落。想一想:不再使用的子域、搜索URL的无穷变化、基于参数的跟踪URL……毫无意义的抓取浪费时间。

通过使用可以使用的工具将爬虫引导至重要的页面,它将资源集中在用于SEO的页面上。这是一个积极的因素,因为爬虫不必比它们需要的更加努力地工作,或者遇到尽可能多的潜在状态代码错误。

所以网站看起来不错。另外,有很多页面根本不适合爬虫。

应该让搜索引擎抓取什么?

  • 主页
  • 产品和/或服务页面(及其变体)
  • 与渠道无关的登陆页面
  • 博客文章
  • 资源和模板
  • 图像和脚本 URL(包括 JavaScript 和 CSS)

哪些内容不应该让搜索引擎抓取?

  • 包含个人信息(企业或用户)的页面
  • 结账页面
  • 用户必须登录才能查看的URL
  • 用于插件或API功能(而非内容)的URL
  • 非常用的管理页面(例如特定于一次性促销或赠品的条款和条件)
  • 重复内容过多(当爬行预算是一个问题时)
  • 由站点搜索功能生成的URL

SEO中的索引是什么?

“索引”是搜索引擎将其编录为潜在搜索结果的完整URL库。当谈论SEO索引时,我们谈论的是URL是否是该库的一部分-也称为“索引”。

抓取通常在索引之前进行,因为Google需要有关是否应该索引页面的信息,以及有关该页面的内容的信息。

每个SEO应该了解的关于索引的知识

需要发送所有正确的信号,以便搜索引擎知道它们是否有权对URL建立索引。

但搜索引擎需要确定两件事才能建立索引:

是否有权限索引页面
该页面是否值得被索引

仅仅因为搜索引擎有权限对某些内容建立索引并不意味着它会这样做。

Google会允许每个页面编入索引吗?

我们已经给出了这个问题的答案。

可索引的URL应该是可爬行且可发现的。如果一个页面是可索引的,但搜索引擎从未找到它,那么它就不会进入索引。

但即使Google找到某个URL并对其进行抓取,它也有可能不会对该页面建立索引。搜索引擎需要确保为用户提供有用的内容,以创造积极的体验。

如果页面或域的质量较低,Google可能会认为该内容不会让用户受益。当然,它并不总是完美的,低质量的内容确实会进入索引。

如果使页面可索引,请这样做,因为它首先对用户有价值。

搜索引擎可以对它无法抓取的URL建立索引吗?

不会这么认为,因为爬行通常先于索引。但有一个重要的警告。

有时,搜索引擎会根据无法控制的信号(主要是反向链接)假设不希望抓取的页面在索引中具有价值。

索引如何影响SEO?

首先,有一个显而易见的答案。对于要推荐URL的搜索引擎,它必须是该搜索引擎索引的一部分。然而,它并不那么简单,因为索引中更多的URL本质上意味着更好的SEO性能。搜索引擎如何看待网站的权威性和相关性很大程度上与其内容的质量有关。

当Google可以索引的大部分页面质量相对较低或重复时,它可以认为该域作为一个整体也是如此。这些页面过多会导致内容稀薄的问题,进而拖累所有内容并需要进行内容修剪。

控制搜索引擎应该和不应该索引的内容是保护域的有效方法之一。如果Google只能索引并推荐网站中的优质内容,它就会认为整个网站符合该标准。

应该让Google索引什么?

  • 主页
  • 产品和/或服务页面(拥有足够产品导致潜在抓取预算问题的网站除外)
  • 与渠道无关的登陆页面
  • 博客文章
  • 资源和模板
  • 作者简介页面
  • 与用户搜索词相关的过滤器和构面生成的URL

哪些内容不应该让搜索引擎索引?

  • 低质量或重复的页面
  • 联系表格确认“谢谢”页面
  • 非公开信息

哪些SEO标签和工具控制抓取和索引?

SEO可以使用的爬行和索引工具非常强大,而且它们在很大程度上是一个工具集。每个都有其理想的用例、优点和缺点。为了达到最有效的效果,SEO应该根据其最擅长的内容来应用每一项。

robots.txt

robots.txt是一个文本文件,其中包含告诉机器人/蜘蛛(如Googlebot)它们可以访问和不能访问的内容的说明。它是在域和子域级别实现的,而不是在页面级别实现的。

在SEO中,它是一种控制抓取的工具。它不会直接影响索引。但正如我们提到的,在大多数情况下,它会阻止页面被索引,因为Googlebot无法抓取被阻止的URL来评估可索引性。

关键术语

  • 用户代理:指示的目标机器人或蜘蛛
  • 允许:用户代理可以抓取的内容
  • Disallow:阻止用户代理爬行的内容

它擅长什么?

  • 此文件控制一次对多个页面的爬网-无论是站点级别、目录和文件夹级别,还是可以在语法中定义的任何页面集。
  • 它有助于使用单一规则阻止大量不相关、重复或低质量的内容(例如电子商务网站上的重复方面)。
  • 用户友好、简单的模式匹配语法易于编辑。
  • 站点能够为特定的机器人/蜘蛛设置指令。

不足之处

  • robots.txt仅控制抓取,而不控制索引。
  • 该工具不适用于页面级控制,因此使用它来禁止单个URL很快就会变得混乱。
  • 该文件可公开访问,因此不应包含任何包含不可被抓取的文本。
  • 如果使用不当,它可能会错误地阻止网站的大部分内容。

Google Search Console 的robots.txt 报告可测试文件是否按预期运行。必应也有一个。此外,Screaming Frog 的工具可即时编辑和测试规则。

不要将其用作取消索引工具,阻止已索引的 URL不会提示 Google 取消索引。会在“已编入索引,但已被 robots.txt 阻止”报告中找到仍已编入索引的页面。

元机器人标签

Meta Robots是一段代码,可以将其添加到URL的<head>HTML或标头响应中,以实现抓取和索引的页面级控制。这就是为什么它在完整的代码片段中包含两个指令。通常,两者都包含在内,但包含其中之一也可以。

第一个让搜索引擎知道是否对该页面建立索引(“index”或“noindex”)。第二个告诉爬虫是否遵循它们找到的链接并爬行这些页面(“follow”或“nofollow”)。

如果不包含此标签,则默认假定状态是索引并关注该页面。

关键术语

四种最常用的元机器人标签组合(按从最常用到最少使用的顺序排列)是:

  • “index,follow”-搜索引擎应该索引页面,抓取链接,并抓取任何链接的页面。
  • “noindex,nofollow”-搜索引擎不应索引或抓取页面。(通常称为“无索引”。)
  • “noindex,follow”-不将该页面包含在索引中,但对其进行抓取并临时将PageRank传递给任何链接的页面。
  • “index,nofollow”-为页面建立索引,但不抓取或跟踪任何链接。(这种情况相当罕见,但赞助内容可能是一个很好的用例。)

它擅长什么

  • 该标签对于页面来说是唯一的,因此它允许对各个URL进行精细控制。
  • 由于它被视为“指令”,搜索引擎将遵循该指令。它在控制指数化方面非常有效。
  • 可以为特定的机器人/蜘蛛设置指令。

不足之处

  • 它不被认为是节省抓取预算的好工具,因为Google仍然需要检查每个页面以确定可索引性。
  • 在某些技术设置中,如果没有开发帮助,更新某些页面的元机器人标签可能并不容易或不可能。

记住:

  • 元机器人标记不是必需的,因此当缺少它时,Google会假设它可以抓取该URL并为其建立索引。
  • 搜索引擎无法针对被robots.txt阻止的URL遵循元机器人指令(因为它们无法抓取该标记)。
  • 使用“noindex,follow”标签,Google最终会忽略“follow”命令并将其读取为“noindex,nofollow”命令。
  • 如果元机器人标签是在JavaScript中提供的,Google可能看不到它。(如果确实如此,并且与服务器响应HTML中的标记冲突,结果将会有所不同。)

规范标签

规范URL是也包含在<head>中的代码片段。它不是向搜索引擎提供指令,而是建议。

该标签可帮助搜索引擎了解重复或接近重复的页面之间的关系,以及哪个URL是原始页面。但最终,搜索引擎仍然可以抓取每个页面并选择要索引的页面-即它可以并且将会忽略该建议。

例如,如果站点允许在类别登陆页面上进行过滤和分面,则它可能具有同一根URL的多个变体以及附加参数。规范URL可以帮助Google了解哪个是源页面。

规范标签对于描述哪个页面在其它常见情况下优先也很有用:

  • 针对特定受众的着陆页有细微的变化。
  • 在不同网站上逐字重新发布的内容。
  • 附加跟踪参数的URL。
  • 同一产品特定配置的URL。

关键术语

  • 规范化-URL的规范标签指示另一个URL是该页面的主要版本。
  • 自规范化-URL的规范标签与URL本身匹配,表明它是页面的主要版本。

它擅长什么

  • 规范URL仍然会传递PageRank,这使得该标签非常适合巩固重复或接近重复页面的权益。
  • 此方法避免了重复内容问题,同时使搜索引擎能够灵活地推荐对用户有帮助的变体。
  • 使用流行的CMS插件来实现该标签相对简单。

不足之处

  • 规范很容易被滥用,在这种情况下,谷歌很可能会忽略它们。(它适用于重复项和非常接近的重复项——不要进一步扩展)
  • 非规范变体的内部和外部链接是Google忽略规范说明的最常见原因。
  • 规范标签并不是解决抓取预算问题的好方法,因为Google会定期抓取规范化页面并检查每个URL中是否有该标签。

记住:

  • 没有规范说明的页面被视为自规范页面。
  • 在某些一次性情况下,如果Google认为规范化URL能够更好地满足用户意图,则Google将忽略规范标签。
  • 规范标签中包含的任何URL都应引用自规范化页面,否则会产生称为规范链的问题。
  • 分页URL(引用列表结果页面第2页以上的URL)应自我规范化;毕竟,它们是有效的页面变体。
  • 始终在规范标记中使用完整路径、区分大小写的URL。
  • 如果规范标签是在JavaScript中提供的,Google可能看不到规范标签。(如果是这样,JS中的标记可能与服务器响应HTML中的标记冲突,因此结果可能会有所不同。)
  • 与元机器人标签类似,搜索引擎无法抓取任何被robots.txt阻止的网址上的规范标签。

什么适合我们的网站?

虽然这些规则和工具适用于跨站点,但爬网和索引的理想设置是特定于我们自己的域的。毕竟,没有两个领域具有完全相同的内容、业务或目标。

现在已经了解了爬行和索引之间的区别、它们如何影响SEO,以及可以使用的工具来控制它们,已经准备好弄清楚这对网站意味着什么。

👋 感谢您的观看!

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享