大多数网站都有一个robots协议,robots协议也称爬虫协议、爬虫规则等,是指网站可建立一个robots.txt文件来告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,而搜索引擎则通过读取robots.txt文件来识别这个页面是否允许被抓取。但是,这个robots协议不是防火墙,也没有强制执行力,搜索引擎完全可以忽视robots.txt文件去抓取网页的链接。如果想单独定义搜索引擎访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据(Metadata,又称元数据)。
![图片[1] - seo优化协议robots seo的意义 - 鹿泽笔记](https://www.bailuze.com/wp-content/uploads/2024/06/20240625112448.png)
robots协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。robots seo在seo优化协议中发挥着重要的作用。
1、使用robots协议可以帮助搜索引擎抓取到网站的有效页面,无效页面不会放出收录,从而节省了很长的抓取时间,便于搜索引擎蜘蛛抓取更多的页面。
2、过多蜘蛛对所有文件进行抓取,是在浪费服务器的资源,造成服务器卡顿,反而会影响用户正常访问,同时对蜘蛛访问也有影响,如果蜘蛛抓取过慢会认为网站打开过慢,不仅仅导致整个站点的页面收录受到影响,而且会被受到网站服务器过慢惩罚。因此使用robots协议限制很多内容,可以便于抓取。
3、在robots.txt文件里设置禁止动态网页被蜘蛛索引,以保证这些网页不会被视为含重复内容抓取。
很多seo优化协议需要我们细心去设置,其实你要想比竞争对手做的更好,那么你就需要做的更仔细。
拓展阅读:robots文件该如何写:什么是robots.txt?robots文件的写法
1、robots.txt的几个关键语法:
a、User-agent: 应用下文规则的漫游器,比如Googlebot,Baiduspider等。
b、Disallow: 要拦截的网址,不允许机器人访问。
c、Allow: 允许访问的网址
d、”*” : 通配符—匹配0或多个任意字符。
e、”$” : 匹配行结束符。
f、”#” : 注释—说明性的文字,不写也可。
g、Googlebot: 谷歌搜索机器人(也叫搜索蜘蛛)。
h、Baiduspider: 百度搜索机器人(也叫搜索蜘蛛)。
i、目录、网址的写法:都以以正斜线 (/) 开头。
如
Disallow:/
Disallow:/images/
Disallow:/admin/
Disallow:/css/
2、列举一些robots.txt 具体用法:
(1)允许所有的robot访问
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
或者建一个空文件”robots.txt”即可。
(2)仅禁止某个机器人访问您的网站,如Baiduspider。
User-agent: Baiduspider
Disallow: /
3、仅允许某个机器人访问您的网站,如Baiduspider。
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
4、禁止访问特定目录
User-agent: *
Disallow: /admin/
Disallow: /css/
Disallow:
要拦截对所有包含问号 (?) 的网址的访问(具体地说,这种网址以您的域名开头、后接任意字符串,然后接问号,而后又接任意字符串),请使用以下内容:
User-agent: Googlebot
Disallow: /*?
要指定与某个网址的结尾字符相匹配,请使用 $。例如,要拦截以 .xls 结尾的所有网址,请使用以下内容: User-agent: Googlebot
Disallow: /*.xls$
您可将此模式匹配与 Allow 指令配合使用。例如,如果 ? 代表一个会话 ID,那么您可能希望排除包含 ? 的所有网址,以确保 Googlebot 不会抓取重复网页。但是以 ? 结尾的网址可能是您希望包含在内的网页的版本。在此情况下,您可以对您的 robots.txt 文件进行如下设置:
User-agent: *
Allow: /*?$
Disallow: /*?
Disallow: /*? 指令会阻止包含 ? 的所有网址(具体地说,它将拦截所有以您的域名开头、后接任意字符串,然后接问号,而后又接任意字符串的网址)。
Allow: /*?$ 指令将允许以 ? 结尾的任何网址(具体地说,它将允许所有以您的域名开头、后接任意字符串,然后接 ?,? 之后不接任何字符的网址)。
PS:一般网站查看robots.txt文件的方法是主页后面加robots.txt就可以,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。
👋 感谢您的观看!